2014年10月3日金曜日

scikits-learn データセットの読み込み:トイデータ

概要

このページをもとにする
http://scikit-learn.org/stable/datasets/index.html

機械学習で使える様々なデータを読み込んだり生成したりするためのAPI集。 

これ以降のサンプルコードは

import sklearn.datasets as d 

を実行した後を仮定。

 

トイデータセット

ダウンロードせずに読み込めるとても小さいデータたち。
とりあえず試すには良いが、現実的なタスクにはならない。 

 

load_boston:  ボストンの家の価格データ。回帰用。

506 個のデータで、価格や部屋数など 13 次元の特徴量と価格がセットになっている。
データの抜けはなし。下記コードで読み込める。

x = d.load_boston()

x.data
(506, 13) サイズの array になっていて、特徴量ベクトル。

x.target
(506, ) サイズの array で、回帰する対象。 

x.feature_names 
文字列の配列で、13 次元の特徴量の名前が書かれている。

x. DESCR
データセットの特徴を記述した文章。
print x.DESCR
で読める。 

 

load_diabetes: 糖尿病データセット。回帰用。

442 個のデータで、 10 次元の特徴量と、1個のか回帰データがある。
特徴量は年齢、血圧などの生理学的な特徴で、
回帰対象は1年後の病気の進行度らしい。
http://www.math.unipd.it/~aiolli/corsi/1314/aa/user_guide-0.12-git.pdf

x = d.load_diabetes()

で読み込んで、

x.data で (442, 10) の特徴量ベクトルが手に入り、
x.target で (442, ) の回帰対象ベクトルが手に入る。 

 

 

load_iris: アヤメの特徴と種のデータ。分類用。

150個のデータで、3種類のアヤメ (setosa, versicolor, virginica) のラベルと
その特徴量 4 つが手に入る多クラス分類用データ。

x = d.load_iris()

で読み込める。

x.data 
(150, 4) サイズの array になっていて、特徴量ベクトル。

x.target
(150, ) サイズの array で、回帰する対象。0-2 の整数がはいる。 

x.feature_names 
文字列の配列で、13 次元の特徴量の名前が書かれている。

x.target_names
文字列の配列で、target の値ごとの花の名前が書かれている。 

x. DESCR
データセットの特徴を記述した文章。
print x.DESCR
で読める。 

 

load_digits: 手書き画像データ。分類用。

1797 個の、0-9 の数字を書いた 8x8 の画像セット。

x = d.load_digits()

で読み込める。

x.images
(1797, 8, 8) のデータ。 8x8 の画像が 1797 個ある。

x.data
(1797, 64) のデータ。8x8 の画像が 64次元の 1本のベクトルになったもの

x.target
(1797, ) のデータ。上記画像データの数字を表すラベル。 

x.target_names
データ。[0-9]

x.DESCR
データの説明文。 

 

load_linnerud: 重回帰用

20個の、3次元特徴量と3次元の回帰対象のセット。

x = d.load_linnerud()

で読み込める。

x.data
(20, 3) の特徴量データ

x.target
(20, 3) の回帰対象データ 

x.feature_names
x.data の各次元の名前

x.target_names
x.target の各次元の名前

x.DESCR
データの説明文 

 

参考文献

http://www.math.unipd.it/~aiolli/corsi/1314/aa/user_guide-0.12-git.pdf

 

0 件のコメント:

コメントを投稿