概要
このページをもとにする
http://scikit-learn.org/stable/datasets/index.html
機械学習で使える様々なデータを読み込んだり生成したりするためのAPI集。
これ以降のサンプルコードは
import sklearn.datasets as d
を実行した後を仮定。
トイデータセット
ダウンロードせずに読み込めるとても小さいデータたち。
とりあえず試すには良いが、現実的なタスクにはならない。
load_boston: ボストンの家の価格データ。回帰用。
506 個のデータで、価格や部屋数など 13 次元の特徴量と価格がセットになっている。
データの抜けはなし。下記コードで読み込める。
x = d.load_boston()
x.data
(506, 13) サイズの array になっていて、特徴量ベクトル。
x.target
(506, ) サイズの array で、回帰する対象。
x.feature_names
文字列の配列で、13 次元の特徴量の名前が書かれている。
x. DESCR
データセットの特徴を記述した文章。
print x.DESCR
で読める。
load_diabetes: 糖尿病データセット。回帰用。
442 個のデータで、 10 次元の特徴量と、1個のか回帰データがある。
特徴量は年齢、血圧などの生理学的な特徴で、
回帰対象は1年後の病気の進行度らしい。
http://www.math.unipd.it/~aiolli/corsi/1314/aa/user_guide-0.12-git.pdf
x = d.load_diabetes()
で読み込んで、
x.data で (442, 10) の特徴量ベクトルが手に入り、
x.target で (442, ) の回帰対象ベクトルが手に入る。
load_iris: アヤメの特徴と種のデータ。分類用。
150個のデータで、3種類のアヤメ (setosa, versicolor, virginica) のラベルと
その特徴量 4 つが手に入る多クラス分類用データ。
x = d.load_iris()
で読み込める。
x.data
(150, 4) サイズの array になっていて、特徴量ベクトル。
x.target
(150, ) サイズの array で、回帰する対象。0-2 の整数がはいる。
x.feature_names
文字列の配列で、13 次元の特徴量の名前が書かれている。
x.target_names
文字列の配列で、target の値ごとの花の名前が書かれている。
x. DESCR
データセットの特徴を記述した文章。
print x.DESCR
で読める。
load_digits: 手書き画像データ。分類用。
1797 個の、0-9 の数字を書いた 8x8 の画像セット。
x = d.load_digits()
で読み込める。
x.images
(1797, 8, 8) のデータ。 8x8 の画像が 1797 個ある。
x.data
(1797, 64) のデータ。8x8 の画像が 64次元の 1本のベクトルになったもの
x.target
(1797, ) のデータ。上記画像データの数字を表すラベル。
x.target_names
データ。[0-9]
x.DESCR
データの説明文。
load_linnerud: 重回帰用
20個の、3次元特徴量と3次元の回帰対象のセット。
x = d.load_linnerud()
で読み込める。
x.data
(20, 3) の特徴量データ
x.target
(20, 3) の回帰対象データ
x.feature_names
x.data の各次元の名前
x.target_names
x.target の各次元の名前
x.DESCR
データの説明文
参考文献
http://www.math.unipd.it/~aiolli/corsi/1314/aa/user_guide-0.12-git.pdf