機械学習のサンプルデータとしてよく使われるものの一つに Iris(アヤメ)のデータセットがあります。その読み込み方法です。
Iris のデータセットを取得する方法自体はいくつかあるようです。
今回は Iris のデータは機械学習用の定番のライブラリである scikit-learn
を使いました。
サンプルコード
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
# 目的変数である花の種類(target)のカラムを作成(花の種類を数値から文字列に変換して追加)
df_iris['target'] = iris.target_names[iris.target]
print(df_iris)
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) target
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
.. ... ... ... ... ...
145 6.7 3.0 5.2 2.3 virginica
146 6.3 2.5 5.0 1.9 virginica
147 6.5 3.0 5.2 2.0 virginica
148 6.2 3.4 5.4 2.3 virginica
149 5.9 3.0 5.1 1.8 virginica
[150 rows x 5 columns]
load_iris
関数で呼び出されたデータセットは numpy 形式です。
これを扱いやすいように Pandas でデータフレームに変換しています。
また、load_iris
関数では、説明変数は iris.data
、目的変数は iris.target
に実装されています。
カラム名は iris.feature_names
に入っています。
iris.target
は花の種類を数値として保持しており、その数値に対応した花の名前は iris.target_names
に定義されています。
花の種類をカラムに追加する際には文字列に変換して追加しています。