プログラムを中心とした個人的なメモ用のブログです。 タイトルは迷走中。
内容の保証はできませんのであしからずご了承ください。

2024/02/21

[Python] Iris データセットを Pandas で読み込む

event_note2024/02/21 3:44

機械学習のサンプルデータとしてよく使われるものの一つに Iris(アヤメ)のデータセットがあります。その読み込み方法です。

Iris のデータセットを取得する方法自体はいくつかあるようです。

今回は Iris のデータは機械学習用の定番のライブラリである scikit-learn を使いました。

サンプルコード

import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)

# 目的変数である花の種類(target)のカラムを作成(花の種類を数値から文字列に変換して追加)
df_iris['target'] = iris.target_names[iris.target]

print(df_iris)
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)     target
0                  5.1               3.5                1.4               0.2     setosa
1                  4.9               3.0                1.4               0.2     setosa
2                  4.7               3.2                1.3               0.2     setosa
3                  4.6               3.1                1.5               0.2     setosa
4                  5.0               3.6                1.4               0.2     setosa
..                 ...               ...                ...               ...        ...
145                6.7               3.0                5.2               2.3  virginica
146                6.3               2.5                5.0               1.9  virginica
147                6.5               3.0                5.2               2.0  virginica
148                6.2               3.4                5.4               2.3  virginica
149                5.9               3.0                5.1               1.8  virginica

[150 rows x 5 columns]

load_iris 関数で呼び出されたデータセットは numpy 形式です。
これを扱いやすいように Pandas でデータフレームに変換しています。
また、load_iris 関数では、説明変数は iris.data、目的変数は iris.target に実装されています。
カラム名は iris.feature_names に入っています。

iris.target は花の種類を数値として保持しており、その数値に対応した花の名前は iris.target_names に定義されています。
花の種類をカラムに追加する際には文字列に変換して追加しています。