[Python] Iris データセットを Pandas で読み込む

2024/02/21

[Python] Iris データセットを Pandas で読み込む

Iris のデータセットを取得する方法自体はいくつかあるようです。

- https://py-memo.com/python/load-iris/

今回は Iris のデータは機械学習用の定番のライブラリである `scikit-learn` を使いました。

## サンプルコード

```py
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)

# 目的変数である花の種類（target）のカラムを作成（花の種類を数値から文字列に変換して追加）
df_iris['target'] = iris.target_names[iris.target]

print(df_iris)
```

```shell
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)     target
0                  5.1               3.5                1.4               0.2     setosa
1                  4.9               3.0                1.4               0.2     setosa
2                  4.7               3.2                1.3               0.2     setosa
3                  4.6               3.1                1.5               0.2     setosa
4                  5.0               3.6                1.4               0.2     setosa
..                 ...               ...                ...               ...        ...
145                6.7               3.0                5.2               2.3  virginica
146                6.3               2.5                5.0               1.9  virginica
147                6.5               3.0                5.2               2.0  virginica
148                6.2               3.4                5.4               2.3  virginica
149                5.9               3.0                5.1               1.8  virginica

[150 rows x 5 columns]
```

`load_iris` 関数で呼び出されたデータセットは numpy 形式です。  
これを扱いやすいように Pandas でデータフレームに変換しています。  
また、`load_iris` 関数では、説明変数は `iris.data`、目的変数は `iris.target` に実装されています。  
カラム名は `iris.feature_names` に入っています。

`iris.target` は花の種類を数値として保持しており、その数値に対応した花の名前は `iris.target_names` に定義されています。  
花の種類をカラムに追加する際には文字列に変換して追加しています。

へっぽこプログラマーの備忘録

2024/02/21

[Python] Iris データセットを Pandas で読み込む

Translate

Popular Posts

Labels

Blog Archive