へっぽこプログラマーの備忘録
プログラムを中心とした個人的なメモ用のブログです。 タイトルは迷走中。
内容の保証はできませんのであしからずご了承ください。
menu
keyboard_arrow_up
Top
search
close
home
ホーム
computer
PC一般
construction
開発環境・ツール
code
プログラミング
home
ホーム
computer
PC一般
construction
開発環境・ツール
code
プログラミング
Home
›
強化学習
›
Gymnasium の環境を動かしてみる
2024/02/12
Gymnasium の環境を動かしてみる
update
event_note
label
AI
label
Python
label
強化学習
強化学習について勉強しようと思い、まずはサンプルとしてよく取り上げられる OpenAI の gym の CartPole などを動かそうとしてみたところ、上手く動きませんでした。 調べてみたところ、gym は現在ではもう更新されておらず、代わりに gym を fork した gymnasium というのがあるようなので、こちらを使って動かしてみました。
実行環境は docker を使って構築します。 とりあえず学習・推論はせず、単純に動かすだけです。 ## 環境 - WSL2(Ubuntu 22.04) - docker 24.0.7 - python 3.11 - swig 4.2.0 - gymnasium 0.29.1 ## Dockerfile ``` FROM python:3.11 # 先に swig をインストールしておかないと gymnasium のインストールに失敗しました RUN pip install swig RUN pip install gymnasium[box2d] CMD [ "/bin/bash" ] ``` ### コンテナの起動 GUI を動かすので、コンテナは以下のように起動します。 ```sh docker run -it --rm \ -v $(pwd)/workspace:/workspace \ -v /etc/group:/etc/group:ro \ -v /etc/passwd:/etc/passwd:ro \ -u $(id -u $USER):$(id -g $USER) \ -e DISPLAY \ -v /tmp/.X11-unix:/tmp/.X11-unix:rw \ --workdir /workspace \ imagename ``` これについては以下が参考になりました。 - https://qiita.com/Spritaro/items/f907a9b52cb78e4fbec0 ## CartPole のサンプル ```py import gymnasium as gym # 環境を作成 # render_mode は描画モードの指定。human は人間が見てわかるように動画として表示するという意味 env = gym.make("CartPole-v1", render_mode="human") for episode in range(10): # 環境をリセット observation, info = env.reset() step = 0 while True: # 行動をランダムに選択 action = env.action_space.sample() # これがエージェントの行動になるので、本来はAIが行動を決定するべきところ # 選択した行動を実行 observation, reward, terminated, truncated, info = env.step(action) #print(env.render()) # 状態の可視化(human の場合は不要) # 終了した場合、次のエピソードへ if terminated or truncated: print(f"Episode{episode+1} finished after {step+1} timesteps") break step += 1 env.close() ```
## LunarLander のサンプル 同様に以下のようにして LunarLander も動きました。 ```py import gymnasium as gym # 環境を作成 # render_mode は描画モードの指定。human は人間が見てわかるように動画として表示するという意味 env = gym.make("LunarLander-v2", render_mode="human") for episode in range(10): # 環境をリセット observation, info = env.reset() step = 0 while True: # 行動をランダムに選択 action = env.action_space.sample() # これがエージェントの行動になるので、本来はAIが行動を決定するべきところ # 選択した行動を実行 observation, reward, terminated, truncated, info = env.step(action) #print(env.render()) # 状態の可視化(human の場合は不要) # 終了した場合、次のエピソードへ if terminated or truncated: print(f"Episode{episode+1} finished after {step+1} timesteps") break step += 1 env.close() ```
## FrozenLake のサンプル 同様に以下のようにして FrozenLake も動きました。 ```py import gymnasium as gym # 環境を作成 # render_mode は描画モードの指定。human は人間が見てわかるように動画として表示するという意味 env = gym.make("FrozenLake-v1", render_mode="human") for episode in range(10): # 環境をリセット、現在の観測値(observation)と情報(info)を取得 observation, info = env.reset() step = 0 while True: # 行動をランダムに選択 action = env.action_space.sample() # これがエージェントの行動になるので、本来はAIが行動を決定するべきところ # 選択した行動を実行 observation, reward, terminated, truncated, info = env.step(action) #print(env.render()) # 状態の可視化(human の場合は不要) # 終了した場合、次のエピソードへ if terminated or truncated: print(f"Episode{episode+1} finished after {step+1} timesteps") break step += 1 env.close() ```
## 参考 URL - https://github.com/openai/gym/issues/3240 - https://note.com/kikaben/n/n57584c49d5c2 - https://qiita.com/Spritaro/items/f907a9b52cb78e4fbec0 - https://amateur-engineer-blog.com/reinforce-learning-getting-started/#toc5
tweet
facebook
Pocket
B!
はてブ
LINE
chevron_left
chevron_right
Translate
Popular Posts
Labels
.NET Core
31
.NET Framework
17
.NET Standard
2
AdminLTE
1
AI
1
Apache
3
AppVeyor
2
AsciiDoc
7
ASP.NET Core
55
Atom
4
AWS
5
AWS Cloud9
4
blockdiag
1
Blogger
13
Bootstrap
3
C/C++
6
C#
106
CentOS
3
Chrome
1
Chronograf
3
chrony
1
Codecov
1
CSS
1
Docker
82
DokuWiki
4
Doxygen
1
draw.io
1
EasyTag
1
Electron
1
Electron.NET
2
Entity Framework Core
9
Excel
2
FFmpeg
3
Firefox
6
Flask
1
Git
19
GitBook
4
GitBucket
7
GitHub
7
GitLab
39
Go
1
Google
1
Google Cloud Platform
1
Grafana
13
GStreamer
2
HTML
5
IIS
8
InfluxDB
14
JavaScript
15
Jekyll
4
Jenkins
7
Linux
34
Log4View
1
MahApps.Metro
3
MaterialDesignInXamlToolkit
1
MkDocs
2
MongoDB
5
MVC
1
MVVM
6
nginx
3
NLog
3
Node.js
8
npm
1
NVIDIA
3
onvif
1
OpenAPI
2
OpenCV
4
OpenSSL
3
OpenVINO
2
ownCloud
2
pandas
1
Pine Script
1
PlantUML
5
Portainer
3
PowerShell
8
Prism
2
PySide
19
Python
87
PyTorch
1
RabbitVCS
1
Razor
3
redis
1
Redmine
33
Redoc
1
remark.js
2
rocketchat
10
Ruby
3
scikit-learn
1
shotcut
1
SignalR
1
Slack
1
Socket.IO
1
SonarQube
5
Sphinx
10
SQL Server
5
SQLite
1
StableDiffusion
2
Subversion
2
Swagger
1
Swarmpit
1
Syslog
3
Telegraf
6
Tesseract
3
TestLink
2
Tomcat
2
TortoiseGit
11
TortoiseSVN
2
Trading View
1
Traefik
3
Travis CI
1
Ubuntu
31
Visual Studio
39
Visual Studio Code
10
VSCode
8
Vue.js
8
Windows
62
Windows 10
5
Windows ADK
1
Windows API
2
Windows Embedded
4
wkhtmltopdf
2
Word
3
WPF
12
WSL
5
WSL2
5
Xamarin
1
xUnit
5
yaml
1
yolo
1
アプリケーション
1
デザインパターン
1
テスト
1
バッチファイル
2
プログラミング
4
ライセンス
1
暗号資産(仮想通貨)
1
英語
2
確定申告
1
機械学習
1
強化学習
1
雑記
1
書籍
1
数学
1
正規表現
1
動画編集
1
Blog Archive
►
2025
(1)
►
3月
(1)
▼
2024
(21)
►
12月
(3)
►
9月
(5)
►
8月
(1)
►
7月
(2)
►
6月
(1)
►
4月
(2)
►
3月
(1)
▼
2月
(5)
YOLOv8 を動かそうとしたら ImportError: libGL.so.1: cannot o...
[Python] Iris データセットを Pandas で読み込む
WSL で使用しているディスクスペースを解放する
[python] ONVIF 対応カメラの RTSP 接続文字列を取得する
Gymnasium の環境を動かしてみる
►
1月
(1)
►
2023
(30)
►
12月
(3)
►
11月
(5)
►
10月
(2)
►
9月
(1)
►
8月
(2)
►
7月
(4)
►
6月
(2)
►
5月
(3)
►
4月
(2)
►
3月
(2)
►
2月
(3)
►
1月
(1)
►
2022
(105)
►
12月
(5)
►
11月
(1)
►
10月
(3)
►
9月
(5)
►
8月
(7)
►
7月
(6)
►
6月
(13)
►
5月
(9)
►
4月
(15)
►
3月
(11)
►
2月
(14)
►
1月
(16)
►
2021
(85)
►
12月
(11)
►
11月
(6)
►
10月
(4)
►
9月
(10)
►
8月
(8)
►
7月
(4)
►
6月
(18)
►
5月
(7)
►
4月
(8)
►
3月
(2)
►
2月
(2)
►
1月
(5)
►
2020
(56)
►
12月
(1)
►
11月
(3)
►
10月
(3)
►
9月
(3)
►
8月
(3)
►
7月
(7)
►
6月
(7)
►
5月
(2)
►
4月
(6)
►
3月
(6)
►
2月
(3)
►
1月
(12)
►
2019
(92)
►
12月
(13)
►
11月
(9)
►
10月
(3)
►
9月
(2)
►
8月
(3)
►
7月
(5)
►
6月
(11)
►
5月
(6)
►
4月
(17)
►
3月
(9)
►
2月
(6)
►
1月
(8)
►
2018
(100)
►
12月
(1)
►
11月
(11)
►
10月
(8)
►
9月
(6)
►
8月
(10)
►
7月
(10)
►
6月
(8)
►
5月
(9)
►
4月
(8)
►
3月
(14)
►
2月
(4)
►
1月
(11)
►
2017
(117)
►
12月
(14)
►
11月
(20)
►
10月
(17)
►
9月
(19)
►
8月
(10)
►
7月
(8)
►
6月
(3)
►
5月
(6)
►
4月
(5)
►
3月
(2)
►
2月
(8)
►
1月
(5)
►
2016
(91)
►
12月
(5)
►
11月
(9)
►
10月
(11)
►
9月
(9)
►
8月
(6)
►
7月
(14)
►
6月
(14)
►
5月
(11)
►
4月
(10)
►
3月
(2)
►
2015
(23)
►
12月
(4)
►
11月
(2)
►
10月
(8)
►
9月
(8)
►
7月
(1)
►
2013
(3)
►
11月
(1)
►
9月
(1)
►
7月
(1)
►
2012
(2)
►
7月
(1)
►
6月
(1)
►
2011
(1)
►
9月
(1)
►
2009
(1)
►
7月
(1)
►
2008
(2)
►
11月
(1)
►
7月
(1)
►
2007
(3)
►
10月
(3)