EduController

🧠 02. 倒立振子制御へのDDPG応用(CartPole + DDPG)

本節では、強化学習アルゴリズムの一つである DDPG(Deep Deterministic Policy Gradient)を用いて、
代表的な制御対象である倒立振子(CartPole)を安定化させる制御器を学習します。


🎯 CartPole 環境の概要

使用環境:Pendulum-v1 または連続版の CartPoleContinuous-v0


🧪 使用するアルゴリズム:DDPG

DDPG(Deep Deterministic Policy Gradient)は、
Actor-Critic構造に基づく連続制御向けアルゴリズムです。


⚙️ 学習の流れ

  1. 環境を初期化し、状態 $s_0$ を取得
  2. Actorネットで行動 $a_t$ を決定(+ノイズ)
  3. 環境から $r_t, s_{t+1}$ を受け取る
  4. 経験 $(s_t, a_t, r_t, s_{t+1})$ を保存
  5. バッチ学習によりActorとCriticを更新
  6. ターゲットネットをソフト更新
  7. 上記をエピソード単位で繰り返し、最適ポリシーを獲得

📊 学習過程の観察

学習ログを以下のように可視化することで、制御器の改善を確認できます:

📁 関連ファイル:


🧠 技術メモ


🔚 まとめと展望

DDPGを用いることで、連続値制御を必要とする倒立振子問題にも対応可能です。
学習により動的環境に適応したポリシーを自動獲得できます。

📁 次へ:03_rl_vs_classical.md