EduController

🧠 01. 強化学習の基本構造(RL Basics)

本節では、強化学習(Reinforcement Learning, RL)の基本構造と主要な用語・概念について解説します。
RLは、エージェントが環境と相互作用しながら最適な行動を学ぶという枠組みに基づきます。


🎯 強化学習の基本要素(MDP)

強化学習は、マルコフ決定過程(Markov Decision Process, MDP)として定式化されます。

要素 内容  
$S$ 状態空間(State Space)  
$A$ 行動空間(Action Space)  
$R$ 報酬関数 $r(s, a)$  
$P$ 遷移確率 $P(s’ s, a)$
$\pi$ ポリシー(方策):状態→行動の写像 $\pi(a s)$

🔄 学習の流れ(Agent–Environment Loop)

  1. エージェントが状態 $s_t$ を観測
  2. ポリシー $\pi$ に基づいて行動 $a_t$ を選択
  3. 環境が新たな状態 $s_{t+1}$ と報酬 $r_t$ を返す
  4. エージェントが報酬に基づいて $\pi$ を更新
  5. 上記を繰り返しながら報酬最大化を目指す

📐 報酬の定義と目的関数

エージェントの目的は、累積報酬(return)を最大化することです。


🧮 方策と価値関数


🔧 モデルフリー vs モデルベース

種類 特徴
モデルフリー 環境モデルなし。Q学習やPolicy Gradient法など
モデルベース 遷移モデルを内部的に推定・活用。MPCに近い考え方

🔍 主なアルゴリズム分類

系統
値ベース Q-learning, DQN
方策ベース Policy Gradient, REINFORCE
Actor-Critic A2C, DDPG, PPO(連続制御向け)

🛠️ 制御応用におけるRLの特徴


🔚 まとめ

強化学習は、「試行錯誤+報酬」に基づいて制御戦略を獲得するアプローチです。
次節では、倒立振子制御(CartPole)への適用を通して、実装と学習挙動を観察します。

📁 次へ:02_cartpole_ddpg.md