本節では、強化学習(Reinforcement Learning, RL)の基本構造と主要な用語・概念について解説します。
RLは、エージェントが環境と相互作用しながら最適な行動を学ぶという枠組みに基づきます。
強化学習は、マルコフ決定過程(Markov Decision Process, MDP)として定式化されます。
要素 | 内容 | |
---|---|---|
$S$ | 状態空間(State Space) | |
$A$ | 行動空間(Action Space) | |
$R$ | 報酬関数 $r(s, a)$ | |
$P$ | 遷移確率 $P(s’ | s, a)$ |
$\pi$ | ポリシー(方策):状態→行動の写像 $\pi(a | s)$ |
エージェントの目的は、累積報酬(return)を最大化することです。
方策 $\pi(a | s)$:行動選択の戦略(確率分布または決定論的) |
種類 | 特徴 |
---|---|
モデルフリー | 環境モデルなし。Q学習やPolicy Gradient法など |
モデルベース | 遷移モデルを内部的に推定・活用。MPCに近い考え方 |
系統 | 例 |
---|---|
値ベース | Q-learning, DQN |
方策ベース | Policy Gradient, REINFORCE |
Actor-Critic | A2C, DDPG, PPO(連続制御向け) |
強化学習は、「試行錯誤+報酬」に基づいて制御戦略を獲得するアプローチです。
次節では、倒立振子制御(CartPole)への適用を通して、実装と学習挙動を観察します。
📁 次へ:02_cartpole_ddpg.md