マルコフ決定過程(MDP)は、確率的な状態遷移と報酬に基づく意思決定モデルです。
AITLにおいては、推論層で「どの状態で、どの行動を選ぶか」を数理的に評価し、
最適な制御指示を生成するための基盤理論として活用されます。
MDPは、以下の5つの要素によって定義されます:
\[\mathcal{M} = (S, A, P, R, \gamma)\]要素 | 内容 |
---|---|
$S$ | 状態空間(State space) |
$A$ | 行動空間(Action space) |
$P(s’ \mid s, a)$ | 状態遷移確率(次状態 $s’$ への遷移確率) |
$R(s, a)$ | 即時報酬関数(行動 $a$ を取ったときの報酬) |
$\gamma$ | 割引率(将来の報酬に対する重み,$0 \leq \gamma < 1$) |
方策(Policy)とは、各状態 $s$ において行動 $a$ を選択する確率的ルール:
\[\pi(a \mid s)\]ある方策 $\pi$ の下で状態 $s$ にいるときの期待される累積報酬:
\[V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \,\middle|\, s_0 = s \right]\]状態 $s$ で行動 $a$ をとったときの期待累積報酬:
\[Q^{\pi}(s, a) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \,\middle|\, s_0 = s, a_0 = a \right]\]最適状態価値関数 $V^*(s)$ は、以下のベルマン最適方程式(Bellman Optimality Equation)を満たします:
\[V^*(s) = \max_{a} \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^*(s') \right]\]これにより、動的計画法(Dynamic Programming)や
価値反復法(Value Iteration)などで逐次的に最適解を導出できます。
実環境では、状態 $s$ を完全には観測できない場合が多く、
そのような状況に対処するための拡張が部分観測MDP(POMDP)です。
POMDPでは、この信念状態に基づいて方策 $\pi(a \mid b)$ を定義し、
不完全情報下でも意思決定を行います。
AITL推論層では、MDP/POMDPの枠組みに基づいて以下を実現します:
手法 | 概要 |
---|---|
Tabular MDP | 状態・行動空間が小さい場合の表形式実装 |
関数近似 | ニューラルネットなどによる大規模空間の $Q$ 関数近似(例:DQN) |
POMDP Solver | SARSOP、Point-based Value Iteration などの近似解法 |