theory

マルコフ決定過程（Markov Decision Process, MDP）

マルコフ決定過程（MDP）は、確率的な状態遷移と報酬に基づく意思決定モデルです。
AITLにおいては、推論層で「どの状態で、どの行動を選ぶか」を数理的に評価し、
最適な制御指示を生成するための基盤理論として活用されます。

MDPは、以下の5つの要素によって定義されます：

\[\mathcal{M} = (S, A, P, R, \gamma)\]

方策（Policy）とは、各状態 $s$ において行動 $a$ を選択する確率的ルール：

\[\pi(a \mid s)\]

ある方策 $\pi$ の下で状態 $s$ にいるときの期待される累積報酬：

\[V^{\pi}(s) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \,\middle|\, s_0 = s \right]\]

状態 $s$ で行動 $a$ をとったときの期待累積報酬：

\[Q^{\pi}(s, a) = \mathbb{E}_{\pi}\left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \,\middle|\, s_0 = s, a_0 = a \right]\]

最適状態価値関数 $V^*(s)$ は、以下のベルマン最適方程式（Bellman Optimality Equation）を満たします：

\[V^*(s) = \max_{a} \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^*(s') \right]\]

これにより、動的計画法（Dynamic Programming）や
価値反復法（Value Iteration）などで逐次的に最適解を導出できます。

実環境では、状態 $s$ を完全には観測できない場合が多く、
そのような状況に対処するための拡張が部分観測MDP（POMDP）です。

POMDPでは、この信念状態に基づいて方策 $\pi(a \mid b)$ を定義し、
不完全情報下でも意思決定を行います。

AITL推論層では、MDP／POMDPの枠組みに基づいて以下を実現します：

手法	概要
Tabular MDP	状態・行動空間が小さい場合の表形式実装
関数近似	ニューラルネットなどによる大規模空間の $Q$ 関数近似（例：DQN）
POMDP Solver	SARSOP、Point-based Value Iteration などの近似解法

[1] Martin L. Puterman, Markov Decision Processes: Discrete Stochastic Dynamic Programming, 1994
[2] Richard S. Sutton, Andrew G. Barto, Reinforcement Learning: An Introduction, 2nd ed., 2018
[3] 三溝真一, 『AITL推論理論概論』, 2025