マルコフ決定過程は, マルコフシステムの上で動的計画を 考えたものである。システムから得られる利得の系列に対して様 々な最適化基準があるが, 今回は Blackwell最適化について話し たい。定常政策に対する総期待利得をローラン展開して最適性 の原理を適用することにより, 最適方程式が導かれ, 最適政策の 存在が言えることになる。