マルコフ決定過程

強化学習:再帰処理と反復処理

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇…

強化学習:状態価値関数とBellman方程式 (実装・写経)

前回、コチラの記事を参考のまま、状態価値関数の定式化を行いましたので、実際にプログラムに実装して状態価値関数の計算を行ってみます. 今回も前回と同様の記事を参考にしています. qiita.com この記事は私の学習用ノートです。上の記事をトレースして…

強化学習:状態価値関数とBellman方程式 (良記事のトレース)

いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください.時間を無駄にしなくてすみます. qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…

強化学習:Markov Decision Processes(マルコフ決定過程)

はじめに 今回は、強化学習における最も重要な考え方の1つであるマルコフ決定過程について整理していきます. 目標 マルコフ決定過程の概要を理解する マルコフ決定過程(Markov Decision Processes) 強化学習の枠組み(再掲) マルコフ決定過程の説明に先…