マルコフ決定過程
前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇…
前回、コチラの記事を参考のまま、状態価値関数の定式化を行いましたので、実際にプログラムに実装して状態価値関数の計算を行ってみます. 今回も前回と同様の記事を参考にしています. qiita.com この記事は私の学習用ノートです。上の記事をトレースして…
いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください.時間を無駄にしなくてすみます. qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…
はじめに 今回は、強化学習における最も重要な考え方の1つであるマルコフ決定過程について整理していきます. 目標 マルコフ決定過程の概要を理解する マルコフ決定過程(Markov Decision Processes) 強化学習の枠組み(再掲) マルコフ決定過程の説明に先…