強化学習：モンテカルロ法（状態価値評価）

強化学習モンテカルロ法状態価値

今回の内容はSutton本5章のモンテカルロ法（Monte Carlo Method）についてです．これは私の学習ノートです．詳しく知りたい方は、以下の記事を呼んでください． qiita.com おさらいモンテカルロ法の説明のために、これまでまとめてきた方法について概要を…

強化学習：再帰処理と反復処理

強化学習マルコフ決定過程状態価値行動価値

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました．おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします．ですが、実装してみると分かりますが、非常に計算時間が遅いです．誇…

Bellman方程式強化学習状態価値マルコフ決定過程

前回、コチラの記事を参考のまま、状態価値関数の定式化を行いましたので、実際にプログラムに実装して状態価値関数の計算を行ってみます．今回も前回と同様の記事を参考にしています． qiita.com この記事は私の学習用ノートです。上の記事をトレースして…

強化学習マルコフ決定過程 Bellman方程式状態価値行動価値

いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください．時間を無駄にしなくてすみます． qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…