行動価値
はじめに 前回はモンテカルロ法を使って状態価値を評価するアルゴリズムを紹介しました. 今回は行動価値を評価するアルゴリズムについて紹介します. 強化学習:モンテカルロ法(状態価値評価) - 他力本願で生き抜く(本気) これは私の学習ノートです.詳…
前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇…
今回は、前2回で整理した状態価値関数と同じ価値関数である行動価値関数(Action Value Function)について整理していきます. 以下を参考にしています.以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます. qiita.com 行動価値関数と状…
いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください.時間を無駄にしなくてすみます. qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…