2019-01-31から1日間の記事一覧

強化学習：再帰処理と反復処理

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました．おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします．ですが、実装してみると分かりますが、非常に計算時間が遅いです．誇…

Bellman方程式行動価値強化学習

今回は、前２回で整理した状態価値関数と同じ価値関数である行動価値関数（Action Value Function）について整理していきます．以下を参考にしています．以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます． qiita.com 行動価値関数と状…