2019-01-31から1日間の記事一覧

強化学習:再帰処理と反復処理

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇…

強化学習:行動価値関数(Action Value Function)(実装・写経)

今回は、前2回で整理した状態価値関数と同じ価値関数である行動価値関数(Action Value Function)について整理していきます. 以下を参考にしています.以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます. qiita.com 行動価値関数と状…