2019-02-02から1日間の記事一覧

強化学習:TD学習(基本編)

はじめに 前回までに、動的計画法(DP法)およびモンテカルロ法の概要を整理しました. 今回は、この2つの手法を組み合わせたTD法という学習手法について整理します(Sutton本:6章) これは私の学習ノートです.メモ、備忘録です. * 今回も、以下の記事を…

強化学習:モンテカルロ法(without ES)

はじめに 前回はモンテカルロ法を用いた行動価値関数の評価と方策改善について紹介しました. 強化学習:モンテカルロ法(行動価値評価) - 他力本願で生き抜く(本気) その際、開始点探査(ES、Exploring Starts)という仮定をおいていましたが、今回はそ…