TD学習

強化学習:Taxi-v2(Q-Learning, SARSA, Expected SARSA)

2019.2.25 追記:SARSAおよびExpected SARSAのコーディングに誤りがあります.修正したら記事も修正するか別の記事で修正版を出すようにします. はじめに 今回は、以前やった内容の復習が主になります. タイトルにあるとおり、TD学習の手法であるQ学習、SA…

強化学習:TD学習(基本編)

はじめに 前回までに、動的計画法(DP法)およびモンテカルロ法の概要を整理しました. 今回は、この2つの手法を組み合わせたTD法という学習手法について整理します(Sutton本:6章) これは私の学習ノートです.メモ、備忘録です. * 今回も、以下の記事を…