TD学習

強化学習：Taxi-v2（Q-Learning, SARSA, Expected SARSA）

強化学習 TD学習 Q学習 SARSA Expected SARSA Taxi-v2

2019.2.25 追記：SARSAおよびExpected SARSAのコーディングに誤りがあります．修正したら記事も修正するか別の記事で修正版を出すようにします．はじめに今回は、以前やった内容の復習が主になります．タイトルにあるとおり、TD学習の手法であるQ学習、SA…

強化学習 TD学習ブートストラップ

はじめに前回までに、動的計画法（DP法）およびモンテカルロ法の概要を整理しました．今回は、この２つの手法を組み合わせたTD法という学習手法について整理します（Sutton本：6章）これは私の学習ノートです．メモ、備忘録です． * 今回も、以下の記事を…