Q学習
では、前回の記事に引き続き線形関数近似を使った迷路問題を扱っていきます. 今回はまとめきる予定です.コードは写経が多いので余り見せられるものではないのですが、公開する予定です. shirakonotempura.hatenablog.com !!これは私の勉強用ノートです…
春休みなどもあり少し間が空きましたが、引き続き強化学習についていろいろ書いていきます. 先に書いておくと、今回の記事では迷路の内容まで至っていません. !!これは私の勉強用ノートです!! はじめに 今回の主な目的は、線形関数近似の実装です. と…
2019.2.25 追記:SARSAおよびExpected SARSAのコーディングに誤りがあります.修正したら記事も修正するか別の記事で修正版を出すようにします. はじめに 今回は、以前やった内容の復習が主になります. タイトルにあるとおり、TD学習の手法であるQ学習、SA…
はじめに 前回は、TD(temporal-difference)学習の基本編として定式化とアルゴリズムの紹介を行いました. 強化学習:TD学習(基本編) - 他力本願で生き抜く(本気) 今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習(Q-learni…