強化学習：再・迷路問題２（Q学習、線形関数近似）

関数近似強化学習 Q学習 Reinforcement Learning 迷路問題

では、前回の記事に引き続き線形関数近似を使った迷路問題を扱っていきます．今回はまとめきる予定です．コードは写経が多いので余り見せられるものではないのですが、公開する予定です． shirakonotempura.hatenablog.com ！！これは私の勉強用ノートです…

強化学習：再・迷路問題１（Q学習、線形関数近似）

関数近似強化学習 Reinforcement Learning Q学習迷路問題

春休みなどもあり少し間が空きましたが、引き続き強化学習についていろいろ書いていきます．先に書いておくと、今回の記事では迷路の内容まで至っていません．！！これは私の勉強用ノートです！！はじめに今回の主な目的は、線形関数近似の実装です．と…

強化学習 TD学習 Q学習 SARSA Expected SARSA Taxi-v2

2019.2.25 追記：SARSAおよびExpected SARSAのコーディングに誤りがあります．修正したら記事も修正するか別の記事で修正版を出すようにします．はじめに今回は、以前やった内容の復習が主になります．タイトルにあるとおり、TD学習の手法であるQ学習、SA…

強化学習 SARSA Q学習

はじめに前回は、TD（temporal-difference）学習の基本編として定式化とアルゴリズムの紹介を行いました．強化学習：TD学習（基本編） - 他力本願で生き抜く（本気）今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習（Q-learni…