2019-02-01から1ヶ月間の記事一覧

強化学習:Taxi-v2(Q-Learning, SARSA, Expected SARSA)

2019.2.25 追記:SARSAおよびExpected SARSAのコーディングに誤りがあります.修正したら記事も修正するか別の記事で修正版を出すようにします. はじめに 今回は、以前やった内容の復習が主になります. タイトルにあるとおり、TD学習の手法であるQ学習、SA…

強化学習:関数近似(パラメータの更新)

はじめに 前回は、近似式と目標値の差を表す誤差関数を最小化するパラメータの探索手法の1つである勾配法について整理しました. 強化学習:関数近似(勾配法とか) - 他力本願で生き抜く(本気) 今回は、強化学習におけるパラメータの更新について詳しく…

強化学習:関数近似(勾配法とか)

追記(謝罪):偏微分の式で分母にしか記号を付けていませんが、正しくは分子にも必要なようです.以後気を付けます. はじめに 前回に続き、関数近似について整理していきます.前回は途中で疲れ果ててしまいました・・. 強化学習:関数近似(その1:導入…

強化学習:関数近似(その1:導入)

はじめに 今回から、Sutton本9章の内容について勉強しながら、関数近似についてまとめていきたいと思います.Sutton本では、この章(9章)からは第2部となっており、これまでTabular(表形式)で扱っていた状態を関数近似によって拡張していく内容になります…

強化学習:プランニングと学習(その2)

はじめに 今回は、前回の記事(強化学習:プランニングと学習(その1))の続き、迷路問題での実装を行っていきます. 迷路問題に対するDyna-Qの導入 では、Sutton本に記載されている例題を使って、通常のQ学習と、Dyna-Qを比べてみます. 問題設定(6×9マ…

強化学習:プランニングと学習(その1)

はじめに 今回からの話はSutton本、第8章(Planning and Learning with Tabular Methods)の内容になります. 本当は前回の記事(SARSA・Q学習)に引き続き、Actor-Criticについて整理したかったのですが、諸事情で8章の内容の理解に努めたいと思います. 今…

強化学習:TD学習(SARSA、Q学習)

はじめに 前回は、TD(temporal-difference)学習の基本編として定式化とアルゴリズムの紹介を行いました. 強化学習:TD学習(基本編) - 他力本願で生き抜く(本気) 今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習(Q-learni…

強化学習:TD学習(基本編)

はじめに 前回までに、動的計画法(DP法)およびモンテカルロ法の概要を整理しました. 今回は、この2つの手法を組み合わせたTD法という学習手法について整理します(Sutton本:6章) これは私の学習ノートです.メモ、備忘録です. * 今回も、以下の記事を…

強化学習:モンテカルロ法(without ES)

はじめに 前回はモンテカルロ法を用いた行動価値関数の評価と方策改善について紹介しました. 強化学習:モンテカルロ法(行動価値評価) - 他力本願で生き抜く(本気) その際、開始点探査(ES、Exploring Starts)という仮定をおいていましたが、今回はそ…

強化学習:モンテカルロ法(行動価値評価)

はじめに 前回はモンテカルロ法を使って状態価値を評価するアルゴリズムを紹介しました. 今回は行動価値を評価するアルゴリズムについて紹介します. 強化学習:モンテカルロ法(状態価値評価) - 他力本願で生き抜く(本気) これは私の学習ノートです.詳…

強化学習:モンテカルロ法(状態価値評価)

今回の内容はSutton本5章のモンテカルロ法(Monte Carlo Method)についてです. これは私の学習ノートです.詳しく知りたい方は、以下の記事を呼んでください. qiita.com おさらい モンテカルロ法の説明のために、これまでまとめてきた方法について概要を…