強化学習：Taxi-v2（Q-Learning, SARSA, Expected SARSA）

2019.2.25 追記：SARSAおよびExpected SARSAのコーディングに誤りがあります．修正したら記事も修正するか別の記事で修正版を出すようにします．はじめに今回は、以前やった内容の復習が主になります．タイトルにあるとおり、TD学習の手法であるQ学習、SA…

2019-02-20

強化学習：関数近似（パラメータの更新）

関数近似強化学習パラメータ更新

はじめに前回は、近似式と目標値の差を表す誤差関数を最小化するパラメータの探索手法の１つである勾配法について整理しました．強化学習：関数近似（勾配法とか） - 他力本願で生き抜く（本気）今回は、強化学習におけるパラメータの更新について詳しく…

2019-02-14

強化学習：関数近似（勾配法とか）

強化学習関数近似勾配降下法最急降下法 DG SDG

追記（謝罪）：偏微分の式で分母にしか記号を付けていませんが、正しくは分子にも必要なようです．以後気を付けます．はじめに前回に続き、関数近似について整理していきます．前回は途中で疲れ果ててしまいました・・．強化学習：関数近似（その１：導入…

2019-02-13

強化学習：関数近似（その１：導入）

強化学習関数近似

はじめに今回から、Sutton本9章の内容について勉強しながら、関数近似についてまとめていきたいと思います．Sutton本では、この章（9章）からは第2部となっており、これまでTabular（表形式）で扱っていた状態を関数近似によって拡張していく内容になります…

2019-02-09

強化学習：プランニングと学習（その２）

はじめに今回は、前回の記事（強化学習：プランニングと学習（その１））の続き、迷路問題での実装を行っていきます．迷路問題に対するDyna-Qの導入では、Sutton本に記載されている例題を使って、通常のQ学習と、Dyna-Qを比べてみます．問題設定（6×9マ…

2019-02-08

強化学習：プランニングと学習（その１）

強化学習 Planning

はじめに今回からの話はSutton本、第8章（Planning and Learning with Tabular Methods）の内容になります．本当は前回の記事（SARSA・Q学習）に引き続き、Actor-Criticについて整理したかったのですが、諸事情で8章の内容の理解に努めたいと思います．今…

2019-02-05

強化学習：TD学習（SARSA、Q学習）

強化学習 SARSA Q学習

はじめに前回は、TD（temporal-difference）学習の基本編として定式化とアルゴリズムの紹介を行いました．強化学習：TD学習（基本編） - 他力本願で生き抜く（本気）今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習（Q-learni…

2019-02-02

強化学習：TD学習（基本編）

強化学習 TD学習ブートストラップ

はじめに前回までに、動的計画法（DP法）およびモンテカルロ法の概要を整理しました．今回は、この２つの手法を組み合わせたTD法という学習手法について整理します（Sutton本：6章）これは私の学習ノートです．メモ、備忘録です． * 今回も、以下の記事を…

2019-02-02

強化学習：モンテカルロ法（without ES）

強化学習モンテカルロ法

はじめに前回はモンテカルロ法を用いた行動価値関数の評価と方策改善について紹介しました．強化学習：モンテカルロ法（行動価値評価） - 他力本願で生き抜く（本気）その際、開始点探査（ES、Exploring Starts）という仮定をおいていましたが、今回はそ…

2019-02-01

強化学習：モンテカルロ法（行動価値評価）

モンテカルロ法強化学習行動価値

はじめに前回はモンテカルロ法を使って状態価値を評価するアルゴリズムを紹介しました．今回は行動価値を評価するアルゴリズムについて紹介します．強化学習：モンテカルロ法（状態価値評価） - 他力本願で生き抜く（本気）これは私の学習ノートです．詳…

2019-02-01

強化学習：モンテカルロ法（状態価値評価）

強化学習モンテカルロ法状態価値

今回の内容はSutton本5章のモンテカルロ法（Monte Carlo Method）についてです．これは私の学習ノートです．詳しく知りたい方は、以下の記事を呼んでください． qiita.com おさらいモンテカルロ法の説明のために、これまでまとめてきた方法について概要を…

2019-02-01から1ヶ月間の記事一覧