強化学習：再・迷路問題２（Q学習、線形関数近似）

関数近似強化学習 Q学習 Reinforcement Learning 迷路問題

では、前回の記事に引き続き線形関数近似を使った迷路問題を扱っていきます．今回はまとめきる予定です．コードは写経が多いので余り見せられるものではないのですが、公開する予定です． shirakonotempura.hatenablog.com ！！これは私の勉強用ノートです…

2019-03-15

強化学習：再・迷路問題１（Q学習、線形関数近似）

関数近似強化学習 Reinforcement Learning Q学習迷路問題

春休みなどもあり少し間が空きましたが、引き続き強化学習についていろいろ書いていきます．先に書いておくと、今回の記事では迷路の内容まで至っていません．！！これは私の勉強用ノートです！！はじめに今回の主な目的は、線形関数近似の実装です．と…

2019-02-23

強化学習：Taxi-v2（Q-Learning, SARSA, Expected SARSA）

強化学習 TD学習 Q学習 SARSA Expected SARSA Taxi-v2

2019.2.25 追記：SARSAおよびExpected SARSAのコーディングに誤りがあります．修正したら記事も修正するか別の記事で修正版を出すようにします．はじめに今回は、以前やった内容の復習が主になります．タイトルにあるとおり、TD学習の手法であるQ学習、SA…

2019-02-20

強化学習：関数近似（パラメータの更新）

関数近似強化学習パラメータ更新

はじめに前回は、近似式と目標値の差を表す誤差関数を最小化するパラメータの探索手法の１つである勾配法について整理しました．強化学習：関数近似（勾配法とか） - 他力本願で生き抜く（本気）今回は、強化学習におけるパラメータの更新について詳しく…

2019-02-14

強化学習：関数近似（勾配法とか）

強化学習関数近似勾配降下法最急降下法 DG SDG

追記（謝罪）：偏微分の式で分母にしか記号を付けていませんが、正しくは分子にも必要なようです．以後気を付けます．はじめに前回に続き、関数近似について整理していきます．前回は途中で疲れ果ててしまいました・・．強化学習：関数近似（その１：導入…

2019-02-13

強化学習：関数近似（その１：導入）

強化学習関数近似

はじめに今回から、Sutton本9章の内容について勉強しながら、関数近似についてまとめていきたいと思います．Sutton本では、この章（9章）からは第2部となっており、これまでTabular（表形式）で扱っていた状態を関数近似によって拡張していく内容になります…

2019-02-08

強化学習：プランニングと学習（その１）

強化学習 Planning

はじめに今回からの話はSutton本、第8章（Planning and Learning with Tabular Methods）の内容になります．本当は前回の記事（SARSA・Q学習）に引き続き、Actor-Criticについて整理したかったのですが、諸事情で8章の内容の理解に努めたいと思います．今…

2019-02-05

強化学習：TD学習（SARSA、Q学習）

強化学習 SARSA Q学習

はじめに前回は、TD（temporal-difference）学習の基本編として定式化とアルゴリズムの紹介を行いました．強化学習：TD学習（基本編） - 他力本願で生き抜く（本気）今回は、その中でも有名かつベーシックな学習アルゴリズムであるSARSAとQ学習（Q-learni…

2019-02-02

強化学習：TD学習（基本編）

強化学習 TD学習ブートストラップ

はじめに前回までに、動的計画法（DP法）およびモンテカルロ法の概要を整理しました．今回は、この２つの手法を組み合わせたTD法という学習手法について整理します（Sutton本：6章）これは私の学習ノートです．メモ、備忘録です． * 今回も、以下の記事を…

2019-02-02

強化学習：モンテカルロ法（without ES）

強化学習モンテカルロ法

はじめに前回はモンテカルロ法を用いた行動価値関数の評価と方策改善について紹介しました．強化学習：モンテカルロ法（行動価値評価） - 他力本願で生き抜く（本気）その際、開始点探査（ES、Exploring Starts）という仮定をおいていましたが、今回はそ…

2019-02-01

強化学習：モンテカルロ法（行動価値評価）

モンテカルロ法強化学習行動価値

はじめに前回はモンテカルロ法を使って状態価値を評価するアルゴリズムを紹介しました．今回は行動価値を評価するアルゴリズムについて紹介します．強化学習：モンテカルロ法（状態価値評価） - 他力本願で生き抜く（本気）これは私の学習ノートです．詳…

2019-02-01

強化学習：モンテカルロ法（状態価値評価）

強化学習モンテカルロ法状態価値

今回の内容はSutton本5章のモンテカルロ法（Monte Carlo Method）についてです．これは私の学習ノートです．詳しく知りたい方は、以下の記事を呼んでください． qiita.com おさらいモンテカルロ法の説明のために、これまでまとめてきた方法について概要を…

2019-01-31

強化学習：再帰処理と反復処理

強化学習マルコフ決定過程状態価値行動価値

前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました．おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします．ですが、実装してみると分かりますが、非常に計算時間が遅いです．誇…

2019-01-31

強化学習：行動価値関数（Action Value Function）（実装・写経）

Bellman方程式行動価値強化学習

今回は、前２回で整理した状態価値関数と同じ価値関数である行動価値関数（Action Value Function）について整理していきます．以下を参考にしています．以下の記事はかなり丁寧に書かれていますが、だいぶはしょっていきます． qiita.com 行動価値関数と状…

2019-01-30

強化学習：状態価値関数とBellman方程式（実装・写経）

Bellman方程式強化学習状態価値マルコフ決定過程

前回、コチラの記事を参考のまま、状態価値関数の定式化を行いましたので、実際にプログラムに実装して状態価値関数の計算を行ってみます．今回も前回と同様の記事を参考にしています． qiita.com この記事は私の学習用ノートです。上の記事をトレースして…

2019-01-26

強化学習：状態価値関数とBellman方程式 (良記事のトレース）

強化学習マルコフ決定過程 Bellman方程式状態価値行動価値

いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください．時間を無駄にしなくてすみます． qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…

2019-01-26

強化学習：Markov Decision Processes（マルコフ決定過程）

強化学習 MDPs マルコフ決定過程

はじめに今回は、強化学習における最も重要な考え方の１つであるマルコフ決定過程について整理していきます．目標マルコフ決定過程の概要を理解するマルコフ決定過程（Markov Decision Processes）強化学習の枠組み（再掲）マルコフ決定過程の説明に先…

2019-01-25

強化学習：Multi-armed Bandits（UCB）

バンディット問題強化学習 UCB Gradient-Bandit

今回の記事も、本テキストの主に2.6章、2.7章を整理したものになります．今回は、UCBアルゴリズムについて扱います． ε-greedy法と同じく行動選択のアルゴリズムになります． UCBアルゴリズム早速ですがUCBアルゴリズムの説明をしていきます．UCBとはUpper …

2019-01-25

強化学習：Multi-armed Bandits（非定常・楽観的初期値）

強化学習バンディット問題非定常定常

今回の記事は、本テキストの主に2.5章からを整理したものになります．今回は、Non-stationary Problem（非定常問題）およびOptimistic Initial Values（楽観的初期値）について扱います． Tracking a Non-stationary Problem 前回は、行動の真の価値が変化し…

2019-01-24

強化学習：Multi-armed Bandits（多腕バンディット問題）

強化学習バンディット問題 Multi-arm Bandits Reinforcement Learning

はじめに今回は先日紹介した強化学習の本の２章に登場するMulti-armed Banditsをとりあげます．２章で取り上げられているので問題としては非常に単純な問題なのですが、いまだに研究の題材としては度々扱われます．2018年12月に開かれた国際会議NeurIPS 20…

2019-01-22

強化学習：Introduction

強化学習機械学習教師あり学習教師なし学習

はじめに今回は、唐突ですが強化学習について整理します．これまで（といってもたったの数回ですが）私が記事で扱ってきたのは、教師あり学習でした．前回クラスの勉強をしている際、ふと強化学習に興味を持ってしまいましたので、理解を深めるため記事に…