Reinforcement Learning

強化学習:再・迷路問題2(Q学習、線形関数近似)

では、前回の記事に引き続き線形関数近似を使った迷路問題を扱っていきます. 今回はまとめきる予定です.コードは写経が多いので余り見せられるものではないのですが、公開する予定です. shirakonotempura.hatenablog.com !!これは私の勉強用ノートです…

強化学習:再・迷路問題1(Q学習、線形関数近似)

春休みなどもあり少し間が空きましたが、引き続き強化学習についていろいろ書いていきます. 先に書いておくと、今回の記事では迷路の内容まで至っていません. !!これは私の勉強用ノートです!! はじめに 今回の主な目的は、線形関数近似の実装です. と…

強化学習:Multi-armed Bandits(多腕バンディット問題)

はじめに 今回は先日紹介した強化学習の本の2章に登場するMulti-armed Banditsをとりあげます. 2章で取り上げられているので問題としては非常に単純な問題なのですが、いまだに研究の題材としては度々扱われます.2018年12月に開かれた国際会議NeurIPS 20…