強化学習：Multi-armed Bandits（UCB）

バンディット問題強化学習 UCB Gradient-Bandit

今回の記事も、本テキストの主に2.6章、2.7章を整理したものになります．今回は、UCBアルゴリズムについて扱います． ε-greedy法と同じく行動選択のアルゴリズムになります． UCBアルゴリズム早速ですがUCBアルゴリズムの説明をしていきます．UCBとはUpper …

2019-01-25

強化学習：Multi-armed Bandits（非定常・楽観的初期値）

強化学習バンディット問題非定常定常

今回の記事は、本テキストの主に2.5章からを整理したものになります．今回は、Non-stationary Problem（非定常問題）およびOptimistic Initial Values（楽観的初期値）について扱います． Tracking a Non-stationary Problem 前回は、行動の真の価値が変化し…

2019-01-24

強化学習：Multi-armed Bandits（多腕バンディット問題）

強化学習バンディット問題 Multi-arm Bandits Reinforcement Learning

はじめに今回は先日紹介した強化学習の本の２章に登場するMulti-armed Banditsをとりあげます．２章で取り上げられているので問題としては非常に単純な問題なのですが、いまだに研究の題材としては度々扱われます．2018年12月に開かれた国際会議NeurIPS 20…