2019-01-25から1日間の記事一覧

強化学習:Multi-armed Bandits(UCB)

今回の記事も、本テキストの主に2.6章、2.7章を整理したものになります.今回は、UCBアルゴリズムについて扱います. ε-greedy法と同じく行動選択のアルゴリズムになります. UCBアルゴリズム 早速ですがUCBアルゴリズムの説明をしていきます.UCBとはUpper …

強化学習:Multi-armed Bandits(非定常・楽観的初期値)

今回の記事は、本テキストの主に2.5章からを整理したものになります.今回は、Non-stationary Problem(非定常問題)およびOptimistic Initial Values(楽観的初期値)について扱います. Tracking a Non-stationary Problem 前回は、行動の真の価値が変化し…