2019-01-25から1日間の記事一覧
今回の記事も、本テキストの主に2.6章、2.7章を整理したものになります.今回は、UCBアルゴリズムについて扱います. ε-greedy法と同じく行動選択のアルゴリズムになります. UCBアルゴリズム 早速ですがUCBアルゴリズムの説明をしていきます.UCBとはUpper …
今回の記事は、本テキストの主に2.5章からを整理したものになります.今回は、Non-stationary Problem(非定常問題)およびOptimistic Initial Values(楽観的初期値)について扱います. Tracking a Non-stationary Problem 前回は、行動の真の価値が変化し…