2019-01-26から1日間の記事一覧

強化学習：状態価値関数とBellman方程式 (良記事のトレース）

いきなりですが、状態価値関数・Bellman方程式について調べたくてこの記事にたどり着いた方は、何も考えずに以下の記事に飛んでください．時間を無駄にしなくてすみます． qiita.com 今回から、上のQiitaに投稿された記事をトレースしながら状態価値関数から…

強化学習 MDPs マルコフ決定過程

はじめに今回は、強化学習における最も重要な考え方の１つであるマルコフ決定過程について整理していきます．目標マルコフ決定過程の概要を理解するマルコフ決定過程（Markov Decision Processes）強化学習の枠組み（再掲）マルコフ決定過程の説明に先…