はじめに 今回は、前回の記事(強化学習:プランニングと学習(その1))の続き、迷路問題での実装を行っていきます. 迷路問題に対するDyna-Qの導入 では、Sutton本に記載されている例題を使って、通常のQ学習と、Dyna-Qを比べてみます. 問題設定(6×9マ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。