はじめに 前回は、近似式と目標値の差を表す誤差関数を最小化するパラメータの探索手法の1つである勾配法について整理しました. 強化学習:関数近似(勾配法とか) - 他力本願で生き抜く(本気) 今回は、強化学習におけるパラメータの更新について詳しく…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。