久しぶりにPolicy Gradientやろうとしたら全部忘れていた DQN アルゴリズム とりあえずプレイアウトしてをreplay memoryに保存する と、そのステップ後のを取り出してきて、後者の価値を古いネットワークで推定し、そこからrewardを逆算した前者の価値に近づ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。