2020-01-03から1日間の記事一覧

強化学習アルゴリズム整理

久しぶりにPolicy Gradientやろうとしたら全部忘れていた DQN アルゴリズムとりあえずプレイアウトしてをreplay memoryに保存すると、そのステップ後のを取り出してきて、後者の価値を古いネットワークで推定し、そこからrewardを逆算した前者の価値に近づ…