たった2時間のゲームプレイで人間相当性能に到達可能なサンプル効率の高い強化学習手法 ”Bigger, Better, Faster”を実装します。 背景: 強化学習実用の課題は劣悪なサンプル効率 強化学習におけるサンプル効率向上アプローチ 評価指標: Atari-100Kベンチマーク ①リセット法によるリプレイ率の増大 ②環境シミュレータ(世界モデル)のデータ駆動構築 Bigger Better Faster: BBF (2023) 手法解説 SPR(2020) SR-SPR (2022) Bigger, Better, Faster (2023) Tensorflow2による実装 A. リセ…