Stable Baselinesとは
投稿日:概要 Open AIのBaselinesの強化学習を扱い安くしたしたライブラリです。Baselinesは研究と […]
概要 Open AIのBaselinesの強化学習を扱い安くしたしたライブラリです。Baselinesは研究と […]
概要 proximal policy optimization (PPO)。policyの最適化手法です。安定 […]
強化学習を個々の手法の集まりとしてではなく、手法群全体で首尾一貫した考え方の集合として示しています。 統一され […]
環境モデルを必要とする手法群(動的計画法やヒューリスティック探索など)と、モデルなしに用いることの出来る手法( […]
状態あるいは状態行動対の1つに対して1つのエントリーが対応するようなテーブル形式の推定価値関数を扱ってきました […]
遂に第7章から第3部です!第3部では、第2部で紹介された3種類(動的計画法、モンテカルロ法、TD法)の基本的な […]
TD学習(時間的差分学習:Temporal Difference Learning)はモンテカルロ法と動的計画 […]
モンテカルロ法は経験(experience)のみを必要とします(環境の完全な知識を仮定しない)。この経験という […]
ここから遂に第2部具体的な解法に入ります!本書では大きく3つの解法が記載されています。(長所、短所も一緒に) […]
エージェントと環境間のインタフェース 強化学習とは、相互作用から学習して目標を達成する問題の枠組みそのものです […]