強化学習

【論文紹介】PPO

概要

proximal policy optimization (PPO)。policyの最適化手法です。安定して信頼性が高く実装コストは低く、vanilla policy gradientの数行を修正するのみで実装できます。

先行研究との比較

trust region policy optimization(TRPO)と同様の安定性を誇るが、実装が簡単です。

技術や手法の特徴

TRPOでは最大化していたこの式を
式6
以下のように変えた。
式7
policyの改善を制限し、改悪する可能性も追加しています。

TRPOでは、任意で決めていたβの算出式を固定していました。
式8

検証方法

ロボットを動作させることとアタリのゲームで検証。ロボットの動作では他のアルゴリズム全てより良いパフォーマンスでした。アタリのゲームでは、A2Cより良いパフォーマンスでACERと同じ程度だが実装がより簡単です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です