概要
proximal policy optimization (PPO)
。policyの最適化手法です。安定して信頼性が高く実装コストは低く、vanilla policy gradientの数行を修正するのみで実装できます。
先行研究との比較
trust region policy optimization(TRPO)
と同様の安定性を誇るが、実装が簡単です。
技術や手法の特徴
TRPOでは最大化していたこの式を
以下のように変えた。
policyの改善を制限し、改悪する可能性も追加しています。
TRPOでは、任意で決めていたβの算出式を固定していました。
検証方法
ロボットを動作させることとアタリのゲームで検証。ロボットの動作では他のアルゴリズム全てより良いパフォーマンスでした。アタリのゲームでは、A2Cより良いパフォーマンスでACERと同じ程度だが実装がより簡単です。