強化学習を個々の手法の集まりとしてではなく、手法群全体で首尾一貫した考え方の集合として示しています。
統一された見方
強化学習手法群のすべては、中心となる3つの考え方を共通して持っています。
- 価値関数:価値観数の推定を目的としている
- バックアップ:実際あるいは可能な遷移軌跡に沿って価値をバックアップすることにより動作している
- GPI:一般化方策反復(GPI)の一般的な方策に従っており、これは近似価値観数と近似方策とを保持し、互いに一方に基づいて他方を継続的に改善することを意味している
(図10.1参照)
これらに加えて、本書では、方策オン型と方策オフ型手法の二次元的な区別も特徴軸として強調してきました。方策オン型の場合には、エージェントは現在追従している方策の価値関数を学習します。方策オフ型の場合には、エージェントが現在最良と考える方策の価値関数を学習します。
その他、本書で取り扱われた特徴軸の存在。
- 収益の定義
- 行動価値、状態価値と事後状態価値
- 行動選択/探索
- 同期と非同期
- 入替え更新トレースと累積トレース
- 実際上のシミュレーション上
- バックアップの位置づけ
- バックアップのタイミング
- バックアップの記憶
その他の先端的特徴軸
本書で扱った内容を超えた強化学習の拡張のなかで最も重要なものの1つは、状態表現がマルコフ性を持つという要求を除くこと。また、拡張の重要な方向性としてはモジュール性と階層性の考えを組み入れること。