環境モデルを必要とする手法群(動的計画法やヒューリスティック探索など)と、モデルなしに用いることの出来る手法(モンテカルロ法やTD法など)の統一的な見方を確認します。前者をプランニング
(planning)手法、後者を学習
(learning)手法と呼びます。これら2つの種類の手法は実際上は異なっていますが大きな類似点もあります。ここでは両者がどの程度まで混在できるのかを調べます。
モデルとプランニング
環境のモデル(model)とは、エージェントが自分の行動に対してどのように応答するかを予測できる、あらゆる対象を意味するものとします。モデルの中に全ての可能性と、その確率とを作り出すものがあり、これを分布モデル
(distribution model)と呼びます。確率に従ってサンプリングされる可能性の1つを作り出すサンプルモデル(sample)と呼びます。
経験の模倣あるいはシミュレーションにモデルを用いることができます。モデルは環境をシミュレート(simulate)し、シミュレーション上の経験(simulated experience)を作り出します。
プランニングには2つの異なったアプローチがあります。
状態空間プランニング(state-space planning)
(本書のもの)
プランニングは主として目標に対する最適方策、あるいは経路を見つけるための状態空間探査です。行動は状態間の遷移を発生させ、価値関数が状態群に対して計算されます。
プラン空間プランニング(plan-space planning)
プラン空間の探査。オペレータ群によって1つのプランが別のプランに変換され、価値関数はプラン空間上で定義されます。プラン空間には展開的手法と半順序プランニングが含まれます。
半順序プランニング(partial-order planning)
ステップ間の順序付けがプランニングのどの段階においても完全には決められていないプランニング。プラン空間手法は強化学習の焦点となっている確率的最適制御問題に効率的に適用することは難しいです。
状態空間プランニング手法には、共通の構造が2つある。
- 状態空間プランニング手法では、方策を改善するための重要な中間的ステップとして、価値関数の計算が含まれる
- 価値観数の計算は、シミュレーション上の経験に適用されたバックアップ操作によって行われる
モデル → シミュレーション上の経験 →(バックアップ)→ 価値 → 方策
図9.1は、1ステップ・テーブル型Q学習と、サンプルモデルによって作られたランダムサンプルに基づくプランニング手法の例を示しています。ランダムサンプル・1ステップ・テーブル型Qプランニング(Random-sample one-step tabular Q-planning)と呼ぶこの手法は、当該モデルに対して最適方策を収束します。
もし問題規模が大きすぎて厳密には解けないならば、非常に小さなステップでプランニングを行うことが、純粋なプランニング問題においても最も効率的なアプローチです。
プランニング、行動、学習の統合
相互作用の結果得られた新しい情報はモデルに変化を与え、それによってプランニングとの相互作用が行われます。現在考慮中の(あるいは近い将来に予想される)状態あるいは意思決定に応じて、何らかの方法でプランニング過程を個別に設計することが望ましく、大きな計算不可を要する過程であるなら、利用可能な計算資源をこれらの間に分配する必要があります。このような問題には、オンライン・プランニング・エージェントに要求される主たる機能を結合した単純なアーキテクチャDyna-Q
があります。
実際の経験に対してプランニング・エージェントには少なくとも2つの役割があります。
- モデル学習(model-learning):モデルの改良(実際の環境に、より正確に適合するように)使えるということ
- 直接的強化学習(direct reinforcement learning: direct RL):強化学習手法を用いて、直接的に価値関数と方策を改善すること
(図9.2参照)
モデルを介して非直接的に価値と方策を改善する手法を間接的強化学習
(indirect reinforcement learning)といいます。直接的手法、間接的手法ともに欠点を持ち、間接的手法は限られた量の経験をより多く活用するので、環境との相互作用が少なくとも良好な方策を実現します。これに対して、直接的手法はずっと単純でモデル設計時に偏った扱いの影響を受けません。
Dyna-Qは図9.2に示す全ての過程(連続的に発生するプランニング、行動、モデル学習、そして直接的RL)を含んでいます。プランニング手法は図9.1に示されたランダムサンプル・1ステップ・テーブル型Q学習、直接的RL手法は1ステップ・テーブル型Q学習です。過去に経験した状態行動対に関して問い合わせを受けたならば、モデルは最後に観測した次状態と次報酬を予測として返すだけです。
Dynaエージェント(Dyna-Qアルゴリズムはその1例である)の全体的なアーキテクチャが図9.3に示されています。モデルが生成したシミュレーション上の経験に対し、開始時の状態と行動を選択する過程を探索制御(search control)といいます。
(図9.3参照)
図9.4にDyna-Qの完全な形のアルゴリズムを示す。
(図9.4を参照)
モデルに誤りがある場合
モデルがからの状態から始まり、厳密に正しい情報のみで満たされる例をみてきたが、一般的にはこのような幸運は期待できません。モデルが不正確であるとプランニング過程は準最適方策を計算します。
※ この部分の例もすごくわかりやすいです。
優先度スイープ
Dynaエージェントでは、シミュレーション上の状態遷移は以前に経験した状態行動対から一様かつランダムに選ばれた状態行動対から開始されていました。しかし、一様な選択は通常最良ではありません。もし、シミュレーション上の遷移とバックアップの対象が特定の状態行動対群にしぼられているならば、プランニングをいっそう効率的にすることができるはずです。
これが、優先度スイープ
(prioritized sweeping)の考え。
(図9.9参照)
完全バックアップとサンプルバックアップ
1ステップ・バックアップの特徴軸は3つある。
- 状態価値と行動価値のいずれをバックアップするか
- 最適方策と任意に与えられた方策のいずれを推定するか
- 完全バックアップ(起こるかもしれない全ての可能な事象を考慮する)か、サンプルバックアップ(起こるかもしれない単一のサンプルを考慮する)か
(図9.12参照)
完全バックアップはサンプリング誤差によって損なわれることがないので、より良い推定をもたらすがより多くの計算を必要とし、これがプランニングを制限することがよくあります。また、サンプル・バックアップは早めに推定値の精度を挙げられることで、後続状態から更新された価値がさらに正確になります。
遷移軌跡サンプリング
バックアップを分散させる2つの方法を比較します。
- 動的計画法をもとにした古典的アプローチ:スイープごとに各状態(あるいは状態行動対)を1度バックアップしながら、状態(あるいは状態行動)空間全体に対してスイープを行う(規模が大きいタスクにおいて、1スイープを完了する時間がないので問題が多い)
- 何らかの分布に従って、状態あるいは状態行動空間からサンプリング:方策オン型分布に従って(つまり、現在の方策に従っているときに観測される分布に従って)バックアップを分散させる
2つ目の手法では個々の遷移軌跡のシミュレーションを行い、その途中で遭遇した状態あるいは状態行動対のバックアップを行います。このようにして経験とバックアップを生成する方法を遷移軌跡サンプリング
(trajectory sampling)と呼びます。
ヒューリスティック探索
ヒューリスティック探索では近似、つまりヒューリスティック価値観数を変更することではなく、現在の価値関数が与えられたとして行動選択を改善することにのみ関わりを持ちます。言い換えると、ヒューリスティック探索は方策計算の一部としてのプランニングです。
選択可能な行動群のバックアップ値を計算しますがそれらの値を保存しようとはしません。したがって、ヒューリスティック探索が、1ステップを超えてグリーディ方策を実行する考え方の拡張版であると見ることができます。
ヒューリスティック探索は、最適価値関数を良好且つ校則に近似するように選択的にバックアップを分布させる方法も示唆しています。ヒューリスティック探索に関するかなりの研究は、探索を出来る限り効率的にすることに向けられています。
(図9.15)