Sim-to-Real: Learning Agile Locomotion For Quadruped Robotsはこちら。
概要
深層強化学習を使って四足のロボットを自動歩行制御します。
先行研究との比較
従来は、シミュレーションで学習させたモデルを実機で使う際に修正が必要だったが、不要になりました。
技術や手法の特徴
歩行学習
- 観察空間でデータの取捨選択をし、行動空間にleg spaceを利用
- 速い移動スピードを推奨し、エネルギー消費にペナルティを与える報酬設定
- 人間によるパラメータ調整
シミュレーターと実機の差の縮小
- シミュレーターのアクチュエーターモデルとレイテンシハンドリングを拡張
正確なコントローラーの作成
以下の対応で実現しました。
- ダイナミックパラメータのランダム化
- ランダムの摂動を加える
- コンパクトな観察空間
検証方法
速歩と駈歩(trotting and galloping)の実機で検証。
その他
実機について
- ロボットにはGhost RoboticsのMinitaurを使用
- ハードウェアのアーキテクチャ
- シミュレーションの作成にはPyBulletを利用(PyBulletはBullet Physics Engineのpythonモジュール)
オイラー角
論文では、ロール、ピッチ、それらの角速度、8つのモーターのアングルで観察。