データ効率の高い強化学習法の提案

移動ロボットの運動方法に関する強化学習においては,時間などの制約から十分な量のデータを集めることが困難な場合が多々あります.このため,データ効率が高く少ない実験回数で最適な動作を獲得できる手法が求められています.本研究室ではデータ効率の高い強化学習則の一つとしてPI² (Policy Improvement with Path Integral) と呼ばれる方法に着目しました.PI²はもともとロボットの強化学習則として提案されたアルゴリズムであり,比較的少ない実験回数で適切な動作を学習できることが示されていました.しかし,事前に設定しなければならないパラメータが複数存在しており,それらの設定次第で効率は大幅に変化します.そこで,それらパラメータを状況に応じて自動で調整する枠組みを提案し,元のPI²では獲得に成功しなかったような難しい動作の獲得が可能であることを示しました.


ベイズ最適化を応用したロボットの運動最適化

システムの最適化を目的とした実験計画法の一種としてベイズ最適化または応答曲面法と呼ばれる方法が知られています.ベイズ最適化は回帰分析法を利用することにより,最適化すべきパラメータと評価関数値との関係(応答曲面)を推定し,その推定結果を基に効率よく最適解を探すための実験計画(実験で評価してみるパラメータの選択)を行います.ベイズ最適化の枠組みで利用する回帰手法を工夫することにより,ヘビ型ロボットのサイドワインディング推進に関する多目的最適化を40回程度の実機実験で実現しました.


ロボットの構造と制御器の同時最適化

ロボットの強化学習においては,一般には人間が指定した構造のロボットに対して制御器を最適化することを考えます.この際,ロボットの構造は設計者が勘や経験に基づいて決めるもので,多大な労力を要するのみならず,タスクに対する最適性も明らかではありません.そこで,本研究室ではロボットの制御器だけではなくロボットの構造も強化学習の枠組みを利用して最適化する研究を行っています.