ロボットの視覚
The Cyber Rodent has a wide-angle C-MOS camera. It also has an FPGA chip for real-time visual processing, such as color blob detection. When a new omni-directional image with resolution of 320 × 240 pixels is captured, 12 rectangular regions are retrieved. Then, 4 color blobs are extracted in each region. Parameters for specifying rectangular regions and extracting color blobs are tunable during experiments.
- [Download]
- Robot's view [0.9 MB]
- Rotated [1.0 MB]
病的な行動
メタパラメータや報酬関数は, 強化学習によって獲得される行動に多大な影響を与えます. このムービーでは, 障害物のない環境で電池パックを捕まえるという単純なタスクでもメタパラメータや報酬関数によっては奇妙な行動が獲得されることを示しています.
- [Download]
- 適切にメタパラメータや副報酬を設定した場合 [7.2 MB]
- β を小さく設定した場合 (ランダム探索) [30.3 MB]
- γ を大きく設定した場合 [6.8 MB]
- γ を小さく設定した場合 [19.5 MB]
- 副報酬を過度に大きく設定した場合 [31.9 MB]
並列学習アーキテクチャ
このムービーは我々の提案している並列学習アーキテクチャ CLIS による実環境での実際の学習の様子です. 障害物が存在する環境で電池パックを捕まえるという簡単なタスクですが, 通常の強化学習をそのまま適用すると, 目的の行動を学習するためには膨大な学習時間を必要とします. 我々の手法は, 約 1 時間程度で障害物をうまく回避しつつ電池パックを捕まえることが可能となりました.
- [ダウンロード]
- 実環境での学習の様子 (58.4 MB)
交配行動と自己保存行動
日本科学未来館にて, 4 台のサイバーローデントを用いた交配行動と自己保存行動のデモンストレーションを行いました. それぞれ衝突回避,電池パックの捕獲による充電行動, 赤外線通信によるソフトウェアの交配を実環境で学習しています.
- [ダウンロード]
- 科学未来館でのデモの様子 (42.3 MB)
マルチエージェント強化学習
マルチエージェント環境において強化学習を成功させるための鍵となるのは, 他のエージェントの行動を予測する能力です.この実験では, 学習を安定化させるためのマクロ行動を導入することでこの問題に対処しました. 以下のムービーでは,マクロアクションが学習過程に及ぼす影響を表しています. マクロアクションを使うことで, 2 台のサイバーローデントは交配行動を実環境で学習することが可能になりました.
- [ダウンロード]
- マクロアクションあり (2.8 MB)
- マクロアクションなし (2.1 MB)
メタパラメータの進化的獲得
この研究では、進化的手法が強化学習のためのメタパラメータの設定を、 強化学習がそのメタパラメータのもとでの行動学習を担当しています。 シミュレーションで得られたメタパラメータが実環境でもうまくはたらくか、 といったことも検証しています。
- [ダウンロード]
- シミュレーションでの学習の様子 (2.3 MB)
- 実環境での学習の様子 (31.0 MB)