最終更新日: Mar. 16, 2004

強化学習におけるメタパラメータの進化的獲得

学習率と探索のための温度パラメータの関係

強化学習をうまく働かせるためには,メタパラメータと呼ばれる 学習率や探索の割合を制御する温度パラメータなどを適切に設定しなければならない. しかし従来の強化学習を用いた研究の多くは,設計者が手動でメタパラメータを調整していた. それと比較すると,人間や実際の生物は教示者や設計者の手を借りなくても, 様々な環境で新しい行動を次々と獲得している. 真に自律的なエージェントを構築するためには, タスクや環境の要求に合うようにメタパラメータを調節する手法を開発することが重要である. この研究では,強化学習におけるメタパラメータを進化的手法を用いて調節する手法を提案する.

実環境での学習の様子

我々の手法では,上記のメタパラメータは個体の遺伝子として符号化される. 各個体は通常の強化学習と,各個体が持つメタパラメータを用いて, 与えられたタスクを学習する.学習結果に基づき, 進化のために必要な適合度は計算される. シミュレーションで獲得されたメタパラメータを実システムの行動学習にも利用する. コンピュータシミュレーションと実システムの間にはいまだギャップがあるが, 獲得されたメタパラメータは実環境においても効率良く働くことがわかった.

階層強化学習における階層構造の進化的獲得

複雑な環境で獲得された階層構造

一般に強化学習では,状態空間の大きさに対して学習時間は指数的に増加すると見積もることができる. 大規模な問題を扱う際,学習時間を短縮するために階層構造がしばしば導入される. 階層強化学習法はこれまでにも多くの研究がなされているが, 事前に設計者が階層構造を与えなければならないことが一つの制約となっている. この研究では,進化的手法を用いて階層構造を自動的に獲得する手法を提案している.

強化学習アルゴリズムは MAXQ 学習を, また階層構造を構築するための遺伝子操作には遺伝的プログラミングにならった操作を用いている. サイバーローデントにとってのタスクは,電池パックを発見し,巣に持ち帰ることである. シミュレーションにより,環境の複雑さと獲得された木の間には強い関係があることがわかった.

構造の異なる複数の学習器を利用した並列強化学習

提案する並列協か学習アーキテクチャ

ミンスキーは人間社会と同様に,人間の心も様々なエージェントが協調したり競合したりして動かしており, 知能を単純なエージェントの集まりとしてとらえ,エージェント間の相互作用の結果, 全体としての振る舞いを生成していると提唱した. この考え方は計算論的神経科学の分野でも注目を集めており, 運動手続きの学習の研究でも, 複数の学習モジュールがそれぞれ同時に並行して異なる座標系で学習し, それぞれ系列の学習に貢献していることが示唆されている.

強化学習の場合も同じように考えることができる. 一般に学習の進み方や性能は学習者の複雑さに依存する.パラメータ数の少ない, また内部状態を持たない学習者であれば素早く反射的な制御則を獲得できる可能性がある一方, 性能は限定されたものになる.また,複雑な構造を持つ学習者は最終的には高い性能を獲得できる可能性があるが, 学習に要する時間は膨大なものとなる. 事前にどのような構造を学習者に与えるべきか,また, どのような学習アルゴリズムを使用するかを決定することは困難である. むしろ複数の学習器を同時に学習し, 状況に応じて適切な学習器を選択する手法が望ましい.

実験課題の一つ:T-maze タスク

この研究では, 構造や使用アルゴリズムの異なる多数の学習器を持つ学習者が, 効率良く学習器を切り替えながら学習する並列強化学習手法を提案する. 重点サンプリングを用いることで, ある学習器によって集められた経験を別の学習器の学習に利用することができる. この枠組では,感覚・行動系を共有する複数の異種学習モジュールが互いに競合, 協調しながら与えられたタスクを学習し,全体として見ると, 良い性能を素早く獲得することができる. 提案手法を検証するために,部分的にしか状態が観測できない倒立振子の問題と, サイバーローデントを用いたバッテリ捕獲タスクおよび T-maze タスクを実施した. いずれの実験においても, 学習器を単独で用いるよりも提案手法が与えられた課題を素早く学習できた. これは,素早く学習できる単純な学習器を用いて効率良く経験を集めることで, 複雑な学習器の学習の効率を改善したためであると考えられる.