並列タイトル等Behavior Acquisition Supporting Method Used Shaping Reinforcement Learning for Autonomous Agent
一般注記一般に,自律エージェントや自律移動ロボットに効率的な行動学習をさせるためには動物の学習メカニズムから工学的応用を行なうことは有効な手法であることが知られている。中でも,動物行動学,行動分析学や動物のトレーニング(調教)などで広く用いられている「Shaping」という概念が最近注目されている. Shapingは学習者が容易に実行できる行動から複雑な行動へと段階的,誘導的に強化信号を与え,次第に希望の行動系列を形成する概念である。本研究では繰り返し探索により自律的に目標行動を獲得できる強化学習にShapingの概念を取り入れたShaping強化学習を提案する。有効なShaping効果を検証するために強化学習の代表的なQ-Learning, Profit Sharing, Actor-Criticの3手法を用いた異なるShaping強化学習を提案し,グリッド探索問題のシミュレータを用いて比較実験を行なった。さらに,実際の動物などの調教の場などで知られている段階を追って行動を強化する「分化強化」という概念をShaping強化学習に取り入れた分化強化型ShapingQ-Learning (DR-SQL)を提案し,シミュレーション実験により手法の有効性が確認された。Generally, it is known that the engineering application simulated from the learning mechanism of animals is useful to make learn behaviors of the autonomous agents or mobile robots efficiently. Above all, a general idea of "shaping" used by ethology, behavior analysis or animal training is a remarkable method recently. "Shaping" is a general idea that the learner is given a reinforcement signal step by step gradually and inductively forward the behavior from easy tasks to complicated tasks. In this research, we propose a shaping reinforcement learning method took in a general idea of "shaping" to the reinforcement learning that can acquire a desired behavior by the repeated search autonomously. Three different shaping reinforcement learning methods used Q-Learning, Profit Sharing, and Actor-Critic to check the efficiency of the shaping were proposed and the experiment by the simulator of grid search was performed. Furthermore, we proposed the Differential Reinforcement-type Shaping Q-Learning (DR-SQL) applied a general idea of differential reinforcement to reinforce a special behavior step by step such as real animal training, and confirmed the effectiveness of this method by the simulation experiment.
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)