モデルに内在する問題に対するマルチエージェント強化学習の設計

国立国会図書館永続的識別子: info:ndljp/pid/11008530

資料種別: 博士論文

著者: 市川, 嘉裕ほか

出版者: -

出版年: 2014-03-24

資料形態: デジタル

ページ数・大きさ等: -

授与大学名・学位: 電気通信大学,博士（工学）

すべて見る

国立国会図書館での利用に関する注記

本資料は、掲載誌(URI)等のリンク先にある学位授与機関のWebサイトやCiNii Dissertationsから、本文を自由に閲覧できる場合があります。

資料に関する注記

一般注記：: 本論文では，Q 学習に代表される強化学習手法をマルチエージェント環境に適用する際に，無意識に行っているモデル化に起因する問題に着目し，その解決手法の提案と有効性の検証を目的とする．特に，マルチエージェント強化学習では，他のエージェントの学習によって動的に環境が変化するため，エージェント間の複雑な相互...

書店で探す

障害者向け資料で読む

障害者向け資料を見る（1種類）

書店で探す

障害者向け資料で読む

他サービス
- テキストデータ国立国会図書館デジタルコレクションで確認する

書誌情報

この資料の詳細や典拠（同じ主題の資料を指すキーワード、著者名）等を確認できます。

デジタル

資料種別: 博士論文
タイトル: モデルに内在する問題に対するマルチエージェント強化学習の設計
著者・編者: 市川, 嘉裕
Yoshihiro, Ichikawa
著者標目: 市川, 嘉裕
Yoshihiro, Ichikawa
出版年月日等: 2014-03-24
出版年（W3CDTF）: 2014-03-24
授与機関名: 電気通信大学
授与年月日: 2014-03-24
授与年月日（W3CDTF）: 2014-03-24
報告番号: 甲第734号
学位: 博士（工学）
博論授与番号: 甲第734号
本文の言語コード: jpn
対象利用者: 一般
一般注記: 本論文では，Q 学習に代表される強化学習手法をマルチエージェント環境に適用する際に，無意識に行っているモデル化に起因する問題に着目し，その解決手法の提案と有効性の検証を目的とする．特に，マルチエージェント強化学習では，他のエージェントの学習によって動的に環境が変化するため，エージェント間の複雑な相互作用を考慮したエージェントモデルの構築が必要であるが，それだけでなくエージェントモデルの前提（例えば，エージェントの学習速度は同じであるなど）として設定されていることによってエージェント間の協調に問題が生じ，大局的な最適政策の獲得が困難となることがある．このような問題は，システム設計者が予め自覚することは難しく，本論文ではこれを「モデルに内在する問題」と称し，エージェントの設計を改善することによってモデルに内在する問題（特に，マルチエージェント学習環境特有の同時学習問題や報酬の組み合わせが増えることで表面化する問題）の解決を図る．具体的には，(1) 一定の学習速度のモデルが原因で学習の停滞や獲得する政策（エージェントが学習した行動規則集合）の偏りを引き起こす問題，(2) 外部報酬に対する受容モデルが引き起こす局所的な政策獲得の問題，(3) 単一の政策のみによる学習モデルが望ましい政策の獲得を阻害する問題の解消に取り組む．また，いつ生じるかわからないモデルに内在する問題の性質上，様々な問題に同時に対処できることが望ましいため，上記の個別の解決策を統合することを試みる．さらに，モデルに内在する問題という観点からマルチエージェント学習を体系化し課題を整理することを試みる．上記の目的達成に向け，(1) の問題に対しては，エージェントの行動がどれだけ確定的であるかを行動選択確率に関する情報エントロピーを用いて「学習進度」を定量化し，エージェント間で学習進度の差が大きくなり過ぎないように学習進度を共有しながら自身の学習速度を調整する手法を探究する．次に，(2) の問題に対しては，複数報酬問題において学習初期での獲得が容易で陥りやすい低い報酬への政策の獲得を避け，高い報酬を探索するために算出する「内部報酬」（外部報酬に置き換える目標）に基づいて状態-行動価値を見積もる（政策を学習する）手法を考案する．最後に，(3) の問題に対しては，学習途中で見つけた有望な政策（エージェント間のパレート政策）を複数保持し，それに基づいて低い報酬に対する学習を抑制することで，効率的に最適政策（パレート最適政策）を探索する手法を提案する．提案手法の有効性を検証するために，(1) 一定の学習速度のモデルに内在する問題を扱う例題（狭路すれ違い問題），(2) 外部報酬の受容モデルに内在する問題を扱う例題（マルチステップタスク割り当て問題），(3) 単一政策のみの学習モデルに内在する問題を扱う例題（マルチステップ４タスク問題）に提案手法を適用し，シミュレーション結果を通してその有効性を検証したところ，次の知見を得た：(1) 一定の学習速度のモデルに内在する問題に対しては，学習進度の違いがエージェント間の協調に影響を与えるが，通信を介して共有した学習進度を基に学習速度を調整する提案手法によって，エージェントの競合を回避できることを示した．特に，(i) 学習が進んでいるエージェントの割引率γを下げる方法は，価値が高く選択されやすい行動価値を重点的に下げ，政策の偏りを防ぐことで，全てのエージェントが目標達成のために学習できる機会を増加させる働きがあること，(ii) 学習が遅れているエージェントの割引率γを上げる方法は，目標達成につながる行動とつながらない行動の価値をはっきり分けるように推定するため，報酬獲得の機会が少ない状況から効率よく学習する働きがあることを明らかにした．次に，(2) 外部報酬の受容モデルに内在する問題に対しては，複数の報酬に対する報酬獲得の難易度の違いから局所的な政策に陥り易いが，外部報酬を基に見積もった内部報酬を用いて状態-行動価値を更新する提案手法によって，低い報酬へ向かう政策の獲得を避け，高い報酬へ向かう政策を獲得できることを示した．特に，(i) 高い報酬を集中的に探索するためには，今までに獲得した報酬の平均値を基準にして外部報酬を評価し直した内部報酬が有効であり，(ii)この内部報酬が最短経路の探索にも貢献することを見出した．最後に，(3) 単一政策の保持のモデルに内在する問題に対しては，多数の望ましくない報酬が望ましい報酬に対する学習を阻害するため，学習途中で見つけたパレート政策をアーカイブ保存し，それに基づいて状態-行動価値の更新を決定する提案手法によって，局所政策の獲得を回避できることを示した．特に，学習済みと判断したパレート政策のアーカイブを参照することによって，新しく学習する政策をそれよりも良い報酬を獲得できるものだけにすることを可能にしたことを示した．また，上記の三種の解決法を同時に例題に適用した実験の結果より，各手法の特徴が重なり合わさることによって特徴的な性能が得られることがあることを示した．さらに，モデルに内在する問題という観点からマルチエージェント学習を体系化することにより，今後の課題を明確にした．
2013
国立国会図書館永続的識別子: info:ndljp/pid/11008530
https://dl.ndl.go.jp/pid/11008530
コレクション（共通）: 障害者向け資料
コレクション（障害者向け資料：レベル1）: テキストデータ
コレクション（個別）: 国立国会図書館デジタルコレクション > デジタル化資料 > 博士論文
https://dl.ndl.go.jp/collections/A00014
収集根拠: 博士論文（自動収集）
受理日（W3CDTF）: 2018-01-02T17:18:43+09:00
作成日（W3CDTF）: 2016-09-02
記録形式（IMT）: application/pdf
オンライン閲覧公開範囲: 国立国会図書館内限定公開
デジタル化資料送信: 図書館・個人送信対象外
遠隔複写可否（NDL）: 可
掲載誌（URI）: http://id.nii.ac.jp/1438/00000905/
連携機関・データベース: 国立国会図書館 : 国立国会図書館デジタルコレクション
https://dl.ndl.go.jp

モデルに内在する問題に対するマルチエージェント強化学習の設計

書店で探す

障害者向け資料で読む

目次

書店で探す

障害者向け資料で読む

書誌情報

デジタル