図書
書影書影書影

Pythonで学ぶ強化学習 : 入門から実践まで 改訂第2版 (機械学習スタートアップシリーズ)

図書を表すアイコン
表紙は所蔵館によって異なることがあります ヘルプページへのリンク

Pythonで学ぶ強化学習 = Reinforcement Learning by Python : 入門から実践まで

改訂第2版

(機械学習スタートアップシリーズ)

国立国会図書館請求記号
M159-M194
国立国会図書館書誌ID
029951878
資料種別
図書
著者
久保隆宏 著
出版者
講談社
出版年
2019.9
資料形態
ページ数・大きさ等
297p ; 21cm
NDC
007.13
すべて見る

資料詳細

要約等:

「Pythonで強化学習が実装できる!」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。(提供元: 出版情報登録センター(JPRO))

著者紹介:

久保 隆宏 TIS株式会社戦略技術センター所属。Twitter:@icoxfog417。 現在は、「人のための要約」を目指し、少ない学習データによる要約の作成・図表化に取り組む。また、論文のまとめを共有するarXivTimesの運営、『直感 Deep Learning』オライリージャパン(2018)...

書店で探す

目次

  • Day1 強化学習の位置づけを知る  強化学習とさまざまなキーワードの関係  強化学習のメリット・デメリット  強化学習における問題設定:Markov Decision Process  Day2 強化学習の解法(1): 環境から計画を立てる  価値の定義と算出: Bellman Equation  動的計画法による状態評価の学習: Value Iteration  動的計画法による戦略の学習: Policy Iteration  モデルベースとモデルフリーとの違い Day3 強化学習の解法(2): 経験から計画を立てる  経験の蓄積と活用のバランス: Epsilon-Greedy法  計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference  経験を価値評価、戦略どちらの更新に利用するか:Valueベース vs Policyベース Day4 強化学習に対するニューラルネットワークの適用  強化学習にニューラルネットワークを適用する  価値評価を、パラメーターを持った関数で実装する:Value Function Approximation  価値評価に深層学習を適用する:Deep Q-Network  戦略を、パラメーターを持った関数で実装する:Policy Gradient  戦略に深層学習を適用する:Advantage Actor Critic (A2C)  価値評価か、戦略か Day5 強化学習の弱点  サンプル効率が悪い  局所最適な行動に陥る、過学習をすることが多い  再現性が低い  弱点を前提とした対応策 Day6 強化学習の弱点を克服するための手法  サンプル効率の悪さへの対応: モデルベースとの併用/表現学習  再現性の低さへの対応: 進化戦略  局所最適な行動/過学習への対応: 模倣学習/逆強化学習 Day7 強化学習の活用領域  行動の最適化  学習の最適化

全国の図書館の所蔵

国立国会図書館以外の全国の図書館の所蔵状況を表示します。

所蔵のある図書館から取寄せることが可能かなど、資料の利用方法は、ご自身が利用されるお近くの図書館へご相談ください

北日本

関東

近畿

  • 農林水産関係試験研究機関総合目録

    検索サービス
    連携先のサイトで、農林水産関係試験研究機関総合目録が連携している機関・データベースの所蔵状況を確認できます。
  • CiNii Research

    検索サービス
    連携先のサイトで、CiNii Researchが連携している機関・データベースの所蔵状況を確認できます。

書店で探す

出版書誌データベース Books から購入できる書店を探す

『Books』は各出版社から提供された情報による出版業界のデータベースです。 現在入手可能な紙の本と電子書籍を検索することができます。

書誌情報

この資料の詳細や典拠(同じ主題の資料を指すキーワード、著者名)等を確認できます。

記録メディア デジタル

資料種別
図書
ISBN
978-4-06-517251-3
タイトルよみ
パイソン デ マナブ キョウカ ガクシュウ
著者・編者
久保隆宏 著
改訂第2版
著者標目
久保, 隆宏 クボ, タカヒロ ( 001300203 )典拠
出版事項
出版年月日等
2019.9