博達 - 書籍介紹

Makoto Ito (伊藤真)

「強化学習」を学びたい人が最初に読む本

給想學「強化學習」的人的第一本書

類別 : 商業理財

ISBN：9784296110360

頁數 : 408

出版 : 日経BP, 2021 年 11 月 20 日

版本 : 平裝版

版權窗口 : 繁體博達代理Mickey / 简体博達代理Mickey

學習電腦 Python

內容介紹

本書共由8個章節以及2篇講座組成。在開始閱讀本書前，請務必確認自己電腦跟程式的規格和版本是相同的。否則本書所書寫之結果，可能會因環境不同跟讀者操作出的結果有異，或者導致無法運算。

適用本書對象主要為學習過至高三範圍的數學，以及曾有稍微接觸過程式的人（預想第一次接觸Python）。本書基礎至程式的安裝，進階至程式的實際運用都有涉及，請各位讀者不用擔心不懂程式理論，或是學了不會實際操作。

第一章「強化學習的定位」說明本書概要及各種專有名詞（例如：AI、監督式學習、無監督式學習等）解釋。第二章「Python的環境構築」說明如何安裝Python，以及如何構築假定環境和如何下載本書舉例說明用的iRL。第三章「監督式學習」學習各種模組公式，他們各自的理論、構造、優缺點及使用時機。第四章「強化學習的問題設定」實際設計機器，由自己親手操作機器來完成任務。設定其狀態、可以觀測到的數值，和報酬。了解強化學習的目的，是為了「透過所有的觀測結果，選擇未來報酬期待值最大的行動」。

第五章「基礎Q學習：tableQ」說明Q學習的理論、演算及實際運用。第六章「人工神經網路Q學習：netQ」體驗在遊戲環境的各種情況，以及如何運用人工神經網路Q迴避遇到的困難。包含人工神經網路Q的實裝，及其構造、確認。第七章「透過反覆經驗的Q學習：replayQ、targetQ」分別介紹replayQ、targetQ的測試、運作方式及實戰演練。第八章「改良和注意點」介紹如何追加新的環境和接收資料的軟體，以及強化學習會遇到的各種問題，在第八章都會解決這些疑難雜症。A、B兩個講座分別說明Visual Studio Code的下載、設定、使用方法及Python的基本使用方法。

「強化學習」是什麼？強化學習是機器不斷與環境互動，來自主學習正確且最有效率執行任務。其不須人類明確寫出一步一步指令，而是透過不斷的試行，進而自行找出不同的道路，再選擇最佳解法。近年最知名，強化學習的例子，莫過於「AlphaGo」。在與世界上各路好手對弈的過程不斷吸收、進化，最後成功打敗世界冠軍。本書將會由機器人「如何最大效益化取得水晶的過程」，作為舉例說明，也讓讀者們一起練習如何編寫程式碼以及其背後理論。

作者介紹

Makoto Ito (伊藤真)

2000年，於東北大學研究所，以動物的空間導航行為之數理建模研究，取得情報科學博士學位。2004到2016年，於沖繩科學技術研究所，從事大腦與神經相關研究。2017年開始，在民間企業從事人工智慧相關產業。主要著作幾乎都是AI及程式相關書籍。

「強化学習」を学びたい人が最初に読む本

給想學「強化學習」的人的第一本書

內容介紹

作者介紹

相關連結

「強化学習」を学びたい人が最初に読む本

給想學「強化學習」的人的第一本書