內容介紹
本書共由8個章節以及2篇講座組成。在開始閱讀本書前,請務必確認自己電腦跟程式的規格和版本是相同的。否則本書所書寫之結果,可能會因環境不同跟讀者操作出的結果有異,或者導致無法運算。
適用本書對象主要為學習過至高三範圍的數學,以及曾有稍微接觸過程式的人(預想第一次接觸Python)。本書基礎至程式的安裝,進階至程式的實際運用都有涉及,請各位讀者不用擔心不懂程式理論,或是學了不會實際操作。
第一章「強化學習的定位」說明本書概要及各種專有名詞(例如:AI、監督式學習、無監督式學習等)解釋。第二章「Python的環境構築」說明如何安裝Python,以及如何構築假定環境和如何下載本書舉例說明用的iRL。第三章「監督式學習」學習各種模組公式,他們各自的理論、構造、優缺點及使用時機。第四章「強化學習的問題設定」實際設計機器,由自己親手操作機器來完成任務。設定其狀態、可以觀測到的數值,和報酬。了解強化學習的目的,是為了「透過所有的觀測結果,選擇未來報酬期待值最大的行動」。
第五章「基礎Q學習:tableQ」說明Q學習的理論、演算及實際運用。第六章「人工神經網路Q學習:netQ」體驗在遊戲環境的各種情況,以及如何運用人工神經網路Q迴避遇到的困難。包含人工神經網路Q的實裝,及其構造、確認。第七章「透過反覆經驗的Q學習:replayQ、targetQ」分別介紹replayQ、targetQ的測試、運作方式及實戰演練。第八章「改良和注意點」介紹如何追加新的環境和接收資料的軟體,以及強化學習會遇到的各種問題,在第八章都會解決這些疑難雜症。A、B兩個講座分別說明Visual Studio Code的下載、設定、使用方法及Python的基本使用方法。
「強化學習」是什麼?強化學習是機器不斷與環境互動,來自主學習正確且最有效率執行任務。其不須人類明確寫出一步一步指令,而是透過不斷的試行,進而自行找出不同的道路,再選擇最佳解法。近年最知名,強化學習的例子,莫過於「AlphaGo」。在與世界上各路好手對弈的過程不斷吸收、進化,最後成功打敗世界冠軍。本書將會由機器人「如何最大效益化取得水晶的過程」,作為舉例說明,也讓讀者們一起練習如何編寫程式碼以及其背後理論。