2016年3月14日 星期一

AlphaGo 訓練方式

http://udn.com/news/story/9574/1561380
2016-03-14 04:03 經濟日報 編譯任中原/綜合外電

經濟學人雜誌報導,與南韓棋士李世乭對戰的AlphaGo軟體,是採用深層學習的技術,藉由複雜的統計方法,讓電腦從龐大且雜亂的資料中淬取出通用的法則,對於如何下棋發展出本身的直覺反應。


深 層學習需要大量處理能力、與可供學習的資料等兩項要件。DeepMind訓練電腦時,從網路上挑選出3,000萬種業餘及職業棋士對奕的棋譜,與 AlphaGo對戰。這些資料被輸入兩種深層學習演算模式。


一為政策網路,訓練電腦模擬真人的下法,讓電腦學會找出各種特點、原則及法則,產生並建議多種 似乎可靠的下法。


第二套演算模式為「價值網路」,根據政策網路的建議,評估每種下法的作用。價值網路只評估後幾手的可能情況,找出最可能的勝著。這兩套演算模式結合了真人棋手多年來累積的經驗。