中和: 2016年3月14日

2016年3月14日星期一

AlphaGo 訓練方式

http://udn.com/news/story/9574/1561380
2016-03-14 04:03 經濟日報編譯任中原／綜合外電

經濟學人雜誌報導，與南韓棋士李世乭對戰的AlphaGo軟體，是採用深層學習的技術，藉由複雜的統計方法，讓電腦從龐大且雜亂的資料中淬取出通用的法則，對於如何下棋發展出本身的直覺反應。

深層學習需要大量處理能力、與可供學習的資料等兩項要件。DeepMind訓練電腦時，從網路上挑選出3,000萬種業餘及職業棋士對奕的棋譜，與 AlphaGo對戰。這些資料被輸入兩種深層學習演算模式。

一為政策網路，訓練電腦模擬真人的下法，讓電腦學會找出各種特點、原則及法則，產生並建議多種似乎可靠的下法。

第二套演算模式為「價值網路」，根據政策網路的建議，評估每種下法的作用。價值網路只評估後幾手的可能情況，找出最可能的勝著。這兩套演算模式結合了真人棋手多年來累積的經驗。

訂閱：文章 (Atom)

2016年3月14日 星期一

AlphaGo 訓練方式

2016年3月14日星期一