精簡(jiǎn)版開(kāi)源AlphaGo來(lái)了,你也可以和TA下圍棋了

【說(shuō)好的源碼呢.?.............】
程序原理
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序。這個(gè)程序利用“價(jià)值網(wǎng)絡(luò)”去計(jì)算局面,用“策略網(wǎng)絡(luò)”去選擇下子。
深度學(xué)習(xí)
阿爾法圍棋(AlphaGo)的主要工作原理是“深度學(xué)習(xí)”?!吧疃葘W(xué)習(xí)”是指多層的人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法。一層神經(jīng)網(wǎng)絡(luò)會(huì)把大量矩陣數(shù)字作為輸入,通過(guò)非線性激活方法取權(quán)重,再產(chǎn)生另一個(gè)數(shù)據(jù)集合作為輸出。這就像生物神經(jīng)大腦的工作機(jī)理一樣,通過(guò)合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡(luò)“大腦”進(jìn)行精準(zhǔn)復(fù)雜的處理,就像人們識(shí)別物體標(biāo)注圖片一樣。
兩個(gè)大腦
阿爾法圍棋(AlphaGo)是通過(guò)兩個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來(lái)改進(jìn)下棋。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識(shí)別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過(guò)濾器開(kāi)始,去處理圍棋棋盤的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。經(jīng)過(guò)過(guò)濾,13 個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對(duì)它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網(wǎng)絡(luò)通過(guò)反復(fù)訓(xùn)練來(lái)檢查結(jié)果,再去校對(duì)調(diào)整參數(shù),去讓下次執(zhí)行更好。這個(gè)處理器有大量的隨機(jī)性元素,所以人們是不可能精確知道網(wǎng)絡(luò)是如何“思考”的,但更多的訓(xùn)練后能讓它進(jìn)化到更好。
第一大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的第一個(gè)神經(jīng)網(wǎng)絡(luò)大腦是“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)” ,觀察棋盤布局企圖找到最佳的下一步。事實(shí)上,它預(yù)測(cè)每一個(gè)合法下一步的最佳概率,那么最前面猜測(cè)的就是那個(gè)概率最高的。這可以理解成“落子選擇器”。
第二大腦:棋局評(píng)估器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個(gè)大腦相對(duì)于落子選擇器是回答另一個(gè)問(wèn)題。不是去猜測(cè)具體下一步,它預(yù)測(cè)每一個(gè)棋手贏棋的可能,在給定棋子位置情況下。這“局面評(píng)估器”就是“價(jià)值網(wǎng)絡(luò)(Value Network)”,通過(guò)整體局面判斷來(lái)輔助落子選擇器。這個(gè)判斷僅僅是大概的,但對(duì)于閱讀速度提高很有幫助。通過(guò)分類潛在的未來(lái)局面的“好”與“壞”,AlphaGo能夠決定是否通過(guò)特殊變種去深入閱讀。如果局面評(píng)估器說(shuō)這個(gè)特殊變種不行,那么AI就跳過(guò)閱讀在這一條線上的任何更多落子。[2-6]
主要成績(jī)
研究者讓“阿爾法圍棋”和其他的圍棋人工智能機(jī)器人進(jìn)行了較量,在總計(jì)495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對(duì)陣CrazyStone、Zen和Pachi三個(gè)先進(jìn)的人工智能機(jī)器人,勝率分別是77%、86%和99%。
據(jù)國(guó)際頂尖期刊《自然》封面文章報(bào)道,谷歌研究者開(kāi)發(fā)的名為“阿爾法圍棋”(Alpha Go)的人工智能機(jī)器人,在沒(méi)有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。在圍棋人工智能領(lǐng)域,實(shí)現(xiàn)了一次史無(wú)前例的突破。計(jì)算機(jī)程序能在不讓子的情況下,在完整的圍棋游戲中擊敗專業(yè)選手,這是第一次。
阿爾法圍棋程序的下一個(gè)挑戰(zhàn)對(duì)象是世界圍棋冠軍李世石。這場(chǎng)人工智能與人類的博弈于2016年3月9日在首爾舉行,獎(jiǎng)金是由Google提供的100萬(wàn)美金。