經(jīng)歷傲慢、恐懼、莽撞這些人性弱點帶來的三盤失利之后,人類圍棋目前排位絕對前三的九段棋手李世石贏得了今日人機圍棋大戰(zhàn)的勝利。好勵志的一幕:他在多數(shù)人都已不看好時獲取的勝利,不僅證明他的實力,也表明人類遠比自己或者外界想象的強大,即使面臨絕境。同時,人也總是先戰(zhàn)勝自己,然后方能贏得世界。
祝賀李世石之后,回來看他的對手阿法狗,從目前幾盤棋來看,阿法狗中后盤棋力較強,人類棋手對其不熟悉情況下,一些九段棋手多可能會被5:0方式擊敗。然而,阿法狗仍然存在大概有如下三方面缺陷。優(yōu)秀棋手對其缺陷掌握后,當能提高勝率:
1,打劫。阿法狗會盡量避免打劫。而對于連環(huán)劫、多個劫會都想贏。主要原因是打劫會導致后續(xù)算法變得異常復雜,而結(jié)果卻充滿不確定性。但電腦并非不能打劫,在勝負攸關(guān)時也會選擇打劫。例如第三盤阿法狗如果不打劫、打劫失敗三次就會輸?shù)簦ㄗ詈罄钍朗撓融A得一個劫后投子認輸)。利用這個特點,可以與阿法狗對弈中在布局與中盤階段占到一些小便宜,你懂的:)
2,決定搜索廣度的策略網(wǎng)絡(luò)存在概率隱患。
因為阿法狗使用蒙特卡洛搜索數(shù)來搜索可能下棋的點以及后續(xù)可能的過程、結(jié)果,由于計算量過大需要縮小搜索廣度和深度。使用了策略網(wǎng)絡(luò)減小搜索范圍,阿法狗的策略網(wǎng)絡(luò)簡單理解即通過人類棋手的歷史棋局、自我對弈的強化訓練對可能下棋的點做出概率判斷從而縮小范圍的核心算法。由于圍棋棋局的復雜性,有時對一些重大隱患點可能會認為概率低而有忽略。第四盤的例子即是,提前沒預測到一系列走法留下了李世石白78挖的神之一手,導致翻盤。
3,用來決定搜索深度的價值網(wǎng)絡(luò)也有隱患。
價值網(wǎng)絡(luò)即預測每一步及其后續(xù)步驟構(gòu)成的贏棋概率。同樣因為預測步驟有限,有時會對一些目前可行性較小、明顯對自己有利的棋之后續(xù)較長遠局勢缺乏正確判斷。例如第三盤差一點出現(xiàn)的活征子(李世石之前用活征方式贏過對手,即征子后,遠端有對手棋子接應(yīng)所以征不死)。該局面下,電腦可能預測李不會這么干。所以也預測不到李會通過反常的活征可圍殺另一塊尚沒活定的大龍,從而獲勝。
針對這些缺陷,電腦可通過改進算法、使用分布式系統(tǒng)與更強大硬件增加搜索范圍的廣度與深度來提高阿法狗能力,從而繼續(xù)挑戰(zhàn)人類頂尖圍棋高手的能力。而圍棋做為能鍛煉和提高人的系統(tǒng)思維能力的一項棋類運動依然充滿魅力,同時通過與阿法狗對弈也能提高人類圍棋水準,最后如果繼續(xù)擴大棋盤(例如到二十九路)則頂尖棋手們當可繼續(xù)碾壓各種電腦:)