——走出囚徒困境(下)
“針鋒相對”
在“走出囚徒困境(上)”(回復(fù)“囚徒困境”,可閱讀本文上篇《在“每個(gè)人對每個(gè)人的戰(zhàn)爭”中生存》)里,我們發(fā)現(xiàn)古往今來的眾多學(xué)者對于人類能否跳出“囚徒困境”的詛咒都充滿了悲觀的看法,可是一戰(zhàn)西線塹壕戰(zhàn)里“圣誕?;稹边@種奇跡的出現(xiàn),又證明人類在沒有權(quán)威的情況下,其實(shí)是具有自發(fā)形成合作關(guān)系的可能性的。
為了徹底搞明白合作得以形成的深層機(jī)制,美國著名的科學(xué)家羅伯特·阿克塞爾羅德(2014年美國國家科學(xué)獎(jiǎng)?wù)翹ational Medal of Science獲得者,美國政府對外關(guān)系智庫“外交關(guān)系協(xié)會”Councilon Foreign Relations成員)在1970年代向棘手的“重復(fù)囚徒困境”難題發(fā)起了沖擊,并最終取得了重大突破?!爸貜?fù)囚徒困境”問題屬于典型的“非線性復(fù)雜系統(tǒng)”,傳統(tǒng)的歸納法和演繹法對其都束手無策。阿克塞爾羅德憑借敏銳的嗅覺,利用當(dāng)時(shí)剛剛興起的計(jì)算機(jī)技術(shù),沿著“計(jì)算模擬”這條不同于歸納和演繹的新研究路徑,舉辦了三場對后世影響深遠(yuǎn)的“重復(fù)囚徒困境博弈策略的計(jì)算機(jī)錦標(biāo)賽”,幾十個(gè)出自世界各地不同學(xué)科專家之手的博弈策略作為比賽選手,在既定規(guī)則下彼此展開了激烈的對決。這三場比賽的結(jié)果直接指向了合作產(chǎn)生的本質(zhì),“圣誕?;稹钡拿孛芫筒卦谶@三場比賽的背后。
我們先從第一場比賽說起。參與這場比賽的14名專家來自心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、數(shù)學(xué)和社會學(xué)5個(gè)不同的領(lǐng)域。每個(gè)專家貢獻(xiàn)一個(gè)博弈策略,再加上阿克塞爾羅德自己加入的“隨機(jī)策略”,共有15個(gè)選手參加第一場比賽。比賽由200個(gè)回合組成,每個(gè)回合里15個(gè)選手分別與包括自己在內(nèi)的對手開展一次博弈。單次博弈是典型的囚徒困境,即“單獨(dú)背叛的誘惑大于雙方合作的收益”,每個(gè)選手會根據(jù)自己的既定策略選擇“合作”或者“背叛”,兩兩組合就有“對方合作己方背叛”、“雙方合作”、“雙方背叛”、“己方合作對方背叛”四種結(jié)果,這四種結(jié)果的得分分別為5分、3分、1分和0分。200回合結(jié)束后,通過得分的高低,就可以評價(jià)不同博弈策略的優(yōu)劣。
這15個(gè)策略來自不同領(lǐng)域的博弈論專家之手,復(fù)雜程度各不相同。有的策略非常簡單,比如“針鋒相對”(titfortat),這個(gè)策略在第一回合不管對手是誰,都會默認(rèn)選擇合作,之后每一回合的行動則僅取決于對手上一回合的表現(xiàn):對手上一回合背叛,那么這一回合自己也背叛;對手上一回合合作,這一回合自己也合作。有的策略則非常復(fù)雜,比如一個(gè)名字叫做“唐寧”的策略引入了長期記憶,它會記住在比賽中遇到的每一個(gè)對手,然后分別為他們建立“個(gè)人檔案”,記錄下這些對手在合作后繼續(xù)選擇合作的概率,以及在背叛后繼續(xù)選擇合作的概率。對于任意一個(gè)對手,如果這兩個(gè)概率相似,那么“唐寧”就認(rèn)為它不在乎被背叛,于是會決定下次相遇后背叛它;如果兩個(gè)概率相差較大,“唐寧”會認(rèn)為對手是容易被激怒的,所以下次相遇時(shí)就選擇合作。
哪種策略會在第一輪比賽里勝出呢?乍一看,“針鋒相對”策略就像身邊常見的“老實(shí)人”,和陌生人初次見面就信任對方,只有被騙后才會報(bào)復(fù)回去,對方認(rèn)錯(cuò)后又馬上揭過,憨厚、不記仇、容易吃虧;“唐寧”策略則像某些喜歡耍心機(jī)的“猥瑣人”,先試探你好不好欺負(fù),惹不起就裝好人,惹得起就狠狠地占便宜。兩者誰得分高似乎不言而喻,然而比賽結(jié)果卻讓包括阿克塞爾羅德在內(nèi)的所有人大吃一驚:15個(gè)策略里得分最高的,恰恰是看上去頭腦最簡單的“針鋒相對”策略;看上去狡猾的“唐寧”則連前8名都沒排進(jìn)去。
為什么會是這個(gè)結(jié)果?最直接的原因很簡單:包括“針鋒相對”在內(nèi)的很多策略都不夠“大度”,它們遭到背叛后都會選擇報(bào)復(fù),只是程度有所不同。既往不咎的“針鋒相對”策略還算大大咧咧,另一個(gè)叫“弗里德曼”的策略只要遭到一次背叛就會永久報(bào)復(fù)下去,根本不管對方之后是否有主動示好的舉動。在這種情況下,所謂“先撩者賤”,喜歡用背叛去試探對手的“唐寧”平均來看更容易招致報(bào)復(fù),得分自然就更低了。
還有一個(gè)原因比較間接。觀察了這場競賽排名前8的策略后,會發(fā)現(xiàn)它們有一個(gè)共同的特點(diǎn),可以稱之為“善良”。何謂善良?一言以蔽之:從不首先背叛。每一個(gè)善良策略與其他善良策略之間是可以直接達(dá)成合作的,而且一旦合作關(guān)系建立,就可以永遠(yuǎn)合作下去,這樣它們的集體得分就可以一直很高。這些善良策略之間相互合作、共同把對方一同拉入了整場比賽的前幾名。
上面的分析告訴我們,在這場比賽里,“善良”相比于“狡猾”是一個(gè)更可靠的策略。那么在這8個(gè)善良型策略里,“針鋒相對”策略又是憑借什么優(yōu)勢取得了最高的分?jǐn)?shù)呢?這里可以提煉出另一項(xiàng)重要是指標(biāo):寬容。與大家預(yù)期中的恰恰相反,寬容度高的策略排名往往靠前?!搬樹h相對”只在背叛后懲罰對方一次,然后既往不咎,對方如果今后表現(xiàn)良好,那么雙方就可以一直合作不斷得分;作為善良型策略里最不寬容的“弗里德曼”策略,因?yàn)轫{必報(bào),因此很容易和其他策略陷入相互傷害而不能自拔,最終的得分也就在8個(gè)善良策略里排名最低了。
至此,第一次比賽告訴了我們?nèi)缦率聦?shí):第一,絕不首先背叛的善良型策略整體得分顯著高于會無故背叛對手的策略。第二,在善良型策略里,更寬容的策略排名更靠前,報(bào)復(fù)心更強(qiáng)的策略排名更靠后。
第一次競賽的意外結(jié)果在學(xué)術(shù)界引發(fā)了熱烈的討論,阿克塞爾羅德借著東風(fēng)很快舉辦了第二場競賽,規(guī)則和第一次類似,只不過參賽選手的數(shù)量大大增加,多了一些來自計(jì)算機(jī)科學(xué)、物理學(xué)和進(jìn)化生物學(xué)領(lǐng)域的新面孔。由于大家都知道上次比賽的結(jié)果,所以新比賽剛好可以檢驗(yàn)第一次競賽中“善良”的勝出到底是偶然事件還是必然結(jié)果。這次參賽的有62個(gè)策略,一些學(xué)者基于“針鋒相對”提出了一些改進(jìn)策略,新的策略比“針鋒相對”還要寬容;另一些選手則為“針鋒相對”量身打造了一套專門的應(yīng)對手段,希望能從這個(gè)第一輪的贏家身上成功“揩油”。然而比賽結(jié)果再度讓人吃驚,勝出者依然是“針鋒相對”!而且和上次比賽一樣,這次62個(gè)策略里得分前15名的基本上都帶有一個(gè)我們熟悉的特點(diǎn):善良;排最后15名的策略里則只有一個(gè)是善良型的策略,剩余的全都是喜歡故意背叛和試探對手的惡意策略。
通過第二輪競賽,阿克塞爾羅德又發(fā)現(xiàn)了新的東西:任何對“針鋒相對”策略的改進(jìn)都不會帶來更好的比賽得分。比如道金斯(《自私的基因》一書作者)的好友,英國進(jìn)化生物學(xué)家約翰·梅納德·史密斯在第二輪競賽中提交了一個(gè)“超級寬容”策略“兩報(bào)還一報(bào)”,它只有在被連續(xù)背叛兩次以后才會報(bào)復(fù)回去。然而這個(gè)策略在62個(gè)參賽者里只排名24,造成這個(gè)結(jié)果的原因是第二輪競賽出現(xiàn)了大量比第一輪競賽里的“唐寧”還要狡猾的惡意策略,比如“檢驗(yàn)者”和“鎮(zhèn)定者”,它們有效地剝削了“兩報(bào)還一報(bào)”這樣太好說話的策略,這里限于篇幅不對其細(xì)節(jié)加以介紹,不過我們可以知道,一個(gè)策略如果表現(xiàn)得比“針鋒相對”還要寬容,那么很容易被其他狡猾的策略加以利用;而過于不寬容的策略,比如前面提到的“弗里德曼”,也不如“針鋒相對”的表現(xiàn)好。換句話說,“針鋒相對”是所有善良型策略里最簡單但也最優(yōu)的解。
當(dāng)“針鋒相對”遇上“自然選擇”
兩次比賽已經(jīng)足夠說明“針鋒相對”的優(yōu)秀了,然而阿克塞爾羅德還不滿足,他希望能在一個(gè)更加真實(shí)的環(huán)境里檢驗(yàn)這個(gè)策略的穩(wěn)健性。為此,他開展了第三輪競賽。這次競賽沒有新的參賽者,但和前兩次競賽相比,這次比賽有一個(gè)根本性的不同:它引入了“自然選擇”的環(huán)境壓力,贏家獲得的不再是簡單的分?jǐn)?shù),而是更多制造下一代的機(jī)會。62個(gè)參賽者被扔給計(jì)算機(jī),比賽依舊采取回合制,每一個(gè)回合結(jié)束后,每個(gè)策略都會被系統(tǒng)評估其適應(yīng)性和能夠產(chǎn)生的下一代數(shù)量。大多數(shù)策略在200代進(jìn)化后很快銷聲匿跡,一些惡意策略盡管可以在開局時(shí)曇花一現(xiàn),但隨著它們能剝削的過于寬容的策略滅絕,它們也會馬上跟著滅絕;然后,你沒猜錯(cuò),最終勝出的依然是“針鋒相對”策略。
結(jié)論到此已經(jīng)呼之欲出了:在“重復(fù)囚徒困境”里,“針鋒相對”是一個(gè)最簡單但也最好用的博弈策略;更難能可貴的是它還具有很強(qiáng)的生命力,一旦產(chǎn)生,就能頑強(qiáng)地生存下去,戰(zhàn)勝其他想討便宜的惡意策略。
這其實(shí)就是自然界和人類社會里合作得以廣泛產(chǎn)生和穩(wěn)步發(fā)展的深層原因。我們回顧一下第一次世界大戰(zhàn)西線戰(zhàn)場的雙方士兵,他們建立和維持的正是這種“針鋒相對”策略。從大的環(huán)境來看,每個(gè)基層戰(zhàn)斗單位都會在很長一段時(shí)間里和同一個(gè)對方戰(zhàn)斗單位沿線對峙,這就構(gòu)成了經(jīng)典的“重復(fù)囚徒困境”,合作也就有了環(huán)境基礎(chǔ)。在戰(zhàn)爭后期,協(xié)約國和同盟國的軍官為了破壞雙方底層士兵達(dá)成的心照不宣的休戰(zhàn),就曾頻繁地調(diào)換基層部隊(duì)的防區(qū),使得這種默契最終消失。再從細(xì)節(jié)來看,雙方士兵都培養(yǎng)出了“不要挑釁”的習(xí)慣,為此還會賄賂己方的炮兵不對敵人動真格,這正是“針鋒相對”策略的基本特點(diǎn):善良。另一方面,這些士兵也不忘向?qū)κ謧鬟_(dá)自己想報(bào)復(fù)也有能力動手的信號,剛好也是“針鋒相對”策略的另一個(gè)特點(diǎn):自己雖然不會先動手,但一旦遭到背叛是有能力報(bào)復(fù)回去的。這種震懾能力保證了秉持“針鋒相對”策略的選手不會遭到過分的侵犯,從長期來看使得合作關(guān)系更加不容易遭到背叛誘惑的破壞。
“合作的基礎(chǔ)不是信任或者友誼”
1984年,阿克塞爾羅德對三場比賽的結(jié)果進(jìn)行整理,出版了《合作的進(jìn)化》,這本書為他贏得了巨大的聲譽(yù),也對數(shù)學(xué)、政治學(xué)和進(jìn)化生物學(xué)等其他人文和科學(xué)學(xué)科提供了新的研究范式。著名生物學(xué)家理查德·道金斯在其名著《自私的基因》的第12章中,用大量篇幅探討了自然界各種生物之間復(fù)雜到匪夷所思的合作行為是如何產(chǎn)生的,所參考的正是阿克塞爾羅德的分析思路。
在《合作的進(jìn)化》這本書里,阿克塞爾羅德詳細(xì)介紹了三場比賽的細(xì)節(jié),然后從這些細(xì)節(jié)中明確總結(jié)了勝利者“針鋒相對”的4個(gè)特點(diǎn):善良性、寬容性、可激怒性和可預(yù)測性。善良意味著它從不首先背叛,可激怒性意味著一旦被對方背叛后就會施加報(bào)復(fù),使得對方不敢繼續(xù)堅(jiān)持背叛,寬容性意味著能夠在施加一輪報(bào)復(fù)后不記仇,馬上恢復(fù)和對方的合作關(guān)系,無論對方背叛的動機(jī)是什么,可預(yù)測性意味著對于合作和背叛的態(tài)度足夠簡單,簡單到讓周圍的參與者能一眼認(rèn)出并對其開展評估。
在上述四個(gè)特性中,“可激怒性”的價(jià)值往往會被低估。文明社會的文化教育傾向于讓人三思而后行,否則就會被認(rèn)為是沒有教養(yǎng)。但“易怒”既然被寫在了人類的基因里,就說明它在生物的進(jìn)化上是有價(jià)值的。事實(shí)上,在阿克塞爾羅德舉辦的兩場競賽里,不少策略都會在欺騙對手后觀察對方的反應(yīng),根據(jù)反饋決定下一步的動作。如果一個(gè)參賽者對無理的背叛反應(yīng)遲緩,實(shí)際上就在發(fā)出一種錯(cuò)誤的信號,讓對手以為背叛你可以得到好處。更嚴(yán)重的是,這種印象一旦建立起來,就很難被打破。所以如果被激怒,寧早不宜遲?!搬樹h相對”策略在遭受背叛后第一時(shí)間給對方下馬威,對方瞬間就會明白背叛行為是沒有好處的,這其實(shí)是一個(gè)有效的自我保護(hù)策略。
另一條容易被低估的特性是“可預(yù)測性”。和某些東方智慧所講究的“刑不可知,則威不可測”不同,讓自己的反應(yīng)模式變得透明其實(shí)才是真正的“大智慧”。自己的處事規(guī)則只有足夠簡單,別人一眼就能讀懂,同時(shí)理直氣壯地告訴其他人“我是不可欺侮的,任何背叛都會導(dǎo)致我的報(bào)復(fù),不會有任何例外”,才能避免不必要的試探。每一次試探都是欺騙,欺騙會招致報(bào)復(fù),報(bào)復(fù)會給雙方都帶來損失。如果能讓這一切提前避免,那何樂而不為呢?
最后,讓我們再回到本文上篇提出的問題:“每個(gè)人對每個(gè)人的戰(zhàn)爭”真的是人類無法逃脫的詛咒嗎?阿克塞爾羅德的研究對此給出了一份樂觀的否定回答。這個(gè)研究的最迷人之處就在于不需要做出過多的假設(shè)。對于“重復(fù)博弈中的穩(wěn)定合作關(guān)系如何達(dá)成”這個(gè)問題,我們無需假定參與者存在利他主義動機(jī),無需沿著洛克等先賢的思路引入某個(gè)中央權(quán)威,也不需要像古典經(jīng)濟(jì)學(xué)研究一樣要求“理性人”的強(qiáng)假設(shè),甚至并不一定要加入“語言溝通”這個(gè)條件。相反,它可以是經(jīng)驗(yàn)、試錯(cuò)性質(zhì)的,只要內(nèi)有不斷學(xué)習(xí)的機(jī)制,外有生存環(huán)境的選擇壓力,再加上一點(diǎn)能夠識別和記憶其他參與者的能力,那么這種合作自發(fā)出現(xiàn)和主動擴(kuò)張的過程就可以不斷地在純粹自利的參與者群體中上演。上到人類社會的進(jìn)化,下到細(xì)菌的繁衍生存,從自私自利轉(zhuǎn)變到互利互助的邏輯都是一以貫之的。按照阿克塞爾羅德的話來講,“合作的基礎(chǔ)不是信任或者友誼,而是關(guān)系的持續(xù)性”。說白了,產(chǎn)生合作所需的條件其實(shí)很簡單,只要關(guān)系可以持續(xù),那么合作總是有很大的概率發(fā)生,“每個(gè)人對每個(gè)人的戰(zhàn)爭”并不是必然的。
余論
阿克塞爾羅德的三場競賽是使用新工具研究舊問題的典范。
提出“每個(gè)人對每個(gè)人的戰(zhàn)爭”這類社會契約的洛克、盧梭和霍布斯等人,盡管都是人類思想史上的佼佼者,但他們受限于技術(shù),只能在邏輯上演繹政府如何起源,在他們所生活的年代,歷史學(xué)說天然面臨著驗(yàn)證困難的問題。學(xué)者們可以對人類政府的起源提出一萬種不同的假說,然而歷史只有一次,人們無法從大量的重復(fù)樣本中歸納出可靠的結(jié)論,所以演繹法就成為了理所當(dāng)然的選擇。
20世紀(jì)出現(xiàn)的計(jì)算機(jī)模擬在傳統(tǒng)的歸納和演繹之外開辟出了第三條道路,一方面和演繹一樣,始于某些簡單清晰的前提,但并不去證明定理,而是讓結(jié)果在前提的約束下,通過大量的模擬“自然”地產(chǎn)生;另一方面,產(chǎn)生的模擬數(shù)據(jù)可以用于歸納和分析,但和傳統(tǒng)的歸納法又不一樣,模擬數(shù)據(jù)來源于“干凈”、“簡單”的計(jì)算模型,不像真實(shí)世界觀察到的數(shù)據(jù)一樣容易受到干擾,所以更容易提煉出一般性的結(jié)論。在這種新研究方法的幫助下,阿克塞爾羅德面對霍布斯等人幾百年前所面對的問題,得出了不一樣卻有著足夠說服力的結(jié)論。1980年代后,阿克塞爾羅德將上述方法應(yīng)用到經(jīng)濟(jì)學(xué)“搭便車”現(xiàn)象、社會學(xué)的文化進(jìn)化、歷史學(xué)里國際聯(lián)盟的產(chǎn)生等新課題上,讓“合作的進(jìn)化”學(xué)說在更多領(lǐng)域綻放出了耀眼的光芒。