原文發(fā)布于自己的博客平臺(tái)【http://www.jetchen.cn/nash-equilibrium/】
具有競(jìng)爭或?qū)剐再|(zhì)的行為稱為博弈行為,并且博弈理論在經(jīng)濟(jì)學(xué)、國際關(guān)系、軍事戰(zhàn)略等很多領(lǐng)域都有廣泛的應(yīng)用,其中以納什均衡為代表的非合作性博弈理論在日常中最為常用。
簡介
在很多場(chǎng)景下,比如玩德州撲克等游戲時(shí),雖然有些時(shí)候選擇的策略并不一定是全局的最優(yōu)解,但卻是相對(duì)于其他人的策略而做出的最優(yōu)解,即每個(gè)人都是對(duì)自己最有利的解決方案,我們將其稱為為納什均衡。
納什均衡(或者納什平衡),Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個(gè)重要策略組合,以約翰·納什命名。
敲黑板,關(guān)鍵字,非合作

再解釋一下,所謂納什均衡,指的是參與者的一種策略組合,在該策略上,任何參與人單獨(dú)改變策略都不會(huì)得到好處,即每個(gè)人的策略都是對(duì)其他人的策略的最優(yōu)反應(yīng)。換句話說,如果在一個(gè)策略組合上,當(dāng)所有其他人都不改變策略時(shí),沒有人會(huì)改變自己的策略,則該策略組合就是一個(gè)納什均衡。
枯燥的描述很難理解,下面使用幾個(gè)案例來理解下。
囚徒困境
背景:有兩個(gè)囚犯A和B,犯事兒進(jìn)去了,然后警官對(duì)其分開審訊,所以A和B是沒有機(jī)會(huì)進(jìn)行串供的
獎(jiǎng)懲:如果雙雙招供,則各判2年,如果雙雙不招供,則各判1年,如果一個(gè)招供一個(gè)不招供,則招供的人立即釋放,不招供的人判刑十年
結(jié)果:最后囚犯A和B都會(huì)選擇招供,所以各判2年,這個(gè)便是此時(shí)的納什均衡。
但是明明雙雙不招供才是最優(yōu)解啊,其實(shí)不然,回頭再看一下概念,納什均衡其實(shí)并不是全局的最優(yōu)解,而是每個(gè)人相對(duì)于每個(gè)人的策略而做出的最佳策略,下面來解釋下。
我們來建立一個(gè)數(shù)學(xué)模型,使用 -2、-1、0、-10 來形容上面的獎(jiǎng)懲,見下面的分析圖。
A的心路歷程:
- 如果B招供了,那么我招供的話我就會(huì)判2年,不招供的話就判十年,所以我會(huì)選擇招供,收益是 -2;
- 如果B不招供,那么我招供的話我就會(huì)被釋放,不招供的話就判1年,所以我會(huì)選擇招供,收益是 0;
所以,不管B招不招供,A只要招供了,對(duì)A而言是最優(yōu)的策略。

同理,對(duì)于B的心路歷程也相似,B也會(huì)選擇招供:

所以最終的結(jié)果是A和B都選擇了招供。
即此時(shí)的納什均衡點(diǎn)為:A和B都招供。
但是其中涉及到兩個(gè)點(diǎn),就是串供和重復(fù)作案:
如果A和B進(jìn)行了串供,則雙方都會(huì)選擇不招供,
如果涉及到重復(fù)作案,即刑滿釋放后還會(huì)再次合作作案,則雙方為了以后的利益著想,雙方也都不會(huì)選擇招供
綜述,敲黑板,納什均衡的前提是:決策圈中的個(gè)體是獨(dú)立,不合作,不橫向溝通的
智豬博弈
背景:有兩只豬,一只是大豬,另一只是小豬,然后有一個(gè)食槽,里面會(huì)有食物落下,但是需要去遠(yuǎn)處按一下按鈕,每次按一下按鈕,食槽中便會(huì)補(bǔ)滿食物。但是呢,在按按鈕的來回路上,是需要消耗一定的能量的。
獎(jiǎng)懲:跑過去按一下按鈕再跑回來吃食物,會(huì)消耗一些能量,記為 -2,每次食槽中補(bǔ)滿食物,總食物量為 10份,大豬先吃的話能吃到 9 份,小豬先吃的話,大豬能吃到 6 份,一起吃的話,大豬能吃到 7 份
結(jié)果:大豬會(huì)選擇去按按鈕,而小豬會(huì)選擇不去按按鈕,即在原地等著。
小豬心路歷程:
- 如果大豬去按按鈕,則大豬消耗 2,那么 ①小豬不去按按鈕,則小豬先吃的,小豬可以吃 4份,大豬豬吃 6份,結(jié)果記為(4,4),②小豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以小豬選擇不去按按鈕
- 如果大豬不去按按鈕,那么 ①小豬去按按鈕,則小豬消耗 2,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②小豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以小豬選擇不去按按鈕
所以,不管大豬怎么樣,小豬都會(huì)選擇在原地等待。

大豬心路歷程:
- 如果小豬去按按鈕,則小豬消耗 2,那么 ①大豬不去按按鈕,則大豬先吃的,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②大豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以大豬選擇不去按按鈕
- 如果小豬不去按按鈕,那么 ①大豬去按按鈕,則大豬消耗 2,大豬可以吃 6份,小豬吃 4份,記為(4,4),②大豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以大豬選擇去按按鈕
所以,表面上看,大豬的決策是受到小豬的決策所影響的,但是分析小豬的心路歷程得知,小豬是不會(huì)去按按鈕的,那么大豬最后的決策還是會(huì)選擇去按按鈕,這樣大豬的收益才會(huì)最大化。

所以綜上,最終結(jié)果是大豬去按按鈕,而小豬在原地等待著。
即此時(shí)的納什均衡點(diǎn)為:大豬去,小豬不去。
其實(shí)這和現(xiàn)在的很多公司一樣,體量較大的大公司類比為大豬,體量較小的小公司類比為小豬,新技術(shù)的研發(fā)視為去按按鈕
由上面的智豬博弈可以看出來,大公司一般都會(huì)采取主動(dòng)發(fā)起新技術(shù)研發(fā)的策略,而小公司也一般都會(huì)采取先觀望的策略
寫在最后
在每次參與者都只有有限種策略選擇并且允許混合策略的前提下,納什均衡是一定存在的。
比如選舉、群體之間的利益競(jìng)爭、會(huì)議中的法案競(jìng)爭等,是必然存在納什均衡的。
以公司間的價(jià)格戰(zhàn)為例:如果對(duì)方一直降價(jià),那我方繼續(xù)降價(jià)必然會(huì)出現(xiàn)虧本買賣,然而如果不降價(jià),也會(huì)出現(xiàn)失去市場(chǎng)的情況,損失更大,但如果對(duì)方不降價(jià),我方更要降價(jià)才能謀得一絲絲利益,所以只要出現(xiàn)價(jià)格戰(zhàn),必然會(huì)兩敗俱傷,這是納什均衡體現(xiàn)的必然結(jié)局。所以要改變這種結(jié)局,雙方必須坐下來談判尋求新的利益評(píng)估分?jǐn)偡桨福瑥亩淖冊(cè)鹊睦娓窬郑ū热绠?dāng)年京東和當(dāng)當(dāng)?shù)囊粓?chǎng)價(jià)格戰(zhàn),最終以雙方各占某一方面的主市場(chǎng)從而獲得新的利益分割方案)。
納什均衡是基于非合作博弈論的平衡不動(dòng)點(diǎn)解
例如上文的囚徒困境問題,如果兩個(gè)囚徒是有合作的,則必然不存在納什均衡點(diǎn)。
所以,在現(xiàn)實(shí)生活中,納什均衡這一博弈是很重要但是也是很有限的,因?yàn)樵诤芏嗲闆r下,即使知道平衡不動(dòng)點(diǎn)必然存在,但是往往卻很難找到。
納什均衡(這一非合作博弈論模型)僅僅是突破了博弈論中的一個(gè)局限
因?yàn)樵谏鐣?huì)這一龐大的博弈環(huán)境下,還會(huì)摻雜著復(fù)雜的經(jīng)濟(jì)行為,雖然社會(huì)中的大家并非是集體合作性的,但在這種龐大的非合作性對(duì)象中,納什均衡點(diǎn)是幾乎不可能找到的。
納什均衡屬于NP問題
(摘自 wik i上面的一段話,暫時(shí)看不懂但卻覺得很有道理)納什均衡屬于NP問題,Daskalakis 證明它屬于 NP 問題的一個(gè)子集,不是通常認(rèn)為的 NP-完全問題,而是 PPAD-完全問題。這項(xiàng)研究成果被一些計(jì)算機(jī)科學(xué)家認(rèn)為是十年來博弈論領(lǐng)域的最大進(jìn)展。