小白也懂博弈論:納什均衡

原文發(fā)布于自己的博客平臺(tái)【http://www.jetchen.cn/nash-equilibrium/


具有競(jìng)爭或?qū)剐再|(zhì)的行為稱為博弈行為,并且博弈理論在經(jīng)濟(jì)學(xué)、國際關(guān)系、軍事戰(zhàn)略等很多領(lǐng)域都有廣泛的應(yīng)用,其中以納什均衡為代表的非合作性博弈理論在日常中最為常用。


簡介

在很多場(chǎng)景下,比如玩德州撲克等游戲時(shí),雖然有些時(shí)候選擇的策略并不一定是全局的最優(yōu)解,但卻是相對(duì)于其他人的策略而做出的最優(yōu)解,即每個(gè)人都是對(duì)自己最有利的解決方案,我們將其稱為為納什均衡。

納什均衡(或者納什平衡),Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個(gè)重要策略組合,以約翰·納什命名。

敲黑板,關(guān)鍵字,非合作

納什

再解釋一下,所謂納什均衡,指的是參與者的一種策略組合,在該策略上,任何參與人單獨(dú)改變策略都不會(huì)得到好處,即每個(gè)人的策略都是對(duì)其他人的策略的最優(yōu)反應(yīng)。換句話說,如果在一個(gè)策略組合上,當(dāng)所有其他人都不改變策略時(shí),沒有人會(huì)改變自己的策略,則該策略組合就是一個(gè)納什均衡。

枯燥的描述很難理解,下面使用幾個(gè)案例來理解下。

囚徒困境

背景:有兩個(gè)囚犯A和B,犯事兒進(jìn)去了,然后警官對(duì)其分開審訊,所以A和B是沒有機(jī)會(huì)進(jìn)行串供的

獎(jiǎng)懲:如果雙雙招供,則各判2年,如果雙雙不招供,則各判1年,如果一個(gè)招供一個(gè)不招供,則招供的人立即釋放,不招供的人判刑十年

結(jié)果:最后囚犯A和B都會(huì)選擇招供,所以各判2年,這個(gè)便是此時(shí)的納什均衡。

但是明明雙雙不招供才是最優(yōu)解啊,其實(shí)不然,回頭再看一下概念,納什均衡其實(shí)并不是全局的最優(yōu)解,而是每個(gè)人相對(duì)于每個(gè)人的策略而做出的最佳策略,下面來解釋下。

我們來建立一個(gè)數(shù)學(xué)模型,使用 -2、-1、0、-10 來形容上面的獎(jiǎng)懲,見下面的分析圖。

A的心路歷程:

  • 如果B招供了,那么我招供的話我就會(huì)判2年,不招供的話就判十年,所以我會(huì)選擇招供,收益是 -2;
  • 如果B不招供,那么我招供的話我就會(huì)被釋放,不招供的話就判1年,所以我會(huì)選擇招供,收益是 0;

所以,不管B招不招供,A只要招供了,對(duì)A而言是最優(yōu)的策略。

囚徒A的心路歷程

同理,對(duì)于B的心路歷程也相似,B也會(huì)選擇招供:

囚徒B的心路歷程

所以最終的結(jié)果是A和B都選擇了招供。

即此時(shí)的納什均衡點(diǎn)為:A和B都招供。

但是其中涉及到兩個(gè)點(diǎn),就是串供重復(fù)作案
如果A和B進(jìn)行了串供,則雙方都會(huì)選擇不招供,
如果涉及到重復(fù)作案,即刑滿釋放后還會(huì)再次合作作案,則雙方為了以后的利益著想,雙方也都不會(huì)選擇招供

綜述,敲黑板,納什均衡的前提是:決策圈中的個(gè)體是獨(dú)立,不合作,不橫向溝通的

智豬博弈

背景:有兩只豬,一只是大豬,另一只是小豬,然后有一個(gè)食槽,里面會(huì)有食物落下,但是需要去遠(yuǎn)處按一下按鈕,每次按一下按鈕,食槽中便會(huì)補(bǔ)滿食物。但是呢,在按按鈕的來回路上,是需要消耗一定的能量的。

獎(jiǎng)懲:跑過去按一下按鈕再跑回來吃食物,會(huì)消耗一些能量,記為 -2,每次食槽中補(bǔ)滿食物,總食物量為 10份,大豬先吃的話能吃到 9 份,小豬先吃的話,大豬能吃到 6 份,一起吃的話,大豬能吃到 7 份

結(jié)果:大豬會(huì)選擇去按按鈕,而小豬會(huì)選擇不去按按鈕,即在原地等著。

小豬心路歷程:

  • 如果大豬去按按鈕,則大豬消耗 2,那么 ①小豬不去按按鈕,則小豬先吃的,小豬可以吃 4份,大豬豬吃 6份,結(jié)果記為(4,4),②小豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以小豬選擇不去按按鈕
  • 如果大豬不去按按鈕,那么 ①小豬去按按鈕,則小豬消耗 2,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②小豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以小豬選擇不去按按鈕

所以,不管大豬怎么樣,小豬都會(huì)選擇在原地等待。

大豬的心路歷程

大豬心路歷程:

  • 如果小豬去按按鈕,則小豬消耗 2,那么 ①大豬不去按按鈕,則大豬先吃的,大豬可以吃 9份,小豬吃 1份,記為(9,-1),②大豬也去按的話,大豬吃 7份,小豬吃 3份,各自消耗 2,記為(5,1),所以大豬選擇不去按按鈕
  • 如果小豬不去按按鈕,那么 ①大豬去按按鈕,則大豬消耗 2,大豬可以吃 6份,小豬吃 4份,記為(4,4),②大豬不去按的話,雙方都不消耗,但是也都沒有食物吃,記為(0,0),所以大豬選擇去按按鈕

所以,表面上看,大豬的決策是受到小豬的決策所影響的,但是分析小豬的心路歷程得知,小豬是不會(huì)去按按鈕的,那么大豬最后的決策還是會(huì)選擇去按按鈕,這樣大豬的收益才會(huì)最大化。

小豬的心路歷程

所以綜上,最終結(jié)果是大豬去按按鈕,而小豬在原地等待著。

即此時(shí)的納什均衡點(diǎn)為:大豬去,小豬不去。

其實(shí)這和現(xiàn)在的很多公司一樣,體量較大的大公司類比為大豬,體量較小的小公司類比為小豬,新技術(shù)的研發(fā)視為去按按鈕
由上面的智豬博弈可以看出來,大公司一般都會(huì)采取主動(dòng)發(fā)起新技術(shù)研發(fā)的策略,而小公司也一般都會(huì)采取先觀望的策略

寫在最后

在每次參與者都只有有限種策略選擇并且允許混合策略的前提下,納什均衡是一定存在的。

比如選舉、群體之間的利益競(jìng)爭、會(huì)議中的法案競(jìng)爭等,是必然存在納什均衡的。

以公司間的價(jià)格戰(zhàn)為例:如果對(duì)方一直降價(jià),那我方繼續(xù)降價(jià)必然會(huì)出現(xiàn)虧本買賣,然而如果不降價(jià),也會(huì)出現(xiàn)失去市場(chǎng)的情況,損失更大,但如果對(duì)方不降價(jià),我方更要降價(jià)才能謀得一絲絲利益,所以只要出現(xiàn)價(jià)格戰(zhàn),必然會(huì)兩敗俱傷,這是納什均衡體現(xiàn)的必然結(jié)局。所以要改變這種結(jié)局,雙方必須坐下來談判尋求新的利益評(píng)估分?jǐn)偡桨福瑥亩淖冊(cè)鹊睦娓窬郑ū热绠?dāng)年京東和當(dāng)當(dāng)?shù)囊粓?chǎng)價(jià)格戰(zhàn),最終以雙方各占某一方面的主市場(chǎng)從而獲得新的利益分割方案)。

納什均衡是基于非合作博弈論的平衡不動(dòng)點(diǎn)解

例如上文的囚徒困境問題,如果兩個(gè)囚徒是有合作的,則必然不存在納什均衡點(diǎn)。

所以,在現(xiàn)實(shí)生活中,納什均衡這一博弈是很重要但是也是很有限的,因?yàn)樵诤芏嗲闆r下,即使知道平衡不動(dòng)點(diǎn)必然存在,但是往往卻很難找到。

納什均衡(這一非合作博弈論模型)僅僅是突破了博弈論中的一個(gè)局限

因?yàn)樵谏鐣?huì)這一龐大的博弈環(huán)境下,還會(huì)摻雜著復(fù)雜的經(jīng)濟(jì)行為,雖然社會(huì)中的大家并非是集體合作性的,但在這種龐大的非合作性對(duì)象中,納什均衡點(diǎn)是幾乎不可能找到的。

納什均衡屬于NP問題
(摘自 wik i上面的一段話,暫時(shí)看不懂但卻覺得很有道理)納什均衡屬于NP問題,Daskalakis 證明它屬于 NP 問題的一個(gè)子集,不是通常認(rèn)為的 NP-完全問題,而是 PPAD-完全問題。這項(xiàng)研究成果被一些計(jì)算機(jī)科學(xué)家認(rèn)為是十年來博弈論領(lǐng)域的最大進(jìn)展。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 大家早安、午安、晚安,今天我先從機(jī)器學(xué)習(xí)的學(xué)習(xí)中休息一下,來了解一些常見的博弈論模型,然后繼續(xù)學(xué)習(xí)機(jī)器學(xué)習(xí)等。以下...
    keepStriving閱讀 47,724評(píng)論 3 72
  • 電影《美麗心靈》的主人公原型——約翰·納什因車禍去世。你也許聽說過他是厲害的數(shù)學(xué)家、1994 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主...
    楊心武閱讀 101,826評(píng)論 10 53
  • 什么是博弈論 博弈論(Game Theory)是 研究具有斗爭或競(jìng)爭性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法,二人在平等的對(duì)局中各...
    被解放的過來客閱讀 2,790評(píng)論 0 2
  • 有一天刺猬小姐的刺變彎,摸起來溫順了,可是,刺向自己長了,沒有變軟。 突然變得很敏感。耳邊所有的喧囂聲被放大,所有...
    二胖愛穿小裙子閱讀 296評(píng)論 0 1
  • 2018年12月7日 0點(diǎn)10分 3歲5個(gè)月7天昨天星期四,晚上媽媽跟毛毛說“今天星期四,明天就星期五了”,毛毛...
    0東方一號(hào)閱讀 285評(píng)論 0 1

友情鏈接更多精彩內(nèi)容