信號與噪聲:大數(shù)據(jù)時代預測的科學與藝術
作者(Nate Silver[美]納特?西爾弗)是我們《快公司》2013年的Most Creative People之一。唯一的遺憾是,本書似乎只披露了他小部分心得,我不相信他只靠這些就能做對那么多預測。
預測之所以重要,是因為它連接著主觀世界與客觀現(xiàn)實??茖W哲學大師卡爾·波普爾早就意識到了這一點。對他來說,假設并不科學,可證偽的假設才是科學的。這就意味著在真實世界里,假設可以通過預測得到檢驗。
1940~1960 年這 20 年間,美國的自有住宅率從 44%猛增至 62%,主要集中在城郊地區(qū)。房地產(chǎn)繁榮的同時,也迎來了嬰兒潮:戰(zhàn)后,美國人口以每 10 年 20%的速度增長,這個增長率是 21 世紀初人口增速的兩倍。這便意味著當時美國的房屋業(yè)主數(shù)量在 10 年內增加了 80%,這個增幅與房價的增速相吻合甚至超過了房價的增速。
我的專業(yè)背景主要包括兩大學科:體育運動和牌類游戲。浸淫在這兩個領域中,你會明白什么叫見慣不怪。牌類游戲玩多了,你會輕而易舉地抓到“皇家同花順”,久而久之,當你的對手抓到一手“同花”牌時,你的牌可能已經(jīng)滿堂紅了。體育運動,尤其是棒球,其中也有很多出現(xiàn)概率很低的事件最終實實在在地發(fā)生了。2011 年,波士頓紅襪隊當時有 99.7%的機會成功打入季后賽,可還是鎩羽而歸。對此我很無奈,只能說,一般的概率法則對紅襪隊和芝加哥小熊隊不起作用。
1814 年,拉普拉斯做出以下假設,后來這些假設被稱作拉普斯的惡魔: 我們可以把宇宙的現(xiàn)狀看作其過去已經(jīng)發(fā)生的事情和未來可能發(fā)生的事情共同影響的結果。假設我們具備一種理解能力,能在某一個特定時刻認識到使大自然運動的所有力量,能夠知曉構成大自然的所有事物的位置。若這種理解能力足夠強大,可以對所有這些數(shù)據(jù)進行分析,就必然能夠用一種最簡單的公式或準則涵蓋這個宇宙中最大的星體和最微小原子的所有運動。有了這種理解能力,就沒有什么是不能確定的,未來和過去都能盡收眼底。
1888 年 1 月發(fā)生“校舍暴風雪”事件之后,公眾開始更多地關注氣象預報問題。那年 1 月 12 日,起初還算是大平原地區(qū)相對溫暖的氣溫,可幾個小時之后,氣溫驟降 30 攝氏度,緊接著,讓人眼暈的暴風雪驟起。數(shù)以百計的學生剛剛放學就被暴風雪困住,凍死在回家的路上。早期的氣象預報如此粗糙,但對于這種嚴酷的天氣情況,人們還是期望氣象預報至少能提供一些預警。于是,美國國家氣象局被劃歸農(nóng)業(yè)部管轄,接手一些面向大眾的任務。
與虛假的天氣預報相比,人們對氣象預報未能預測到大雨天氣的失誤更為關注。當大雨不期而至時,人們就會抱怨是氣象預報員破壞了他們的野炊,而天氣意外放晴則會被視為額外的嘉獎。這并不是科學,但是就像氣象頻道的羅斯博士對我說的那樣:“如果預測是客觀的,對降水概率的預報沒有任何偏向,那我們可能就有麻煩了。”
地震本身是一個復雜的過程。復雜性理論是由已故物理學家佩·巴克與他人共同創(chuàng)立的,盡管人們經(jīng)常將這一理論和混沌理論混為一談,但二者之間是有差別的。復雜理論認為,當一個簡單的事物和其他事物互相作用時,就會表現(xiàn)得神秘怪異。?
巴克最愛舉沙堆的例子。如果一粒沙(有什么比一粒沙更簡單呢?)落入一個沙堆中,有可能會發(fā)生 3 種情況。依據(jù)沙堆的形狀和大小,這粒沙可能會停留在落下的位置;或者它會沿著沙堆的斜坡緩緩地流到沙堆底部;還可能出現(xiàn)另外一種情況:如果沙堆太陡,一粒沙就可能撼動整堆沙子,使沙堆崩塌。
復雜的系統(tǒng)似乎都有這樣的特性,會有很長一段明顯的停滯期,而這種停滯狀態(tài)總是伴隨著突發(fā)性和災難性的失敗。這些過程也許真不是隨機的,而是具有不可簡化的復雜性。因此,一旦這種復雜性超越了某種水平,我們就不可能對這些過程做出預測。
美國政府每年公布的數(shù)據(jù),與經(jīng)濟指標直接相關的有 4.5 萬個,而私人數(shù)據(jù)提供者要追蹤高達 400 萬個統(tǒng)計數(shù)據(jù)。一些經(jīng)濟學家忍不住想要把所有數(shù)據(jù)都混合在一起,并給一般的數(shù)據(jù)穿上優(yōu)質的“外衣”。第二次世界大戰(zhàn)之后只出現(xiàn)了 11 次經(jīng)濟衰退的情況,如果一個統(tǒng)計模型試圖解釋這 11 次衰退帶來的后果,就必須從 400 萬個數(shù)據(jù)中選擇數(shù)據(jù),由此得出的許多相關性都將會帶有欺騙性。(這是過度擬合的又一個經(jīng)典例子——將噪聲誤認為是信號——在本書前面的內容中,這個問題發(fā)生在地震預測者身上。)
美國橄欖球超級杯大賽的冠軍隊伍曾一度是經(jīng)濟預測中非常有名的“領先指標”。從 1967 年的第一屆超級杯大賽到 1997 年的第 31 屆超級杯大賽,當來自原美國國家橄欖球聯(lián)盟(NFL)的隊伍贏得比賽時,那么股市就會平均上漲 14%,而如果是來自原美國職業(yè)橄欖球聯(lián)盟的隊伍贏得比賽時,那么股市就會平均下跌 10%。?
1997 年之前的 31 年里,有 28 年該指標都正確地“預測”了股市的走向。從理論上來看,統(tǒng)計學標準測試可以表明這種相關關系絕非偶然,是偶然的可能性只有 470 萬分之一。 然而事實上,這種關系的出現(xiàn)只是巧合。最終,這一指標的表現(xiàn)還是退步了。1998 年,原美國職業(yè)橄欖球聯(lián)盟的丹佛野馬隊贏得了美國橄欖球超級杯大賽,按照慣例,這應該是一個不好的預兆,然而,這次股市非但沒有下跌,反而在網(wǎng)絡公司的強勢帶動下上漲了 28%。2008 年,原美國國家橄欖球聯(lián)盟的紐約巨人隊奮力直追,外接手戴維·泰里大放異彩,打亂了新英格蘭愛國者隊奪冠大衛(wèi)輪胎隊的計劃,然而,新英格蘭愛國者隊的失利并沒能阻止房地產(chǎn)泡沫的破滅,這次房市崩潰導致股市暴跌了 35%。事實上,自 1998 年以來,每次原美國橄欖球聯(lián)盟的隊伍贏得超級杯大賽時,股市非但不會下跌,反而會有約 10%的上漲幅度,與傳說中這一指標的預測走勢截然相反。?
為何一個本來失敗概率只有 470 萬分之一的指標會一敗涂地?出于同樣的原因,盡管美國的全國性彩票強力球彩票的中獎概率達到 1.95 億分之一,但每隔幾周還是會有人中獎。對于所有買彩票的人來講,中獎概率都是相當小的,但數(shù)百萬張彩票一經(jīng)出售,總會有人走運中獎。同樣的,在世界上數(shù)百萬統(tǒng)計指標中,有一些恰好與股票價格、GDP、失業(yè)率有很大的相關性。如果不是超級杯的冠軍,就可能是烏干達的雞肉產(chǎn)量。這種關系僅僅是一個巧合而已。
由倫敦政治經(jīng)濟學院教授提出的“古德哈特定律”認為,政策制定者一旦鎖定一個特定變量,這個變量就會逐漸失去其作為經(jīng)濟指標的價值。比如,如果美國政府人為地上調房價,房價會上漲,但房價就不再是衡量整體經(jīng)濟是否健康的指標了
某一區(qū)域若滿足以下 3 個條件,就會成為 H1N1 病毒的完美孵化器: 1.人、豬毗近,也就是說,豬肉是日常飲食中的主食。 2.靠近海洋,豬和越海遷徙的鳥類可能發(fā)生接觸。 3.很可能位于發(fā)展中國家,由于國家貧窮、個人衛(wèi)生和公共衛(wèi)生水平較低,動物病毒更易傳播給人類。 上述 3 個條件正好描繪出東南亞許多國家的現(xiàn)狀,比如中國、印度尼西亞、泰國和越南(僅中國現(xiàn)存豬的數(shù)量就占世界數(shù)量的 1/2)等國。這些國家通常都是流感的源頭,從每年常見的流感類型到特殊的變體,而后者可能引起全球性的流行病。
19 世紀末 20 世紀初,許多城市的規(guī)劃者被馬糞所擾,馬車的數(shù)量日益增加,使得路上的馬糞越積越多。1894 年一位來自《倫敦時報》的作家致力于研究街道上的馬糞問題,他預測到 20 世紀 40 年代,倫敦每條街道會被厚達 2.7 米的馬糞覆蓋。幸運的是,大約 10 年后,亨利·福特生產(chǎn)了福特 T 型汽車,避免了這場馬糞危機。
與自我實現(xiàn)預測相反的是自我否定預測,自我否定預測是指預測會自我破壞。越來越普及的 GPS 就是一個有趣的例子。曼哈頓有兩條南北走向的主干道,一條是西部高速公路,靠近哈德遜河;另一條是羅斯福路,位于曼哈頓東部。根據(jù)目的地的位置,司機也許沒有必須走哪條路的強烈愿望。然而,GPS 導航系統(tǒng)會依據(jù)車流量預測哪條路通行的時間更短,然后用語音提示你應該選的道路。可是,當很多車主都用同一款導航儀時,問題就出現(xiàn)了,大家都會選同一條路,于是道路突然會被車流塞滿,暢通的路反而變得擁堵。理論和現(xiàn)實的雙重證據(jù)表明,在紐約、波士頓和倫敦都出現(xiàn)了類似的問題,這些導航系統(tǒng)的作用有時只會適得其反。
盡管貝葉斯所著圖書的種類并不算多,但還是被選為英國皇家學會會員,在英國皇家學會,他擔任內部評論家或者智力辯論的裁判員。盡管《神的慈愛》這篇短文是用約翰·努恩的署名發(fā)表的,但大部分學者認為這篇文章其實就是貝葉斯的作品。
文中,貝葉斯思考了古老的神學問題:如果上帝真的是慈愛的,這世上為何還會有苦難和邪惡?貝葉斯給出的答案大體上是,我們不能將人類的瑕疵誤認作上帝的缺陷,我們可能并不完全理解上帝所創(chuàng)造的這個世界。貝葉斯在給另一個神學家的回信中寫道:“所以一切看起來都那么奇怪……因為上帝只看到世界最底層的生活,他應該由此推斷出整個人類會喪失幸福感?!?/p>
研究發(fā)現(xiàn),已婚夫婦任何一年的出軌概率都在 4%左右,所以,我們可以將這個概率視為先驗概率。
烏爾加利斯總是想盡辦法搜集籃球信息,因為任何事都可能改變他的概率估值。像烏爾加利斯這樣的職業(yè)競技體育賭客,只有在認為勝算達到 54%以上時才會下注,因為這樣才足以抵消“抽頭”(博彩經(jīng)營者從賭客的贏利中抽的份子錢)和下注風險。憑借著高超的技藝和勤奮的工作,烏爾加利斯躋身當今世界最成功的競技體育賭客之列,但其下注的準確率僅為 57%。要想超過這一數(shù)字,比登天還難。
1989 年“深思”迎戰(zhàn)卡斯帕羅夫時,輸?shù)靡凰???ㄋ古亮_夫向來尊敬計算技術在國際象棋中的作用,也一直向計算機學習以提高棋藝,但他對“深思”卻少有贊譽,只是說希望有朝一日能出現(xiàn)一臺需要他“用盡全力”才能戰(zhàn)勝的計算機。?
由許峰雄和默里·坎貝爾領銜的“深思”設計團隊最終受雇于 IBM,在那里他們將“深思”的系統(tǒng)優(yōu)化升級為“深藍”。1996 年,“深藍”在費城對陣卡斯帕羅夫時只贏得了首局,卡斯帕羅夫宣稱剩下的幾局他贏得很輕松。次年,“深藍”和卡斯帕羅夫紐約再戰(zhàn),意想不到的事情發(fā)生了。史上最出色、最令人敬畏的國際象棋大師加里·卡斯帕羅夫竟然被一臺計算機打敗了。
利用業(yè)余時間——隨著“非法互聯(lián)網(wǎng)賭博強制法案”的頒布,我對政治產(chǎn)生了日益濃厚的興趣——我最終建成了“538”網(wǎng)站。盡管將贏來的錢輸?shù)袅?1/3 讓我感覺不舒服,但總好過把錢全部輸光,而那些繼續(xù)玩牌的玩家的運氣就沒有這么好了。2011 年,美國司法部提交了訴狀——永久關閉在線撲克牌網(wǎng)站,這一天被在線撲克牌網(wǎng)站稱為“黑色星期五”,其中一些網(wǎng)站被證明無償還能力,無法退還玩家的賭金。?
我有時會想,如果這事發(fā)生在我身上會怎么樣。一個理論上的長勝玩家確實有可能連續(xù)數(shù)月或一整年都只輸不贏。一個總輸錢的玩家也有可能連贏幾局之后,才意識到自己水平不夠。撲克牌游戲就是如此捉摸不定,難以掌控。
- 您在位置 #5044-5047的標注 | 添加于 2015年2月26日星期四 下午5:00:37
2009年,也就是 2008 年金融危機摧毀了全球經(jīng)濟的一年之后,紐約證券交易所一開市,美國投資者每秒的股票交易額就高達 800 萬美元。一個完整的交易日結束后,交易總額達到 1 850 億美元,大約相當于尼日利亞、菲律賓和愛爾蘭等國一年的經(jīng)濟總量。2009 年全年,美國股票的交易總額超過 46 萬億美元,這個數(shù)字是世界 500 強企業(yè)年收入總和的 5 倍。
自由市場論和貝葉斯定理是由同一個知識系統(tǒng)演變而來的。亞當·斯密和托馬斯·貝葉斯是同齡人,都在蘇格蘭接受的教育,都深受哲學家戴維·休謨的影響。亞當·斯密的“無形之手”可以被視為貝葉斯定理的應用過程:價格受供求關系影響而上下波動,最終實現(xiàn)等價交換。而貝葉斯定理的推理過程也被視為一只“無形的手”,我們在為自己爭辯時,也是在潛移默化地更新和改進觀點,爭論無果時,就會放手賭一把自己的觀點。這兩種情況都是尋求共識、博采眾長。