12.24讀書筆記《大數(shù)據(jù)時(shí)代》

?更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)

讓數(shù)據(jù)“發(fā)聲”

IBM的資深“大數(shù)據(jù)”專家杰夫·喬納斯提出要讓數(shù)據(jù)“說話”。

大數(shù)據(jù)與三個(gè)重大的思維轉(zhuǎn)變有關(guān):

首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。

其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。

最后,我們的思維發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

事實(shí)上,我們形成了一種習(xí)慣,那就是在我們的制度、處理過程和激勵(lì)機(jī)制中盡可能地減少數(shù)據(jù)的使用。

小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息

有目的地選擇最具代表性的樣本是小數(shù)據(jù)時(shí)代的產(chǎn)物。1934年,波蘭統(tǒng)計(jì)學(xué)家耶日·奈曼指出,這只會(huì)導(dǎo)致更多更大的漏洞。事實(shí)證明,問題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。

統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體上得到的信息會(huì)越來越少,就如同經(jīng)濟(jì)學(xué)中的邊際效應(yīng)遞減一樣。

認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見地的。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精確度的推斷。

本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。

隨機(jī)采樣只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對(duì)隨機(jī)性,但是現(xiàn)實(shí)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏差,分析結(jié)果就會(huì)相去甚遠(yuǎn)。同時(shí),隨機(jī)采樣不適合考察子類別的情況,因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。隨機(jī)采樣的調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。

全數(shù)據(jù)模式,樣本=總體

“樣本=總體”是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。但我們需要足夠的數(shù)據(jù)處理和存儲(chǔ)能力,也需要最先進(jìn)的分析技術(shù)。同時(shí),簡單廉價(jià)的數(shù)據(jù)收集方法也很重要。

大數(shù)據(jù)不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。

(28-43)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容