數(shù)據(jù)的描述性統(tǒng)計(jì)

在實(shí)際工作中,對(duì)于剛接手的數(shù)據(jù)集,在正式處理需求前,除了需要梳理清楚數(shù)據(jù)上報(bào)及轉(zhuǎn)發(fā)環(huán)節(jié),還需要對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估和了解數(shù)據(jù)集的描述性統(tǒng)計(jì)特征。在很多公司里,數(shù)據(jù)分析師「觸手可及」的便是數(shù)據(jù)開(kāi)發(fā)工程師處理過(guò)后的數(shù)據(jù),在上述環(huán)節(jié)中,分析師尤其需要重點(diǎn)關(guān)注數(shù)據(jù)集的描述性統(tǒng)計(jì)特征,了解不同類(lèi)型的數(shù)據(jù)的集中、離散和分布程度,以便在業(yè)務(wù)提數(shù)時(shí),補(bǔ)充合理的篩選條件,避免計(jì)算出來(lái)的指標(biāo)有誤導(dǎo)性。


數(shù)據(jù)描述的三個(gè)維度

所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個(gè)維度進(jìn)行描述,這三個(gè)維度就是:

  • 數(shù)據(jù)的集中趨勢(shì)描述:算數(shù)平均值,加權(quán)平均值,調(diào)和平均值,幾何平均值,眾數(shù),中位數(shù)
  • 數(shù)據(jù)的離散程度描述:全距,平均差,總體方差和標(biāo)準(zhǔn)差,樣本方差和標(biāo)準(zhǔn)差,離散洗漱,四分位極差和四分位差
  • 數(shù)據(jù)的分布形態(tài)描述:峰度與偏度,概率及概率分布,二項(xiàng)概率分布,多項(xiàng)概率分布,泊松概率分布,指數(shù)概率分布,正態(tài)概率分布

數(shù)據(jù)的集中趨勢(shì)描述

尋找反映數(shù)據(jù)集某一特征的代表值或中心值,表明所研究的對(duì)象在一定的條件下的共同性質(zhì)和一般水平。

1)平均值
  • 算術(shù)平均值
    概念:將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值的個(gè)數(shù)就能得到簡(jiǎn)單算術(shù)平均值。
    應(yīng)用:當(dāng)數(shù)據(jù)集合中有極大值或極小值存在時(shí),會(huì)對(duì)算術(shù)平均值產(chǎn)生很大的影響,計(jì)算結(jié)果會(huì)掩蓋數(shù)據(jù)集合的真實(shí)特征。
    \bar x = \frac{x_1+x_2+x_3+...+x_n}{n}

  • 加權(quán)算術(shù)平均值
    概念:將各數(shù)值乘以相應(yīng)的權(quán)重值,然后加總求和得到總體值,再除以總的數(shù)據(jù)值個(gè)數(shù)。
    應(yīng)用:計(jì)算前需要設(shè)定好各數(shù)據(jù)值的權(quán)重,可是由「專(zhuān)家」根據(jù)具體業(yè)務(wù)設(shè)置,也可以根據(jù)各數(shù)據(jù)值的分布占比進(jìn)行設(shè)定。

m = \frac{f_1\bar x_1+f_2\bar x_2 + ... + f_n\bar x_n}{f_1+f_2+...+f_n}

  • 幾何平均值
    概念:有些數(shù)據(jù)之間的關(guān)系不是相加減關(guān)系,而是乘除關(guān)系,此時(shí)該用幾何平均值來(lái)表示由這樣的數(shù)值組成數(shù)據(jù)集合的集中趨勢(shì)。
    應(yīng)用案例:銀行的平均存款利率、汽車(chē)工廠(chǎng)每條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率,由于生產(chǎn)工藝是連續(xù)型生產(chǎn),只有上一道工序的合格品才能進(jìn)入下一道工序中,所以每道工序的合格率之間是乘積關(guān)系。假設(shè)每道工序的產(chǎn)品合格率分別是 85%、97%、94% 和 92%,求這條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率。

\bar x_j = \sqrt[n]{x_1x_2...x_n}

2)中位數(shù)

概念:對(duì)于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進(jìn)行排序,如果數(shù)據(jù)集合包含的數(shù)值個(gè)數(shù)是奇數(shù),那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù),如果數(shù)據(jù)集合的數(shù)值為偶數(shù),那么取最中間兩個(gè)數(shù)值的算術(shù)平均值作為中位數(shù)。
應(yīng)用:中位數(shù)能夠避免數(shù)據(jù)的平均水平受到異常值的影響,因此在做數(shù)據(jù)分析時(shí),不僅要計(jì)算算數(shù)平均數(shù),也計(jì)算中位數(shù),若兩個(gè)數(shù)字差距很大,就用中位數(shù)作為平均數(shù)。

3)眾數(shù)

概念:數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值。
應(yīng)用:眾數(shù)真正的價(jià)值在于類(lèi)別型數(shù)據(jù),用于統(tǒng)計(jì)各類(lèi)別的數(shù)量。

數(shù)據(jù)的離散程度描述

1)極差

概念:數(shù)據(jù)集合中最大值與最小值的差值,表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
應(yīng)用:極差雖能表示數(shù)據(jù)集合的波動(dòng)大小,但沒(méi)有提供兩個(gè)極值以外的數(shù)值的信息,且對(duì)極值非常敏感,不太可靠,需要結(jié)合其他離散程度描述指標(biāo)來(lái)描述數(shù)據(jù)集合的離散程度。

R = R_{max} - R_{min}

2)平均偏差

概念:數(shù)據(jù)集合的所有數(shù)值與平均值的偏差(取絕對(duì)值)之和,除以數(shù)值個(gè)數(shù)。

R_a = \frac{\sum_{i=1}^{n}|x_i-\bar x|}{n}

3)方差和標(biāo)準(zhǔn)差

概念:描述數(shù)值與均值的偏離程度的指標(biāo)。方差是各個(gè)數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)。而標(biāo)準(zhǔn)差則是方差的算術(shù)平方根。
應(yīng)用:方差/標(biāo)準(zhǔn)差值越大,代表大部分?jǐn)?shù)值和其平均值之間的差異較大,數(shù)據(jù)離散程度也就越大。在處理風(fēng)險(xiǎn)評(píng)估模型時(shí),一個(gè)數(shù)據(jù)的波動(dòng)性,說(shuō)明它涵蓋的信息量越大,信息量越大,不可知的因素越多,因此風(fēng)險(xiǎn)會(huì)更大。

\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}

\sigma = \sqrt[2]{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}

4)樣本方差和標(biāo)準(zhǔn)差

概念:從數(shù)據(jù)總體中隨機(jī)抽取一定數(shù)量的樣本數(shù)值,然后用樣本數(shù)值的方差和標(biāo)準(zhǔn)差來(lái)估計(jì)總體的方差和標(biāo)準(zhǔn)差。

s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}

總體方差公式的分母就是數(shù)據(jù)集合的總數(shù)量 N,而樣本方差公式的分母卻是 n-1,即抽取樣本量 n 減去 1。主要是因?yàn)橛脴颖痉讲罟烙?jì)總體方差總有一定的偏差所在。

5)變異系數(shù)

概念:數(shù)據(jù)集合的標(biāo)準(zhǔn)差與算術(shù)平均值的比值。
應(yīng)用:無(wú)單位指標(biāo),不僅可以說(shuō)明同類(lèi)事物的相對(duì)離散程度,也可以說(shuō)明不同類(lèi)型事物的相對(duì)離散程度。

6)四分位極差

概念:對(duì)于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進(jìn)行排序,排在四分之一位置的數(shù)值即為第一四分位數(shù) Q1,以此類(lèi)推,分別有有第二、三、四四分位數(shù),Q2,Q3,Q4。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1),這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合 50% 的數(shù)據(jù)值。

數(shù)據(jù)的分布形態(tài)描述

概率
概念:度量隨機(jī)事件中某一個(gè)結(jié)果發(fā)生的可能性大小的數(shù)值。

1)古典概率法:事件結(jié)果數(shù)目已知,且每種結(jié)果對(duì)應(yīng)的發(fā)生概率相等。
2)統(tǒng)計(jì)概率法:需要統(tǒng)計(jì)過(guò)往事件發(fā)生的結(jié)果頻數(shù)來(lái)確定。
3)主觀概率法:分析者對(duì)預(yù)測(cè)事件發(fā)生的概率做出主觀估計(jì)。

概率分布
概率分布是指事件的不同結(jié)果對(duì)應(yīng)的發(fā)生概率所構(gòu)成的分布,可以利用二維坐標(biāo)進(jìn)行形象的解釋。

  • 離散型概率分布的概率函數(shù)被稱(chēng)為概率質(zhì)量函數(shù),對(duì)應(yīng)的 Y 軸表示某事件結(jié)果出現(xiàn)的概率。
  • 連續(xù)型概率分布對(duì)應(yīng)的 Y 軸表示某結(jié)果的概率密度,X 軸任意一點(diǎn),它對(duì)應(yīng)的概率為 0,需要從 X 軸取某一段區(qū)間的積分面積得到事件的發(fā)生概率。

離散型概率分布

1)二項(xiàng)/多項(xiàng)分布

二項(xiàng)分布的試驗(yàn)結(jié)果只有兩個(gè)(成功和失敗,0 和 1),而多項(xiàng)分布的試驗(yàn)結(jié)果則多于兩個(gè),多項(xiàng)分布試驗(yàn)的特點(diǎn)如下:

  • 每次試驗(yàn)有兩種或多種可能的結(jié)果,但是每種結(jié)果只會(huì)出現(xiàn)一個(gè);
  • 每次結(jié)果都有各自發(fā)生的概率,所有結(jié)果的發(fā)生概率之和為 1;
  • 每次試驗(yàn)相互獨(dú)立,每次試驗(yàn)結(jié)果都不受其他各次試驗(yàn)結(jié)果的影響(放回抽樣)。

假設(shè)某個(gè)多項(xiàng)分布試驗(yàn)有 k 個(gè)結(jié)果,每種結(jié)果發(fā)生的概率分別為 p1,p2…,pk(概率之和為 1)現(xiàn)在進(jìn)行 n 次多項(xiàng)分布試驗(yàn),假設(shè)觀測(cè)結(jié)果為 a1 的次數(shù)為 x1 次,結(jié)果為 a2 的次數(shù)為 x2 次,…,結(jié)果為 ak 的次數(shù)為 xk(n=x1+x2+…+xk),多么多項(xiàng)分布的聯(lián)合概率函數(shù)為:

P(X_1 = x_1, X_2=x_2, …, X_k=x_k)=\frac{n!}{x_1!x_2!…x_k!}p_1^{x_1}p_2^{x_2}…p_k^{x_k}

而二項(xiàng)分布中,只有 p_11-p_1 (記為 q)兩種概率,因此二項(xiàng)分布的概率函數(shù)為:
P(X=x_1) = C^{x_1}_np^{x_1}q^{n-{x_1}}=\frac{n!}{x_1!(n-x_1)!}p^{x_1}q^{n-x_1}

上述公式里,P(X=x) 表示特定事件的概率,在實(shí)際工作中,常結(jié)合數(shù)學(xué)期望一起使用。

數(shù)學(xué)期望

數(shù)學(xué)期望是對(duì)隨機(jī)變量中心位置的一種度量,是試驗(yàn)中每次可能結(jié)果的乘以其結(jié)果的總和。

E(x) = \sum_{i=1}^{k} n_ip_i

假設(shè)一等獎(jiǎng)成本 1000 元,二等獎(jiǎng)成本 500 元,三等獎(jiǎng)成本 100 元,歡迎下次再來(lái)當(dāng)然沒(méi)錢(qián),而用戶(hù)參加一次抽獎(jiǎng)需要 10 元。我們將概率問(wèn)題轉(zhuǎn)換成運(yùn)營(yíng)方的收益和成本計(jì)算期望

下面從公司角度分析活動(dòng)的盈虧成本:

一等獎(jiǎng) 二等獎(jiǎng) 三等獎(jiǎng) 歡迎下次再來(lái)
A 方案盈虧結(jié)果 10-1000 10-500 10-100 10
P(X=x) 5% 10% 20% 65%
B 方案盈虧結(jié)果 10-1000 10-500 10-100 10
P(X=x) 10% 10% 10% 70%

A 方案的數(shù)學(xué)期望:

E(x)=(-990*5\%)+(-490*10\%)+(-90*20\%)+(10*65\%) = -110

B 方案的數(shù)學(xué)期望:

E(x)=(-990*10\%)+(-450*10\%)+(-90*10\%)+(10*70\%)=-150

A 方案能否期望沒(méi)抽獎(jiǎng)運(yùn)營(yíng)方虧損 110 元,B 方案則是虧損 150 元。

而從用戶(hù)的角度分析活動(dòng)的收益成本:

一等獎(jiǎng) 二等獎(jiǎng) 三等獎(jiǎng) 歡迎下次再來(lái)
A 方案收益結(jié)果 1000-10 500-10 100-10 -10
P(X=x) 5% 10% 20% 65%
B 方案收益結(jié)果 1000-10 500-10 100-10 -10
P(X=x) 10% 10% 10% 70%

A 方案的數(shù)學(xué)期望:

E(x)=(990*5\%)+(490*10\%)+(90*20\%)+(-10*65\%)=110
B 方案的數(shù)學(xué)期望:

E(x)=(990*10\%)+(490*10\%)+(90*10\%)+(-10*70\%)=150

2)超幾何分布

在二項(xiàng)/多項(xiàng)分布試驗(yàn)中,每次試驗(yàn)結(jié)果的發(fā)生概率是不變的,而超幾何分布試驗(yàn)結(jié)果的概率會(huì)隨著每一次試驗(yàn)的發(fā)生而改變(無(wú)放回抽樣)。

  • 若樣本容量 n = 1,即從有限總體中只抽取一個(gè)個(gè)案,且恰好抽到符合要求個(gè)案的概率,那超幾何分布可以還原成二項(xiàng)分布
  • 如果數(shù)據(jù)總體的容量 N 無(wú)窮大,或是樣本容量的 10 倍以上,即 N>=10n,也可以將二項(xiàng)分布近似描述超幾何分布

假設(shè)有限數(shù)據(jù)總體包含 N 個(gè)數(shù)值,其中符合要求的個(gè)案數(shù)量為 m 個(gè),如果從該數(shù)據(jù)總體中抽取 n 個(gè)個(gè)案,其中有 k 個(gè)是符合要求個(gè)案的概率計(jì)算公式為:

f(k;n,m,N)=\frac{C_m^{k}C_{N-m}^{n-k}}{C_N^{n}}

3)泊松分布

基于過(guò)去某個(gè)隨機(jī)事件在單位時(shí)間內(nèi)的平均發(fā)生次數(shù),預(yù)測(cè)該隨機(jī)事件在未來(lái)同樣單位時(shí)間內(nèi)發(fā)生不同次數(shù)的的概率。

P(X=k)=C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{(n-k)}=\frac{e^{-\lambda}\lambda^{k}}{k!}

連續(xù)型概率分布

1)指數(shù)分布

根據(jù)隨機(jī)事件發(fā)生一次的平均等待時(shí)間來(lái)推斷某個(gè)時(shí)間段內(nèi),隨機(jī)事件發(fā)生的概率。

$$
2)均勻分布

是古典概率分布的連續(xù)形式,是指隨機(jī)事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量,但所有的變量對(duì)應(yīng)的概率都相等。

3)正態(tài)分布

正態(tài)分布的數(shù)據(jù)特點(diǎn):

  • 集中性:正態(tài)曲線(xiàn)的高峰位于正中央,即均數(shù)所在的位置。
  • 對(duì)稱(chēng)性:正態(tài)曲線(xiàn)以均數(shù)為中心,左右對(duì)稱(chēng),曲線(xiàn)兩端永遠(yuǎn)不與橫軸相交。
  • 均勻變動(dòng)性:正態(tài)曲線(xiàn)由均數(shù)所在處開(kāi)始,分別向左右兩側(cè)逐漸均勻下降。 68% 的數(shù)值位于平均值一個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi),95% 的數(shù)值在平均值兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
  • 正態(tài)分布有兩個(gè)參數(shù),即均數(shù)μ和標(biāo)準(zhǔn)差σ,可記作N(μ,σ):均數(shù) μ 決定正態(tài)曲線(xiàn)的中心位置;標(biāo)準(zhǔn)差 σ 決定正態(tài)曲線(xiàn)的陡峭或扁平程度。σ 越小,曲線(xiàn)越陡峭;σ越大,曲線(xiàn)越扁平。

偏態(tài)分布的數(shù)據(jù)有什么特點(diǎn)?

  • 正偏態(tài)(右偏)分布:曲線(xiàn)右側(cè)偏長(zhǎng),左側(cè)偏短,M>Me>Mo,即平均數(shù)大于中數(shù)中數(shù)又大于眾數(shù),則數(shù)據(jù)的分布是屬于正偏態(tài)分布。

    image
  • 負(fù)偏態(tài)(左偏)分布:曲線(xiàn)左側(cè)偏長(zhǎng),右側(cè)偏短,M<Me<Mo,即平均數(shù)小于中數(shù),中數(shù)又小于眾數(shù),則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。

    image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容