來(lái)自于Simple Learning Pro的系列課程
上一章介紹了如何用圖標(biāo)來(lái)表示數(shù)值的分布;有些統(tǒng)計(jì)型數(shù)值通常也用來(lái)描述數(shù)據(jù)的分布:
眾數(shù)
中位數(shù)
平均值
范圍
標(biāo)準(zhǔn)差(方差)

眾數(shù)、中位數(shù)、均值
這三者一般用于描述中心量數(shù)(measures of center)
眾數(shù):一組數(shù)據(jù)中,出現(xiàn)次數(shù)最多的數(shù)據(jù)
中位數(shù):按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù);對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)
當(dāng)N為奇數(shù)時(shí),M(0.5)=X(N+1)/2
當(dāng)N為偶數(shù)時(shí),M(0.5)=[X(N)/2+X(N+1)/2]/2
均值:是表示一組數(shù)據(jù)集中趨勢(shì)的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個(gè)數(shù)

范圍、標(biāo)準(zhǔn)差
以上兩指標(biāo)分散程度的度量:
范圍:一組數(shù)據(jù)中,最大值-最小值
標(biāo)準(zhǔn)差:總體各單位標(biāo)準(zhǔn)值與其平均數(shù)離差平方的算術(shù)平均數(shù)的平方根

四則運(yùn)算對(duì)描述分布的數(shù)值計(jì)算的影響
中心度量值(中位數(shù),眾數(shù),平均值)受任何加減乘除的影響;
分散度量值(范圍,標(biāo)準(zhǔn)差)僅受乘除的影響;
假設(shè)一組數(shù)值每個(gè)基礎(chǔ)變量均增量相同的量,相當(dāng)于整體分布右移,但其分散程度并未發(fā)生變化;
若基礎(chǔ)變量同時(shí)發(fā)生多項(xiàng)運(yùn)算,均值的計(jì)算同時(shí)發(fā)生多項(xiàng)運(yùn)算,方差的計(jì)算僅針對(duì)乘除有效。


離群值對(duì)描述分布的數(shù)值計(jì)算的影響
離群值(outlier)是指數(shù)據(jù)中有一個(gè)或幾個(gè)數(shù)值與其他數(shù)值相比差異較大;
在描述分布的數(shù)值中,均值、范圍、標(biāo)準(zhǔn)差均會(huì)受到離群值的影響;而眾數(shù)和中位數(shù)則相對(duì)穩(wěn)定

5數(shù)概括法及箱形圖
五數(shù)概括法即用下面的五個(gè)數(shù)來(lái)概括數(shù)據(jù):
最小值;
第1四分位數(shù)(Q1): 位置= (n+1) × 0.25
中位數(shù)(Q2):?位置= (n+1) × 0.5
第3四分位數(shù)(Q3):?位置= (n+1) × 0.75
最大值。
箱形圖提供了五數(shù)概括法的視覺展示,同時(shí)箱形圖也可展示異常值。
異常值的判斷標(biāo)準(zhǔn)如下:數(shù)值<Q1-1.5*IQR? 或者? 數(shù)值>Q3+1.5*IQR
其中,IQR為四分位間距=Q3-Q1

對(duì)稱性與偏度
當(dāng)我們?cè)谡f(shuō)對(duì)稱性(symmetry)和偏度(skewness)時(shí),我們主要看的是分布圖形的形狀(在此主要涉及到三種圖形:直方圖、莖葉圖、箱形圖)
對(duì)稱式分布,圖形左右完全對(duì)稱;中位數(shù)=均值
非對(duì)稱式分布
左偏態(tài):左側(cè)尾部拖得很長(zhǎng);此時(shí)數(shù)據(jù)位于均值左邊的比位于右邊的少,直觀表現(xiàn)為左邊的尾部相對(duì)于與右邊的尾部要長(zhǎng);中位數(shù)>平均數(shù)
右偏態(tài):右側(cè)尾部拖得很長(zhǎng),此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊的少,直觀表現(xiàn)為右邊的尾部相對(duì)于與左邊的尾部要長(zhǎng);平均值>中位數(shù)
