0.0 描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)
? ? ? ? 統(tǒng)計(jì)學(xué)是一門圍繞數(shù)據(jù)展開的科學(xué)。從應(yīng)用上看,可分為描述統(tǒng)計(jì)(descriptive statistics)和推斷統(tǒng)計(jì)(inferential statistics)。
????????描述統(tǒng)計(jì)是對(duì)數(shù)據(jù)整體特征進(jìn)行描繪,包括集中趨勢(shì)(平均數(shù)、眾數(shù)、中位數(shù))、離散趨勢(shì)(標(biāo)準(zhǔn)差、極差、四分位差值、全距)、變化趨勢(shì)(同比、環(huán)比)、分布趨勢(shì)(偏度、峰度)等非常耳熟能詳?shù)母拍睿⑶颐枋鼋y(tǒng)計(jì)也是各類統(tǒng)計(jì)工作(如公司年報(bào)、周報(bào)等)的主要內(nèi)容。
? ? ? ? 推斷統(tǒng)計(jì)則是在數(shù)據(jù)描述的基礎(chǔ)上作出更多信息的推斷。
1.0 基本概念和原理說明
1.1 總體&參數(shù) vs 樣本&估計(jì)
? ? ? ? 首先需要對(duì)總體(population)、參數(shù)(parameter)、樣本(sample)、樣本容量(sample size)和估計(jì)(estimator)等概念進(jìn)行說明。
????????總體就是對(duì)某一現(xiàn)象或某一事物的所有可能情況的數(shù)據(jù)集合。但實(shí)際中由于時(shí)間、地點(diǎn)、預(yù)算、人力等客觀條件的限制無法獲得數(shù)據(jù)的全集,只能經(jīng)濟(jì)適用地取得其中的一部分?jǐn)?shù)據(jù)(即子集),這就是樣本。而獲取樣本的過程即為抽樣(sampling),這是一項(xiàng)嚴(yán)謹(jǐn)復(fù)雜的工作,這里就不展開說了。
? ? ? ? 通常描述統(tǒng)計(jì)工作都是針對(duì)樣本數(shù)據(jù)進(jìn)行的,準(zhǔn)確地來說是在描述樣本,而不是總體,但是可以基于樣本數(shù)據(jù)的描述對(duì)總體的數(shù)據(jù)特征進(jìn)行估計(jì),這就是參數(shù)估計(jì)(parameter estimation)。參數(shù)其實(shí)是描述總體數(shù)據(jù)的指標(biāo)的統(tǒng)稱,也稱統(tǒng)計(jì)量(statistic),如總體均值、總體方差等。由于總體數(shù)據(jù)無法獲得,這些參數(shù)實(shí)際是未知的,此時(shí)就只能通過樣本數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行推斷。這一過程就是參數(shù)估計(jì),推斷得出的數(shù)值就是參數(shù)的估計(jì)或估計(jì)值,如樣本均值、樣本方差等。通過參數(shù)估計(jì)使用樣本信息去了解總體的過程也叫做統(tǒng)計(jì)推斷(sample Inference)。
1.2 三種分布:總體分布、樣本分布、抽樣分布
????????總體分布(population distribution)如字面意思,就是數(shù)據(jù)整體的分布形態(tài)。
? ? ? ? 樣本分布(sample distribution)& 抽樣分布(sampling distribution)則容易混淆。當(dāng)進(jìn)行一次抽樣時(shí),會(huì)得到一組樣本數(shù)據(jù),這組數(shù)據(jù)的分布形態(tài)為樣本分布。而當(dāng)進(jìn)行多次抽樣時(shí)會(huì)得到多組樣本數(shù)據(jù),每組樣本會(huì)得到一個(gè)樣本統(tǒng)計(jì)量(如均值),最終形成一組樣本統(tǒng)計(jì)量,這組數(shù)據(jù)的形態(tài)為抽樣分布。而用來推斷總體特征的是抽樣分布,而非樣本分布。
Q1:為什么不直接使用樣本分布推斷總體?A1:對(duì)抽樣方法、環(huán)境等要求苛刻,可靠性不高。
Q2:為什么抽樣分布可以推斷總體?A1:抽樣分布具有穩(wěn)定的分布性質(zhì),如樣本均值服從大數(shù)定律和中心極限定理。
1.2 大數(shù)定律
? ? ? ?通俗來講,大數(shù)定律(law of large numbers)說明當(dāng)抽樣足夠多時(shí),樣本特征趨近于總體特征。這一點(diǎn)其實(shí)很好理解,當(dāng)樣本有無窮多時(shí),樣本約等于總體,此時(shí)可以理所應(yīng)當(dāng)?shù)卣J(rèn)為樣本特征即為總體特征。
? ? ? ? 大數(shù)定律有兩種形式(也有說三種,下文說明):
? ??????切比雪夫大數(shù)定律:設(shè)?是任意均值為
、方差為
(不一定正態(tài))的隨機(jī)序列,
即為一個(gè)樣本。那么當(dāng)樣本數(shù)無限多時(shí),有
,它揭示了樣本均值和總體均值的關(guān)系,即樣本足夠多時(shí)樣本均值趨于總體均值。比較常見的例子就是問卷調(diào)查。
? ? ? ? 辛欽大數(shù)定律,這里只說明其特殊情況——伯努利大數(shù)定律:設(shè)為
重伯努利實(shí)驗(yàn)中事件
發(fā)生的次數(shù),
為
在每次實(shí)驗(yàn)中發(fā)生的概率,當(dāng)實(shí)驗(yàn)次數(shù)無限多時(shí),則有
,它揭示了概率與頻率的關(guān)系,當(dāng)實(shí)驗(yàn)重復(fù)次數(shù)很多時(shí),事件發(fā)生概率就等于其出現(xiàn)的頻率。最常見例子就是拋骰子或者硬幣。
1.3 中心極限定理
? ? ? ? 中心極限定理(central limit theorem):對(duì)于任意均值為,方差為
的總體,當(dāng)樣本容量
時(shí),其樣本均值
近似服從均值為
、方差為
的正態(tài)分布,即:
~
。
? ??????表示樣本統(tǒng)計(jì)量的離散程度,若樣本量
逐漸增大,則
逐漸減小,即抽樣分布的方差縮小,從正態(tài)分布圖像上看表現(xiàn)變窄。這是由于隨著樣本量
增大,抽樣將逐漸趨近于總體,樣本均值將不斷趨近于總體均值,因此方差會(huì)變小,分布圖像會(huì)變窄。
? ??????中心極限定理是推斷統(tǒng)計(jì)的核心,描述了樣本量所服從的抽樣分布為正態(tài)分布,參數(shù)估計(jì)和假設(shè)檢驗(yàn)都是基于中心極限定理進(jìn)行的。
2.0 參數(shù)估計(jì)
????????參數(shù)估計(jì)(parameter estimation)就是使用抽樣所得的樣本統(tǒng)計(jì)量對(duì)總體參數(shù)進(jìn)行估計(jì)。從估計(jì)結(jié)果上看,可分為點(diǎn)估計(jì)和區(qū)間估計(jì)。
2.1 點(diǎn)估計(jì)
????????點(diǎn)估計(jì)(point estimation)是最為常見的估計(jì)形式,就是直接以樣本統(tǒng)計(jì)量作為總體參數(shù)的估計(jì)值,由于樣本統(tǒng)計(jì)量僅是一個(gè)數(shù)值,因此稱之為點(diǎn)估計(jì)。那么區(qū)間估計(jì),顧名思義就是以一段數(shù)值區(qū)間作為總體參數(shù)的估計(jì)值。
? ? ? ? 常見總體參數(shù)的點(diǎn)估計(jì):
????????總體均值的估計(jì):?
? ? ? ? 總體方差的估計(jì):
? ? ? ? 總體比例的估計(jì):
,
服從伯努利分布
2.2 區(qū)間估計(jì)
????????區(qū)間估計(jì)(interval estimation)是以數(shù)值區(qū)間的形式作為參數(shù)估計(jì)。那么如何確定估計(jì)區(qū)間呢?
2.2.1 均值的區(qū)間估計(jì)
? ? ? ? 根據(jù)中心極限定理,當(dāng)樣本量時(shí)樣本均值
近似服從正態(tài)分布
,其中
為總體均值,
為總體方差。根據(jù)正態(tài)分布取值的概率特征,樣本均值
應(yīng)該分別有90%、95%、99%的概率(即置信水平,confidence level)落在以
為中心的
、
、
的范圍內(nèi)(1.645、1.96、2.58為標(biāo)準(zhǔn)正態(tài)分布下三個(gè)置信水平的對(duì)應(yīng)取值),反之即可計(jì)算得到
的估計(jì)區(qū)間。
? ? ? ? 舉例來看:當(dāng),那么有
,移項(xiàng)即可得
的區(qū)間估計(jì)
。
? ? ? ? 以上為總體服從正態(tài)分布,且樣本量足夠、方差已知的情況。其他的各種情況說明如下:
? ? ? ? 1)當(dāng)樣本量,總體為任意分布且總體方差
已知,則
? ? ? ? 2)當(dāng)樣本量,總體為任意分布且總體方差
未知,可用樣本方差
替代,則
? ? ? ? 3)當(dāng)樣本量?,總體服從正態(tài)分布,若總體方差
已知,則
;若總體方差
未知,則
;注意這里為
分布,為非正態(tài)分布了
? ? ? ? 4)當(dāng)樣本量,總體服從非正態(tài)分布,分情況計(jì)算(卡方分布或F分布)
2.2.2 比例/概率的區(qū)間估計(jì)
? ? ? ? 比例/概率的區(qū)間估計(jì)有些特殊:首先要求總體服從二項(xiàng)分布,?;其次要求樣本量
要足夠大,這里的足夠大不是滿足于某個(gè)數(shù)值,而是
且
。此時(shí)二項(xiàng)分布可近似為正態(tài)分布
。同上,單次實(shí)驗(yàn)得到的事件概率或結(jié)果比例
的置信區(qū)間為