0.0 描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)

? ? ? ? 統(tǒng)計(jì)學(xué)是一門圍繞數(shù)據(jù)展開的科學(xué)。從應(yīng)用上看，可分為描述統(tǒng)計(jì)（descriptive statistics）和推斷統(tǒng)計(jì)（inferential statistics）。

????????描述統(tǒng)計(jì)是對(duì)數(shù)據(jù)整體特征進(jìn)行描繪，包括集中趨勢(shì)（平均數(shù)、眾數(shù)、中位數(shù)）、離散趨勢(shì)（標(biāo)準(zhǔn)差、極差、四分位差值、全距）、變化趨勢(shì)（同比、環(huán)比）、分布趨勢(shì)（偏度、峰度）等非常耳熟能詳?shù)母拍睿⑶颐枋鼋y(tǒng)計(jì)也是各類統(tǒng)計(jì)工作（如公司年報(bào)、周報(bào)等）的主要內(nèi)容。

? ? ? ? 推斷統(tǒng)計(jì)則是在數(shù)據(jù)描述的基礎(chǔ)上作出更多信息的推斷。

1.0 基本概念和原理說明

1.1 總體&參數(shù) vs 樣本&估計(jì)

? ? ? ? 首先需要對(duì)總體（population）、參數(shù)（parameter）、樣本（sample）、樣本容量（sample size）和估計(jì)（estimator）等概念進(jìn)行說明。

????????總體就是對(duì)某一現(xiàn)象或某一事物的所有可能情況的數(shù)據(jù)集合。但實(shí)際中由于時(shí)間、地點(diǎn)、預(yù)算、人力等客觀條件的限制無法獲得數(shù)據(jù)的全集，只能經(jīng)濟(jì)適用地取得其中的一部分?jǐn)?shù)據(jù)（即子集），這就是樣本。而獲取樣本的過程即為抽樣（sampling），這是一項(xiàng)嚴(yán)謹(jǐn)復(fù)雜的工作，這里就不展開說了。

? ? ? ? 通常描述統(tǒng)計(jì)工作都是針對(duì)樣本數(shù)據(jù)進(jìn)行的，準(zhǔn)確地來說是在描述樣本，而不是總體，但是可以基于樣本數(shù)據(jù)的描述對(duì)總體的數(shù)據(jù)特征進(jìn)行估計(jì)，這就是參數(shù)估計(jì)（parameter estimation）。參數(shù)其實(shí)是描述總體數(shù)據(jù)的指標(biāo)的統(tǒng)稱，也稱統(tǒng)計(jì)量（statistic），如總體均值、總體方差等。由于總體數(shù)據(jù)無法獲得，這些參數(shù)實(shí)際是未知的，此時(shí)就只能通過樣本數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行推斷。這一過程就是參數(shù)估計(jì)，推斷得出的數(shù)值就是參數(shù)的估計(jì)或估計(jì)值，如樣本均值、樣本方差等。通過參數(shù)估計(jì)使用樣本信息去了解總體的過程也叫做統(tǒng)計(jì)推斷（sample Inference）。

1.2 三種分布：總體分布、樣本分布、抽樣分布

????????總體分布（population distribution）如字面意思，就是數(shù)據(jù)整體的分布形態(tài)。

? ? ? ? 樣本分布（sample distribution）& 抽樣分布（sampling distribution）則容易混淆。當(dāng)進(jìn)行一次抽樣時(shí)，會(huì)得到一組樣本數(shù)據(jù)，這組數(shù)據(jù)的分布形態(tài)為樣本分布。而當(dāng)進(jìn)行多次抽樣時(shí)會(huì)得到多組樣本數(shù)據(jù)，每組樣本會(huì)得到一個(gè)樣本統(tǒng)計(jì)量（如均值），最終形成一組樣本統(tǒng)計(jì)量，這組數(shù)據(jù)的形態(tài)為抽樣分布。而用來推斷總體特征的是抽樣分布，而非樣本分布。

Q1：為什么不直接使用樣本分布推斷總體？A1：對(duì)抽樣方法、環(huán)境等要求苛刻，可靠性不高。

Q2：為什么抽樣分布可以推斷總體？A1：抽樣分布具有穩(wěn)定的分布性質(zhì)，如樣本均值服從大數(shù)定律和中心極限定理。

1.2 大數(shù)定律

? ? ? ?通俗來講，大數(shù)定律（law of large numbers）說明當(dāng)抽樣足夠多時(shí)，樣本特征趨近于總體特征。這一點(diǎn)其實(shí)很好理解，當(dāng)樣本有無窮多時(shí)，樣本約等于總體，此時(shí)可以理所應(yīng)當(dāng)?shù)卣J(rèn)為樣本特征即為總體特征。

? ? ? ? 大數(shù)定律有兩種形式（也有說三種，下文說明）：

? ??????切比雪夫大數(shù)定律：設(shè) $x_i\in \left\{x_1, x_2, ..., x_n \right\}$ ?是任意均值為 $\mu$ 、方差為 $\sigma^2$ （不一定正態(tài)）的隨機(jī)序列， $x_i$ 即為一個(gè)樣本。那么當(dāng)樣本數(shù)無限多時(shí)，有 $\overline{x} = \lim_{n\to\infty} \frac{1}{n} \sum_{i=0}^n x_i \rightarrow \mu$ ，它揭示了樣本均值和總體均值的關(guān)系，即樣本足夠多時(shí)樣本均值趨于總體均值。比較常見的例子就是問卷調(diào)查。

? ? ? ? 辛欽大數(shù)定律，這里只說明其特殊情況——伯努利大數(shù)定律：設(shè) $f_n$ 為 $n$ 重伯努利實(shí)驗(yàn)中事件 $A$ 發(fā)生的次數(shù)， $p$ 為 $A$ 在每次實(shí)驗(yàn)中發(fā)生的概率，當(dāng)實(shí)驗(yàn)次數(shù)無限多時(shí)，則有 $P(A) = \lim_{n\to\infty} \frac{f_n}{n} \rightarrow p$ ，它揭示了概率與頻率的關(guān)系，當(dāng)實(shí)驗(yàn)重復(fù)次數(shù)很多時(shí)，事件發(fā)生概率就等于其出現(xiàn)的頻率。最常見例子就是拋骰子或者硬幣。

1.3 中心極限定理

? ? ? ? 中心極限定理（central limit theorem）：對(duì)于任意均值為 $\mu$ ，方差為 $\sigma ^2$ 的總體，當(dāng)樣本容量 $n\geq 30$ 時(shí)，其樣本均值 $\overline{x}$ 近似服從均值為 $\mu$ 、方差為 $\frac{\sigma^2}{n}$ 的正態(tài)分布，即： $\overline{x}$ ~ $N(\mu, \frac{\sigma ^2}{n} )$ 。

? ?????? $\frac{\sigma ^2}{n}$ 表示樣本統(tǒng)計(jì)量的離散程度，若樣本量 $n$ 逐漸增大，則 $\frac{\sigma ^2}{n}$ 逐漸減小，即抽樣分布的方差縮小，從正態(tài)分布圖像上看表現(xiàn)變窄。這是由于隨著樣本量 $n$ 增大，抽樣將逐漸趨近于總體，樣本均值將不斷趨近于總體均值，因此方差會(huì)變小，分布圖像會(huì)變窄。

? ??????中心極限定理是推斷統(tǒng)計(jì)的核心，描述了樣本量所服從的抽樣分布為正態(tài)分布，參數(shù)估計(jì)和假設(shè)檢驗(yàn)都是基于中心極限定理進(jìn)行的。

2.0 參數(shù)估計(jì)

????????參數(shù)估計(jì)（parameter estimation）就是使用抽樣所得的樣本統(tǒng)計(jì)量對(duì)總體參數(shù)進(jìn)行估計(jì)。從估計(jì)結(jié)果上看，可分為點(diǎn)估計(jì)和區(qū)間估計(jì)。

2.1 點(diǎn)估計(jì)

????????點(diǎn)估計(jì)（point estimation）是最為常見的估計(jì)形式，就是直接以樣本統(tǒng)計(jì)量作為總體參數(shù)的估計(jì)值，由于樣本統(tǒng)計(jì)量僅是一個(gè)數(shù)值，因此稱之為點(diǎn)估計(jì)。那么區(qū)間估計(jì)，顧名思義就是以一段數(shù)值區(qū)間作為總體參數(shù)的估計(jì)值。

? ? ? ? 常見總體參數(shù)的點(diǎn)估計(jì)：

????????總體均值 $\mu$ 的估計(jì)：? $\overline{x} = \frac{x_1+x_2+···+x_n}{n} \rightarrow \mu$

? ? ? ? 總體方差 $\sigma ^2$ 的估計(jì)： $S^2=\sum_{i=1}^n \frac{1}{n} {(x_i-\overline{x})}^2$

? ? ? ? 總體比例 $p$ 的估計(jì)： $P = \frac{1}{n} \sum_{i=1}^n x_i$ ， $x_i$ 服從伯努利分布

2.2 區(qū)間估計(jì)

????????區(qū)間估計(jì)（interval estimation）是以數(shù)值區(qū)間的 $\mu \in (\overline{x}\pm 1.96\frac{S}{\sqrt{n}} )$ 形式作為參數(shù)估計(jì)。那么如何確定估計(jì)區(qū)間呢？

2.2.1 均值的區(qū)間估計(jì)

? ? ? ? 根據(jù)中心極限定理，當(dāng)樣本量 $n\geq 30$ 時(shí)樣本均值 $\overline{x}$ 近似服從正態(tài)分布 $N(\mu, \frac{\sigma ^2}{n} )$ ，其中 $\mu$ 為總體均值， $\sigma ^2$ 為總體方差。根據(jù)正態(tài)分布取值的概率特征，樣本均值 $\overline{x}$ 應(yīng)該分別有90%、95%、99%的概率（即置信水平，confidence level）落在以 $\mu$ 為中心的 $\pm 1.645\frac{\sigma }{\sqrt{n}}$ 、 $\pm 1.96\frac{\sigma }{\sqrt{n}}$ 、 $\pm 2.58\frac{\sigma }{\sqrt{n}}$ 的范圍內(nèi)（1.645、1.96、2.58為標(biāo)準(zhǔn)正態(tài)分布下三個(gè)置信水平的對(duì)應(yīng)取值），反之即可計(jì)算得到 $\mu$ 的估計(jì)區(qū)間。

? ? ? ? 舉例來看：當(dāng) $1-\alpha =0.95$ ，那么有 $\mu -1.96\frac{\sigma }{\sqrt{n}} \leq \overline{x} \leq \mu +1.96\frac{\sigma }{\sqrt{n}}$ ，移項(xiàng)即可得 $\mu$ 的區(qū)間估計(jì) $\overline{x}-1.96\frac{\sigma }{\sqrt{n}} \leq \mu\leq \overline{x}+1.96\frac{\sigma }{\sqrt{n}}$ 。

? ? ? ? 以上為總體服從正態(tài)分布，且樣本量足夠、方差已知的情況。其他的各種情況說明如下：

? ? ? ? 1）當(dāng)樣本量 $n\geq 30$ ，總體為任意分布且總體方差 $\sigma$ 已知，則 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})$

? ? ? ? 2）當(dāng)樣本量 $n\geq 30$ ，總體為任意分布且總體方差 $\sigma$ 未知，可用樣本方差 $S$ 替代，則 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}})$

? ? ? ? 3）當(dāng)樣本量? $n\leq 30$ ，總體服從正態(tài)分布，若總體方差 $\sigma$ 已知，則 $\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2} }\frac{\sigma}{\sqrt{n}})$ ；若總體方差 $\sigma$ 未知，則 $\mu \in (\overline{x}\pm t_{\frac{\alpha}{2(n-1)}}\frac{S}{\sqrt{n}})$ ；注意這里為 $t$ 分布，為非正態(tài)分布了

? ? ? ? 4）當(dāng)樣本量 $n\leq 30$ ，總體服從非正態(tài)分布，分情況計(jì)算（卡方分布或F分布）

2.2.2 比例/概率的區(qū)間估計(jì)

? ? ? ? 比例/概率的區(qū)間估計(jì)有些特殊：首先要求總體服從二項(xiàng)分布， $B(n, p)$ ?；其次要求樣本量 $n$ 要足夠大，這里的足夠大不是滿足于某個(gè)數(shù)值，而是 $np>5$ 且 $np(1-p)>5$ 。此時(shí)二項(xiàng)分布可近似為正態(tài)分布 $N(p,\frac{p(1-p)}{n} )$ 。同上，單次實(shí)驗(yàn)得到的事件概率或結(jié)果比例 $P$ 的置信區(qū)間為 $p\in (P\pm Z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}})$

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

推斷統(tǒng)計(jì)學(xué)（一）——參數(shù)估計(jì)

推斷統(tǒng)計(jì)學(xué)（一）——參數(shù)估計(jì)

0.0 描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)

1.0 基本概念和原理說明

1.1 總體&參數(shù) vs 樣本&估計(jì)

1.2 三種分布：總體分布、樣本分布、抽樣分布

1.2 大數(shù)定律

1.3 中心極限定理

2.0 參數(shù)估計(jì)

2.1 點(diǎn)估計(jì)

2.2 區(qū)間估計(jì)

2.2.1 均值的區(qū)間估計(jì)

2.2.2 比例/概率的區(qū)間估計(jì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

推斷統(tǒng)計(jì)學(xué)（一）——參數(shù)估計(jì)

0.0 描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)

1.0 基本概念和原理說明

1.1 總體&參數(shù) vs 樣本&估計(jì)

1.2 三種分布：總體分布、樣本分布、抽樣分布

1.2 大數(shù)定律

1.3 中心極限定理

2.0 參數(shù)估計(jì)

2.1 點(diǎn)估計(jì)

2.2 區(qū)間估計(jì)

2.2.1 均值的區(qū)間估計(jì)

2.2.2 比例/概率的區(qū)間估計(jì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1.2 三種分布：總體分布、樣本分布、抽樣分布