統(tǒng)計(jì)學(xué)基礎(chǔ)理論

第一章 變量和圖形

統(tǒng)計(jì)學(xué):科學(xué)方法收集、整理、匯總、描述和分析數(shù)據(jù)資料,并在此基礎(chǔ)上進(jìn)行推斷和決策的科學(xué);

歸納統(tǒng)計(jì)學(xué)/統(tǒng)計(jì)推斷:通過樣本分析來給總體下結(jié)論

描述性統(tǒng)計(jì)學(xué)/演繹統(tǒng)計(jì)學(xué):值描述和分析特定對象而不下結(jié)論或推斷

變量、常量、連續(xù)變量、離散變量、連續(xù)數(shù)據(jù)、離散數(shù)據(jù)

自變量、因變量、函數(shù)、單值函數(shù)、多值函數(shù)

第二章 頻數(shù)分布

數(shù)組陣列:原始數(shù)據(jù)按照數(shù)量大小升序或者降序排列,最大值與最小值的差為全距;

組距、組限、組界、組中值、直方圖與頻率多邊形

頻率分布=某一組頻數(shù)/總頻數(shù)

累計(jì)頻數(shù)分布/累計(jì)頻數(shù)表,累計(jì)頻數(shù)多邊形/卵形線

累計(jì)頻率分布/百分率累計(jì)頻數(shù)=累計(jì)頻數(shù)/總頻數(shù)

第三章 均值、中位數(shù)、眾數(shù)及其他表示集中趨勢的度量

一、中位數(shù)

定義/解釋:按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),即在這組數(shù)據(jù)中,有一半的數(shù)據(jù)比他大,有一半的數(shù)據(jù)比他小

  #?如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。

二、方差

參考百科:方差

 1)定義

   方差(variance):是在概率論和統(tǒng)計(jì)方差衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度的度量


 2)應(yīng)用

  1、在統(tǒng)計(jì)描述中

方差用來計(jì)算每一個(gè)變量(觀察值)與總體均數(shù)之間的差異

在許多實(shí)際問題中,研究方差即偏離程度有著重要意義

為避免出現(xiàn)離均差(X -?

)總和為零,離均差平方和受樣本含量的影響,統(tǒng)計(jì)學(xué)采用平均離均差平方和來描述變量的變異程度

總體方差計(jì)算公式:

:總體方差

:變量

:總體均值

:總體例數(shù)

實(shí)際工作中,總體均數(shù)難以得到時(shí),應(yīng)用樣本統(tǒng)計(jì)量代替總體參數(shù),經(jīng)校正后,樣本方差計(jì)算公式:S2?= ∑(X -

)2/ (n - 1)?

S2:樣本方差

X:變量

:為樣本均值

n:樣本例數(shù)。

  2、在概率分布中

用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。

在概率分布中,設(shè)X是一個(gè)離散型隨機(jī)變量,若E{[X - E(X)]2}存在,則稱E{[X - E(X)]2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變量值,公式中的E是期望值expected value的縮寫,意為“變量值與其期望值之差的平方和”的期望值。

離散型隨機(jī)變量方差計(jì)算公式:D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2

當(dāng)D(X) = E{[X-E(X)]2}稱為變量X的方差,而

稱為標(biāo)準(zhǔn)差(或均方差)。它與X有相同的量綱。標(biāo)準(zhǔn)差是用來衡量一組數(shù)據(jù)的離散程度的統(tǒng)計(jì)量?

對于連續(xù)型隨機(jī)變量X,若其定義域?yàn)?a, b),概率密度函數(shù)為f(x),連續(xù)型隨機(jī)變量X方差計(jì)算公式:D(X) =

(x - μ)2* f(x)dx,方差刻畫了隨機(jī)變量的取值對于其數(shù)學(xué)期望的離散程度。(標(biāo)準(zhǔn)差、方差越大,離散程度越大),若X的取值比較集中,則方差D(X)較小,若X的取值比較分散,則方差D(X)較大。因此,D(X)是刻畫X取值分散程度的一個(gè)量,它是衡量取值分散程度的一個(gè)尺度。


三、標(biāo)準(zhǔn)差

# 參考百科:標(biāo)準(zhǔn)差

 1)定義

標(biāo)準(zhǔn)差(Standard Deviation)又常稱均方差,是方差的算術(shù)平方根,反映一個(gè)數(shù)據(jù)集的離散程度

 2)應(yīng)用

概率統(tǒng)計(jì)中:最常使用作為統(tǒng)計(jì)分布程度(statistical dispersion)上的測量。

標(biāo)準(zhǔn)差定義是總體各單位標(biāo)準(zhǔn)值與其平均數(shù)離差平方的算術(shù)平均數(shù)的平方根。它反映組內(nèi)個(gè)體間的離散程度

測量到分布程度的結(jié)果,原則上具有兩種性質(zhì)

為非負(fù)數(shù)值, 與測量資料具有相同單位

一個(gè)總量的標(biāo)準(zhǔn)差或一個(gè)隨機(jī)變量的標(biāo)準(zhǔn)差,及一個(gè)子集合樣品數(shù)的標(biāo)準(zhǔn)差之間,有所差別。

公式:

假設(shè)有一組數(shù)值X?,X?,X?,......Xn(皆為實(shí)數(shù)),其平均值算術(shù)平均值)為μ

標(biāo)準(zhǔn)差也被稱為標(biāo)準(zhǔn)偏差,或者實(shí)驗(yàn)標(biāo)準(zhǔn)差,公式:

 3)其它

簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量。一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值



四、均方誤差

 1)定義

均方誤差(mean-square error, MSE)是反映估計(jì)量與被估計(jì)量之間差異程度的一種度量。

設(shè)t是根據(jù)子樣確定的總體參數(shù)θ的一個(gè)估計(jì)量,(θ-t)2的數(shù)學(xué)期望,稱為估計(jì)量t的均方誤差。它等于σ2+b2,其中σ2與b分別是t的方差偏倚。


 2)名詞介紹

相合估計(jì)(或一致估計(jì))是在大樣本下評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn),在樣本量不是很多時(shí),人們更加傾向于基于小樣本的評(píng)價(jià)標(biāo)準(zhǔn),此時(shí),對無偏估計(jì)使用方差,對有偏估計(jì)使用均方誤差。

一般地,在樣本量一定時(shí),評(píng)價(jià)一個(gè)點(diǎn)估計(jì)的好壞標(biāo)準(zhǔn)使用的指標(biāo)總是點(diǎn)估計(jì)

與參數(shù)真值

的距離的函數(shù),最常用的函數(shù)是距離的平方,由于估計(jì)量

具有隨機(jī)性,可以對該函數(shù)求期望,這就是下式給出的均方誤差:


均方誤差是評(píng)價(jià)點(diǎn)估計(jì)的最一般的標(biāo)準(zhǔn),自然,我們希望估計(jì)的均方誤差越小越好,注意到

上式說明,均方誤差

由點(diǎn)估計(jì)的方差

與偏差

的平方兩部分組成。

如果?

是 θ 的無偏估計(jì),則

,此時(shí)用均方誤差評(píng)價(jià)點(diǎn)估計(jì)與用方差是完全一致的,這也說明了用方差考察無偏估計(jì)是合理的。

當(dāng)

不是 θ 的無偏估計(jì),就要看其均方誤差

,即不僅看方差大小,還要看其偏差大小,下面的例子說明在均方誤差的含義下,有些有偏估計(jì)優(yōu)于無偏估計(jì)。


 3)一致性最小的均方誤差估計(jì)

定義1

設(shè)有樣本

對待估參數(shù) θ,有一個(gè)估計(jì)類,稱

是該類中θ的一致最小均方誤差估計(jì),如果對該類估計(jì)中另外任意一個(gè)θ的估計(jì)

,在參數(shù)空間

上都有

使用情況:

一致最小均方誤差估計(jì)通常是在一個(gè)確定的估計(jì)類中進(jìn)行的,一致最小均方誤差估計(jì)一般是不存在的。

既然一致最小均方誤差估計(jì)一般是不存在的,人們通常就對估計(jì)提出一些合理性要求,如無偏性就是一個(gè)常見的合理性要求。?

一致最小方差無偏估計(jì)前面曾指出,均方誤差

由點(diǎn)估計(jì)的方差

與偏差

的平方兩部分組成,當(dāng)

是 θ 的無偏估計(jì)時(shí),均方誤差就簡化為方差,此時(shí)一致最小均方誤差估計(jì)就是一致最小方差無偏估計(jì)。


定義2 :

設(shè)

是 θ 的無偏估計(jì),如果對于任意一個(gè)θ的無偏估計(jì)

,在參數(shù)空間

上都有

則稱

是 θ 的一致最小方差無偏估計(jì),簡記為UMVUE。?



五、估計(jì)量

 1)定義

用來估計(jì)總體未知參數(shù)用的統(tǒng)計(jì)量。

統(tǒng)計(jì)學(xué)中,估計(jì)量是基于觀測數(shù)據(jù)計(jì)算一個(gè)已知量的估計(jì)值的法則:于是估計(jì)量(estimator)、被估量(estimand)和估計(jì)值(estimate)是有區(qū)別的。

估計(jì)值:當(dāng)經(jīng)測定的具體數(shù)值代入估計(jì)量時(shí),它就是一個(gè)具體的數(shù)值,稱為估計(jì)值,英文是estimator。


 2)舉例

設(shè)(X1,……,Xn)為來自總體X的樣本,(X1,……,Xn)為相應(yīng)的樣本值,θ是總體分布的未知參數(shù),θ∈Θ。

Θ?表示 θ 的取值范圍,稱 Θ 為參數(shù)空間。盡管 θ 是未知的,但它的參數(shù)空間 Θ 是事先知道的,為了估計(jì)未知參數(shù)θ,我們構(gòu)造一個(gè)統(tǒng)計(jì)量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 來估計(jì)θ的真值,稱h(X1,……,Xn)為θ的估計(jì)量。


假設(shè)存在一個(gè)固定的待估參數(shù)。那么"估計(jì)量"是樣本空間映射到樣本估計(jì)值的一個(gè)函數(shù)。

的一個(gè)估計(jì)量記為

。很容易用隨機(jī)變量的代數(shù)來闡述這個(gè)理論:因而如果用X來標(biāo)記對應(yīng)觀測數(shù)據(jù)的隨機(jī)變量,估計(jì)量(本身視為隨機(jī)變量)的符號(hào)表示為該隨機(jī)變量的函數(shù),

。對特定觀測數(shù)據(jù)集(即對于X=x)的估計(jì)值為一固定值

。通常使用簡化標(biāo)記,用

表示隨機(jī)變量,不過這會(huì)造成誤解。


個(gè)人理解:

目的:估計(jì)總體數(shù)據(jù)集 X 的分布情況,即?θ;

方法:從總體數(shù)據(jù)集 X 中抽取一組樣本 h,根據(jù) h 的分布以及θ?的取值范圍Θ?來估計(jì)總體數(shù)據(jù)集 X 的分布情況?θ。


 3)誤差

對于一個(gè)給定樣本x,估計(jì)量

的"誤差"定義為

其中

是待估參數(shù)。

注意誤差e不僅取決于估計(jì)量(估計(jì)公式或過程),還取決于樣本。


 4)均方誤差

估計(jì)量

的均方誤差被定義為誤差的平方的期望值,即為:

。

它用來顯示估計(jì)值的集合與被估計(jì)單個(gè)參數(shù)的平均差異。試想下面的類比:假設(shè)“參數(shù)”是靶子的靶心,“估計(jì)量”是向靶子射箭的過程,而每一支箭則是“估計(jì)值”(樣本)。那么,高均方誤差就意味著每一支箭離靶心的平均距離較大,低均方誤差則意味著每一支箭離靶心的平均距離較小。箭支可能集聚,也可能不。比如說,即使所有箭支都射中了同一個(gè)點(diǎn),同時(shí)卻嚴(yán)重偏離了靶子,均方誤差相對來說依然很大。然而要注意的是,如果均方誤差相對較小,箭支則更有可能集聚(而不是離散)。


 5)一致性

一致估計(jì)量序列是一列隨著序號(hào)(通常是樣本容量)無限增大時(shí)依概率收斂于被估量的估計(jì)量序列。換句話說,增加樣本容量增大了估計(jì)量接近總體參數(shù)的概率。

在數(shù)學(xué)上,一個(gè)估計(jì)量序列 {tn;n≥ 0} 是參數(shù)θ?的一致估計(jì)量當(dāng)且僅當(dāng)對于所有??> 0,不管多小,我們都有

;

就如,一個(gè)人不斷地拋硬幣,隨著次數(shù)的增多,任何一面出現(xiàn)的概率(機(jī)率)就會(huì)趨于0.5。那么這個(gè)0.5就是這個(gè)拋硬幣事件中任何一面出現(xiàn)概率的一致估計(jì)量,或者說一致估計(jì)值。



六、高斯函數(shù)、正態(tài)分布

 1)定義

格式

abc實(shí)數(shù)常數(shù),且a> 0;

c= 2的高斯函數(shù)是傅立葉變換特征函數(shù)。這就意味著高斯函數(shù)的傅立葉變換不僅僅是另一個(gè)高斯函數(shù),而且是進(jìn)行傅立葉變換的函數(shù)的標(biāo)量倍。


 2)積分

任意高斯函數(shù)的積分是:

另一種形式是:

其中f?必須是嚴(yán)格積分的積分收斂;


 3)正態(tài)分布

參見百科:https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

公式:

正態(tài)分布(Normal distribution),也稱“常態(tài)分布”,又名高斯分布(Gaussian distribution)

高斯函數(shù)是正態(tài)分布的密度函數(shù),根據(jù)中心極限定理它是復(fù)雜總和的有限概率分布;

隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的正態(tài)分布,記為N(μ,σ^2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。


定理:

由于一般的正態(tài)總體其圖像不一定關(guān)于y軸對稱,對于任一正態(tài)總體,其取值小于x的概率。只要會(huì)用它求正態(tài)總體在某個(gè)特定區(qū)間的概率即可。

為了便于描述和應(yīng)用,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。將一般正態(tài)分布轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。

服從標(biāo)準(zhǔn)正態(tài)分布,通過查標(biāo)準(zhǔn)正態(tài)分布表就可以直接計(jì)算出原正態(tài)分布的概率值。故該變換被稱為標(biāo)準(zhǔn)化變換。(標(biāo)準(zhǔn)正態(tài)分布表:標(biāo)準(zhǔn)正態(tài)分布表中列出了標(biāo)準(zhǔn)正態(tài)曲線下從-∞到X(當(dāng)前值)范圍內(nèi)的面積比例。)

定義:

隨機(jī)變量

服從一個(gè)位置參數(shù)為

、尺度參數(shù)為

的概率分布,且其概率密度函數(shù)

,則這個(gè)隨機(jī)變量就稱為正態(tài)隨機(jī)變量,正態(tài)隨機(jī)變量服從的分布就稱為正態(tài)分布,記作

,讀作

服從

,或

服從正態(tài)分布。

μ維隨機(jī)向量具有類似的概率規(guī)律時(shí),稱此隨機(jī)向量遵從多維正態(tài)分布。多元正態(tài)分布有很好的性質(zhì),例如,多元正態(tài)分布的邊緣分布仍為正態(tài)分布,它經(jīng)任何線性變換得到的隨機(jī)向量仍為多維正態(tài)分布,特別它的線性組合為一元正態(tài)分布。

多維正態(tài)分布參見“二維正態(tài)分布”。

標(biāo)準(zhǔn)正態(tài)分布:當(dāng)

時(shí),正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)分析方法分為四大類: 1、單純的數(shù)據(jù)加工方法 a.描述性統(tǒng)計(jì)分析(集中、離中趨勢分析和數(shù)據(jù)分布) b.相關(guān)性分...
    重生之魂閱讀 3,138評(píng)論 0 3
  • 考試說明 注重基礎(chǔ)知識(shí)和概念的理解,因此解題中的計(jì)算過程不會(huì)很復(fù)雜,但是會(huì)有推公式的過程。本課程的重點(diǎn)知識(shí)包括:貝...
    城市中迷途小書童閱讀 1,286評(píng)論 0 0
  • 1. 簡述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究兩個(gè)或兩個(gè)以上變量之間關(guān)系的方法。 廣義上說...
    安也也閱讀 9,199評(píng)論 0 3
  • 世上最愛我們的男人,是他! 也許他沒有出眾的外表, 也許他沒有正茂的年華, ...
    孫景升閱讀 207評(píng)論 0 3
  • 1)簡書ID Be_myself 2)打卡時(shí)長(打卡10天) 3)打卡日期(0919 0920 0922 0923...
    Be_myself閱讀 184評(píng)論 0 0

友情鏈接更多精彩內(nèi)容