統(tǒng)計(jì)學(xué)完全教程,原著名為all of statistics learning,作者是Larry Wasserman。這本書用精簡(jiǎn)的語言講述了統(tǒng)計(jì)學(xué)大部分知識(shí),對(duì)統(tǒng)計(jì)學(xué)初學(xué)者來講是一本非常好的入門教材。
首先列出本書的目錄:引用
譯者前言
原書序
第1章 概率
第2章 隨機(jī)變量
第3章 數(shù)學(xué)期望
第4章 不等式
第5章 隨機(jī)變量的收斂
第6章 模型、統(tǒng)計(jì)推斷與學(xué)習(xí)
第7章 CDF和統(tǒng)計(jì)泛函的估計(jì)
第8章 Bootstrap方法
第9章 參數(shù)推斷
第10章 假設(shè)檢驗(yàn)和p值
第11章 貝葉斯推斷
第12章 統(tǒng)計(jì)決策理論
第13章 線性回歸和Logistic回歸
第14章 多變量模型
第15章 獨(dú)立性推斷
第16章 因果推斷
第17章 有向圖與條件獨(dú)立性
第18章 無向圖
第19章 對(duì)數(shù)線性模型
第20章 非參數(shù)曲線估計(jì)
第21章 正交函數(shù)光滑法
第22章 分類
第23章 重溫概率:隨機(jī)過程
第24章 模擬方法
第一章 概率
所謂溫故而知新,這一章內(nèi)容非?;A(chǔ),但是重讀一遍仍然有很多收獲。
1. 樣本空間中的點(diǎn)稱為樣本點(diǎn),樣本空間的子集是事件,樣本空間和事件的舉例大家耳熟能詳,這里不再舉例。
重點(diǎn)掌握:
- 對(duì)一個(gè)觀察對(duì)象,如拋硬幣,如何描述樣本空間和事件。
- 事件與事件之間的關(guān)系,包括交集(樣本點(diǎn)屬于集合A且屬集合于B)、并集(樣本點(diǎn)屬于集合A或?qū)儆诩螧)、余集(非集合A)、包含(集合A的元素都包含在集合B中)、集合差、零事件(永不為真)、必然事件(永遠(yuǎn)為真)、互斥(互不相容,不相交)、
- 集合序列有單調(diào)遞增序列,單調(diào)遞減序列。
2. 概率·P
概率是一個(gè)函數(shù),是對(duì)每一個(gè)事件的賦值,這個(gè)賦值必須滿足三條公理:1 任意一事件A的概率值大于0。 2 全樣本空間概率為1。3 若事件兩兩互斥,則全部事件并集的概率等于對(duì)每個(gè)事件概率的求和。
對(duì)概率的理解大致分為兩種:
第一種是認(rèn)為概率表示在重復(fù)試驗(yàn)中事件A出現(xiàn)次數(shù)的最終比例,
第二種是認(rèn)為概率度量觀察者對(duì)A為真的信度,即可信度解釋。
這兩種解釋在統(tǒng)計(jì)推斷中有很大不同,并且派生出了兩個(gè)學(xué)派:頻率學(xué)派和貝葉斯學(xué)派。
3. 有限樣本空間上的概率
有限樣本空間上,若每種結(jié)果都是等可能的,那么P(A)=A元素?cái)?shù)目/樣本空間的元素?cái)?shù)目,這個(gè)式子稱為均勻概率分布
4. 獨(dú)立事件
A、B獨(dú)立,則AB同時(shí)發(fā)生的概率等于:A發(fā)生的概率與B發(fā)生的概率的乘積,P(AB)=P(A)*P(B)
5. 條件概率
定義為:在B發(fā)生的條件下,A發(fā)生的概率。這個(gè)式子可以認(rèn)為是A、B同時(shí)發(fā)生次數(shù)占B發(fā)生次數(shù)的比例。
一般,B發(fā)生的條件下A發(fā)生的概率 與 A發(fā)生的條件下B發(fā)生的概率 不能混為一談。
如示例圖(手寫的,請(qǐng)見諒 )

6. 貝葉斯理論
- 全概率公式:對(duì)復(fù)雜問題分解,求其各個(gè)原因發(fā)生條件下概率再求和。P(B)=P(B|A1)+P(B|A2)
- 貝葉斯公式:結(jié)果已經(jīng)發(fā)生的條件下,尋找各原因發(fā)生的概率,關(guān)于這部分有很多有趣的例題,大家可以百度后去做一做。
第二章 隨機(jī)變量
1. 隨機(jī)變量:將事件、樣本空間同數(shù)據(jù)聯(lián)系起來
隨機(jī)變量是映射:該映射對(duì)每一個(gè)輸出樣本點(diǎn)(或說事件)賦予實(shí)值,例如拋十次硬幣,用隨機(jī)變量X表示正面出現(xiàn)的次數(shù),即事件A為正正反反反反正正反反,則X(A)=4
2. 隨機(jī)變量的分布函數(shù)和概率函數(shù)
- 累積分布函數(shù) (注:公式太難打了,偷個(gè)懶,不寫公式只寫概念的含義),又稱CDF,CDF包含了隨機(jī)變量所有的信息,有時(shí)用F表示。累計(jì)分布函數(shù)具有右連續(xù),非減,規(guī)范性的性質(zhì)。其中規(guī)范性的意思是隨機(jī)變量值x趨于負(fù)無窮時(shí)累積分布函數(shù)對(duì)應(yīng)0值,隨機(jī)變量值x趨于正無窮時(shí)累計(jì)分布函數(shù)對(duì)應(yīng)1值。
-
概率密度函數(shù),定義區(qū)分離散的、連續(xù)的。
對(duì)離散的隨機(jī)變量,概率函數(shù)或概率密度函數(shù)是隨機(jī)變量概率值得分布函數(shù),隨機(jī)變量CDF等于概率密度函數(shù)從負(fù)無窮到該隨機(jī)變量的求和;
對(duì)連續(xù)的隨機(jī)變量,符合f大于0,在實(shí)數(shù)域積分等于1的函數(shù)稱為概率密度函數(shù)。概率密度函數(shù)(PDF)是累積分布函數(shù)(CDF)可微時(shí)的導(dǎo)數(shù)。
連續(xù)函數(shù)的概率密度函數(shù),對(duì)任意具體隨機(jī)變量值其概率為0,
計(jì)算連續(xù)隨機(jī)變量的概率,需要對(duì)概率密度函數(shù)求積分
連續(xù)情況下,PDF可以大于1,但離散時(shí)不會(huì)。
3. 一些重要的隨機(jī)變量(認(rèn)識(shí)他們的英文名字還挺重要的)
1. 離散型
-
單點(diǎn)分布
圖片發(fā)自簡(jiǎn)書App 離散均勻分布
伯努利分布 X~Bernoulli(p)
X表示拋硬幣的結(jié)果,0或1(正面或反面)二項(xiàng)分布 X~Binomial(n,p)
拋n次硬幣,X表示出現(xiàn)正面的次數(shù)幾何分布 X~Geom(p)
拋一枚硬幣直到出現(xiàn)一次正面為止所需要拋的次數(shù)泊松分布X~poisson(p)
泊松分布常用于罕見事件,如放射性元素和交通事故
2. 連續(xù)型
- 均勻分布X~Uniform(a,b)
- 正態(tài)(高斯)分布X~N(μ,δ平方)
- 指數(shù)分布X~Exp(β)
用于電子元件壽命和兩次罕見事件之間的等待時(shí)間 - 伽馬分布X~Γ(α)
- β分布X~Beta(α,β)
- Χ^2分布
