頻率學派相信概率是一個確定的值,討論概率的分布沒有意義。雖然沒有上帝視角,還不知道具體的概率值,但相信概率就是確定的,它就在那里。而數(shù)據(jù)是由這個確定的概率產(chǎn)生的,因此數(shù)據(jù)是隨機的。
現(xiàn)實中,我們往往可以獲取的是隨機的數(shù)據(jù),而對于產(chǎn)生數(shù)據(jù)的概率是不知道的。既然相信概率是確定的,也想求概率,那我們該如何做呢?
自然可以想到,要通過觀察概率產(chǎn)生的隨機數(shù)據(jù)去反向推導這個概率。舉個例子。比如我想知道一種疾病的生還概率,那么通過觀察10個人,我發(fā)現(xiàn)其中9個都死了,那我現(xiàn)在就說生還概率是10%(簡單粗暴)。
上面就是通過頻率計算來推出概率的簡單過程。但這樣的計算結果非常不精準,因為10個人太少了,不具有統(tǒng)計代表性。那我把觀察人數(shù)增大到100人、1000人...10萬人呢?結果又如何?
說到這里,你應該有一些sense了,隨著樣本容量不斷擴大到足夠大甚至無窮大時,這個統(tǒng)計結果才有意義。也就是說,頻率學派所說的概率表示的是事件發(fā)生頻率的極限值。當重復試驗的次數(shù)趨近無窮大時,事件發(fā)生的頻率會收斂到真實的概率之上。
看到這里或許你會提問,如果觀測樣本有限,那真實的概率還會精準嗎?
答案是不一定。仍用上面的例子,假如我們安排了100組進行測試,每組100人,那么通過這100組所得到的概率可能都是不一樣的,有的或許接近真值,有的或許偏離真值,而這都是隨機的,完全取決于這組的數(shù)據(jù)是什么樣的。這里所說概率可能不一樣是因為有限的隨機數(shù)據(jù)導致的,這個鍋不應該由概率來背,誰讓你數(shù)據(jù)量不夠呢,真實的概率還是確定的。
為此,頻率學派使用置信區(qū)間來度量隨機樣本的估計值和真實值之間的偏差。就是說100組的置信區(qū)間里面有多少個是包括了真實值的。