? ??學(xué)過統(tǒng)計(jì)學(xué)的同學(xué)應(yīng)該對置信區(qū)間都有了解,置信區(qū)間又叫估計(jì)區(qū)間,是從概率來講某個(gè)隨機(jī)變量可能取的值的范圍。
那很多時(shí)候數(shù)據(jù)是不符合正態(tài)分布,或者是我們不知道樣本總體是否符合正態(tài)分布,但是我們又需要求取置信區(qū)間時(shí),就可以用到我們的今天的主角--在樂字節(jié)課堂上教的Bootstrap抽樣的方法。
Bootstrap是對樣本進(jìn)行有放回的抽樣,抽樣若干次(一般為1000次),每次抽樣的結(jié)果作為一個(gè)樣本點(diǎn),抽樣1000次,就會有1000個(gè)樣本點(diǎn),用這1000個(gè)點(diǎn)的分布作為樣本總體的分布,而這1000個(gè)點(diǎn)是大概率是服從正態(tài)分布的,只要服從正態(tài)分布就可以按照正態(tài)分布的公式求取置信區(qū)間。
那為什么這1000個(gè)點(diǎn)是服從正態(tài)分布的呢?依據(jù)的就是就是中心極限定理,關(guān)于中心極限定理的講解可以看《講講中心極限定理》。
接下來我們通過一個(gè)例子來看下,首先生成一個(gè)長尾分布的數(shù)據(jù):
from?scipy.stats?import?f
dfn,?dfd?=?45,?10
r?=?f.rvs(dfn,?dfd,?size=10000)
sns.distplot(r)

在實(shí)際業(yè)務(wù)中很多數(shù)據(jù)其實(shí)都是符合長尾分布的。然后我們對這個(gè)長尾分布的數(shù)據(jù)進(jìn)行Bootstrap抽樣,有放回的抽樣1000次,每次抽10000個(gè)樣本,最后得到1000個(gè)均值,這1000個(gè)均值的分布如下:
import?numpy?as?np
sample_mean?=?[]
for?n?in?range(1,1001):
????s?=?np.random.choice(r,size?=?10000).mean()
????sample_mean.append(s)

運(yùn)行上面的代碼得到如下結(jié)果:
可以看到這1000個(gè)均值是符合正態(tài)分布的,只要符合正態(tài)分布,那我們就可以利用正態(tài)分布的性質(zhì)對其進(jìn)行估算。
以上就是關(guān)于Bootstrap的一個(gè)簡單介紹,希望對你有用。
文章來自于樂字節(jié)
最后給大家推薦幾個(gè)b站超詳細(xì)的Java自學(xué)課:
Servlet入門教程BV1D5411373E
Vue、Vuejs教程,BV19V41177od
SpringBoot+Vue項(xiàng)目實(shí)戰(zhàn)BV1o64y117qQ