Variance in OLS estimator

OLS假設(shè)

  • y_i=\beta_0 + X_i^T \beta_1+\epsilon_i簡(jiǎn)寫為y_i=X_i^T\beta +\epsilon_i
    y=X\beta+\epsilon
    X為nxm的矩陣,n為樣本數(shù)量,m為變量數(shù)量+1,\beta為mx1的權(quán)重向量

  • \epsilon的期望為0: E[\epsilon|X] = 0,方差為E[\epsilon_j - \overline{\epsilon}] = \sigma^2

  • \epsilon這里是冗余參數(shù),需要有如下假設(shè):
    1、同方差性:E[(\epsilon_i-\overline\epsilon)^2|X] = \sigma^2即每次觀測(cè)的variance都一致,為\sigma^2,即homoscedasticity( [反義 Heteroscedasticity]):

    at each value of *x*, the *y*-value of the dots has about the same [variance]:

    2、\epsilon無自相關(guān)性:Cov(\epsilon_i,\epsilon_j) = 0,即不同觀測(cè)之間的error沒有線性關(guān)系(不一定獨(dú)立,獨(dú)立是充分非必要條件)(在某些特定的情況下,譬如時(shí)間序列估計(jì)中,有dependencies,serial correlation,則不成立,詳見GLS)

  • OLS estimator:
    residual of ith observation:r_i = y_i - x_i^Tb,b為\beta的candidate
    最小化sum of residual的estimator被稱之為 OLS estiamtor:\hat \beta = \arg \min_{\beta} S(b) = \arg \min_{\beta} \sum_{i=1}^N(y_i - x_i^T\beta)^2
    根據(jù)推導(dǎo),最后OLS estiamtor for \beta最終的解析解為:\hat{\beta}=\arg\min_S(b)=(X^TX)^{-1}X^Ty
    [推導(dǎo)見appendix A]

  • OLS estimator的性質(zhì)
    1、方差分解:
    SST(total)=SSE(error)+SSR(regression)
    R^2=1 - \frac {SSE}{SST}
    PS: 這里有時(shí)候被寫成Residual,有時(shí)候?qū)懗蒃rror,但其實(shí)error與residual是有點(diǎn)區(qū)別的(這里嚴(yán)格上來講是residual)
    error(disturbance)是觀測(cè)值與真實(shí)值(true)的偏差。(比如\epsilon_i=X_i-u,u為總體均值)
    residual是觀測(cè)值與估計(jì)值(estimated)的偏差。(比如r_i=X_i-\overline X,\overline X為樣本均值)

  • Orthogonal Projection view
    Y = X\hat \beta + \epsilon
    Y:n \times 1,每一行是一個(gè)observation的response
    \epsilon: n \times 1,每一行是一個(gè)observation的error項(xiàng)
    X:n \times p,也被叫做design matrix,每一行是特征向量的轉(zhuǎn)置x_i^T
    \beta : p \times 1,參數(shù)向量
    帶入\hat \beta得到:
    \hat Y = X\hat \beta = X(X^TX)^{-1}X^TY=PY
    P=X(X^TX)^{-1}X^T為稱為Projection matrix,維度為n \times n

估計(jì)值的方差:variance of ols estimator:

\hat{\beta}\beta(真值)的估計(jì)值,其值是function of datas,并非一個(gè)constant estimate,所以也可以看作是一個(gè)隨機(jī)變量,計(jì)算其mean 與 variance

  • 期望:E[\hat{\beta}]=\beta,即OLS estimator為\beta的無偏估計(jì)

  • 方差:Var(\hat{\beta}|X) = E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T]=\frac{\sigma^2}{X^TX},由于\sigma^2未知,我們通常用其樣本上的估計(jì)值來計(jì)算。


    PS0:
    \beta是一個(gè)m維向量,Var(\beta)是mxm的covariance matrix,對(duì)角線上的元素為每個(gè)beta的方差。


    PS1:
    其公式在直覺上也非常好理解,分子是模型預(yù)估y的\sigma^2,預(yù)估越準(zhǔn),residual越小,其值也越小,與estimator的var成正比。例如維度m=1,則對(duì)于Var(\beta_1),其分母為\sum_{i}^N((x_i-\overline{x})^2),即:1、樣本數(shù)量N越大,2、X分布越寬泛(variance大利于估計(jì),如果x全部集中在一點(diǎn),那么其值對(duì)y的估計(jì)沒有幫助),越利于估計(jì),所以與其值呈反比。(證明見[4],或者[2]中的Unbiasedness and variance of \hat{\beta}


    PS2:
    注意,這里conditioning on X其實(shí)可以消除,證明見[3]

  • 一種更直覺的計(jì)算方式[4]:對(duì)sample進(jìn)行bootstrap,獲得多個(gè)估計(jì)值,\hat{\beta_i},對(duì)這組變量計(jì)算variance即可獲得其variance的一個(gè)估計(jì)。

誤差的方差(Residual/Error Variance)[5](ie: variance of \epsilon or expectation of \hat{\sigma}^2)

根據(jù)定義 \epsilon \sim N(0,\sigma^2),\epsilon的variance為\sigma^2,但是我們無法知道\sigma^2的真實(shí)值。所以我們計(jì)算時(shí)會(huì)使用其估計(jì)值代替:\hat{\sigma}^2

  • 因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cepsilon_i%3D%5Chat%7By_i%7D%20-%20y_i" alt="\epsilon_i=\hat{y_i} - y_i" mathimg="1">,E[\epsilon]=0,根據(jù)方差的定義從樣本獲得\epsilon方差的估計(jì)值: \hat{\sigma}^2=\frac{1}{n-2}\sum_{i}^n(\hat{y_i} - y_i)^2

  • 再由推導(dǎo):E[\hat{\sigma}^2]=\frac{n-p}{n}\sigma^2,即其期望的bias隨n的增加而減小,所以\hat{\sigma}^2\sigma^2的一致性估計(jì),但不是無偏估計(jì)。

Heteroscedasticity異方差性

1、對(duì)于異方差性,需要用GLS來擬合。
2、其實(shí),我們也可以進(jìn)行針對(duì)性的分析與處理。比如在業(yè)務(wù)中也可以采取一些針對(duì)性的措施。譬如不僅僅只參考預(yù)估的均值,也將其方差考慮在內(nèi)。
3、異方差性狀況下誤差variance的估計(jì):直覺上處理,特征命中數(shù)量量越多,variance越小[6]。還有一些思路在之前的文章中有討論[7]

低估variance的影響

1、譬如在不均衡數(shù)據(jù)中對(duì)p(x| y =1)估計(jì)的問題:(此處1為數(shù)據(jù)量少的樣本,在之前文章有討論[8]以及[9],以及論文[10].)

  • estimator自身的方差很大。
    用樣本均值\overline{x}=\frac{1}{n}\sum(X_i)估計(jì)總體均值時(shí)雖然是無偏(unbiased)的E[\overline{x}]=E[u],但是其方差與樣本數(shù)量成反比,為var(\overline{x})=s^2/n。即樣本越小,這個(gè)estimator的variance就越大。estimator本身的variance太大,則本身就不有效(availability)【當(dāng)然,從嚴(yán)謹(jǐn)?shù)囊饬x上來講,應(yīng)該去計(jì)算在有限樣本條件下,是否能達(dá)到variance的最小值(minimum)[12]。這里我們跳出一下理論框架,直覺上理解一下:設(shè)想一下采集更多的樣本,我們就可以獲得更小的variance】
  • 系統(tǒng)性地低估少樣本數(shù)的數(shù)據(jù)本身dependent variable的方差:
    導(dǎo)致對(duì)X變量方差的估計(jì)偏?。篗LE估計(jì)分母為n,在n很小的時(shí)候會(huì)對(duì)variance低估。導(dǎo)致會(huì)對(duì)p(y=1)低估。直覺上的理解可以詳見[10]中的Parameter Estimation

2、直覺上,variance越大,越容易induce a wrong ranking

引申1 Linear Regression 中的 Uncertainty Estimate[7]

對(duì)于Linear Regression。
1、Homoscedasticity
\sigma^2是一致的,可以直接從樣本中獲取sigma的估計(jì)。
2、Heteroscedasticity
由于\sigma^2不是一致的,所以我們直覺上很容易想到可以同時(shí)建模conditional mean與conditional variance:p(\sigma^2| x)。[13][14]

引申2 Heteroscedasticity in Logistic Regression

由于Logit model的定義本身不包含error term \epsilon,所以Heteroscedasticity并無法在此定義。[15]

APPENDIX A

  • 先引出OLS estimator的幾個(gè)特性:
    residual: \hat r_i =y_i - \hat y_i= y_i - x_i^T \hat \beta
    1、\sum_i^n \hat r_i = 0
    2、\sum_i^n \hat r_i x_{ij}= 0,這里j為常數(shù)
    3、\sum_i^n \hat r_i \hat y_i= 0,可以通過上述兩個(gè)結(jié)論推廣
    一個(gè)簡(jiǎn)單的證明方法是凸函數(shù)最優(yōu)解的FOC
    即滿足:\frac {\partial S(\beta)}{\partial \beta}=\frac {\partial \sum_i^n (y_i-\beta_0-\beta_1x_1-...\beta_p x_p)^2}{\partial \beta} =0
    對(duì)\beta_0的偏導(dǎo)可得:\sum_i^n 2 \hat r_i (-1)= 0,除去常數(shù)得到第一個(gè)推論。
    對(duì)\beta_j求導(dǎo)可得:\sum_i^n 2 \hat r_i (-x_{ij}) = 0,除去常數(shù)得到第二個(gè)推論。
    由于\hat y_i=x_i^T \hat \beta,對(duì)式子進(jìn)行移項(xiàng),\beta_0\sum_i^n \hat r_i + \sum_j^p \hat \beta_j\sum_i^n 2 \hat r_i (x_{ij})=0,即可得\sum_i^n \hat r_i \hat y_i= 0,即第三個(gè)推論。

  • SST的decomposition推導(dǎo):
    SST=\sum (y_i-\overline y)^2 = \sum (y_i - \hat y_i + \hat y_i - \overline y)^2
    =\sum (y_i - \hat y_i )^2 +\sum (\hat y_i - \overline y)^2+ 2\sum(y_i - \hat y_i )(\hat y_i - \overline y)
    SST=SSE+SSR+ 2\sum \hat r_i \hat y_i + 2\overline y \sum \hat r_i
    根據(jù)上述特性的推論,可以得到后面兩項(xiàng)=0,所以SST=SSE+SSR
    類似推導(dǎo)見[16]

  • 換個(gè)角度理解SST分解:
    Var(y)=Var(\hat y + \epsilon)
    =Var(\hat y)+ Var(\epsilon)+Cov(\hat y ,\epsilon)
    由Homoscedasticity的定義,\epsilonX無關(guān)Cov(x_i,\epsilon)=0,而\hat yX線性加權(quán)和,根據(jù)Cov的性質(zhì)很容易得到Cov(\hat y ,\epsilon)=0

Refer:
[1]:https://link.springer.com/content/pdf/bbm%3A978-0-585-25657-3%2F1.pdf
[2]:相關(guān)證明:proof:https://en.wikipedia.org/wiki/Proofs_involving_ordinary_least_squares#Least_squares_estimator_for_.CE.B2
[3]:消除conditioning on X的證明:https://stats.stackexchange.com/questions/183986/derivation-of-ols-variance
[4]:變量維度m=1時(shí)的證明:
https://stats.stackexchange.com/questions/391254/standard-error-of-simple-linear-regression-coefficients
[5]:我們這里是residuals,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cbeta" alt="\beta" mathimg="1">的真實(shí)值我們不知道,所以我們用的是估計(jì)值與觀測(cè)值的偏差。
[6]:Ad Click Prediction: a View from the Trenches章節(jié)confidence estimate
[7]:其他Uncertainty Estimate的思路:http://m.itdecent.cn/p/7f6597ed66dc
[8]:非均衡數(shù)據(jù)分類,采樣:http://m.itdecent.cn/p/c2a543d68e71
[9]:Ctr校準(zhǔn):http://m.itdecent.cn/p/43403b2540e1
[10]:Logistic Regression in Rare Events Data
[11]:When is undersampling effective in unbalanced classification tasks?
[12]:Finite-sample efficient estimators:
https://en.wikipedia.org/wiki/Efficiency_(statistics)#:~:text=An%20efficient%20estimator%20is%20an,estimation%20errors%20of%20different%20magnitudes.
[13]:https://stats.stackexchange.com/questions/169499/heteroscedasticity-in-machine-learning-predictions
[14]:Heteroscedastic kernel ridge regression
[15]:Logit model相對(duì)于Linear的理解。Logit其實(shí)是對(duì)一個(gè)unobserved latent variable進(jìn)行建模:log-odds(logit(p) = log\frac{p}{1-p})與independent variable是線性關(guān)系。log-odds其實(shí)就是概率p的一個(gè)變換,將其從[0,1]的區(qū)間映射到實(shí)數(shù)集上R,這個(gè)函數(shù)本身隱含了p屬于[0,1)。類似地可見probit函數(shù)。
https://stats.stackexchange.com/questions/503092/heteroskedasticity-and-logistic-regression

[16]SST decomposition:https://en.wikipedia.org/wiki/Partition_of_sums_of_squares

[17] 關(guān)于variance of estimator更generalize的情況:https://stats.stackexchange.com/questions/60596/estimate-the-variance-of-mle
TODO fisher infomation:https://en.wikipedia.org/wiki/Fisher_information#:~:text=9%20References-,Definition,on%20the%20value%20of%20%CE%B8.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容