91精品国产乱码,噜噜噜噜一区

OLS假設(shè)

$y_i=\beta_0 + X_i^T \beta_1+\epsilon_i$ 簡(jiǎn)寫為 $y_i=X_i^T\beta +\epsilon_i$
$y=X\beta+\epsilon$
$X$ 為nxm的矩陣，n為樣本數(shù)量，m為變量數(shù)量+1， $\beta$ 為mx1的權(quán)重向量
$\epsilon$ 的期望為0： $E[\epsilon|X] = 0$ ，方差為 $E[\epsilon_j - \overline{\epsilon}] = \sigma^2$
$\epsilon$ 這里是冗余參數(shù)，需要有如下假設(shè)：
1、同方差性： $E[(\epsilon_i-\overline\epsilon)^2|X] = \sigma^2$ 即每次觀測(cè)的variance都一致，為 $\sigma^2$ ，即homoscedasticity( [反義 Heteroscedasticity])：

at each value of *x*, the *y*-value of the dots has about the same [variance]：

2、 $\epsilon$ 無自相關(guān)性： $Cov(\epsilon_i,\epsilon_j) = 0$ ，即不同觀測(cè)之間的error沒有線性關(guān)系（不一定獨(dú)立，獨(dú)立是充分非必要條件）（在某些特定的情況下，譬如時(shí)間序列估計(jì)中，有dependencies，serial correlation，則不成立，詳見GLS）

OLS estimator：
residual of ith observation: $r_i = y_i - x_i^Tb$ ，b為 $\beta$ 的candidate
最小化sum of residual的estimator被稱之為 OLS estiamtor： $\hat \beta = \arg \min_{\beta} S(b) = \arg \min_{\beta} \sum_{i=1}^N(y_i - x_i^T\beta)^2$
根據(jù)推導(dǎo)，最后OLS estiamtor for $\beta$ 最終的解析解為： $\hat{\beta}=\arg\min_S(b)=(X^TX)^{-1}X^Ty$
[推導(dǎo)見appendix A]
OLS estimator的性質(zhì)
1、方差分解：
$SST(total)=SSE(error)+SSR(regression)$
$R^2=1 - \frac {SSE}{SST}$
PS: 這里有時(shí)候被寫成Residual，有時(shí)候?qū)懗蒃rror，但其實(shí)error與residual是有點(diǎn)區(qū)別的（這里嚴(yán)格上來講是residual）
error（disturbance）是觀測(cè)值與真實(shí)值(true)的偏差。(比如 $\epsilon_i=X_i-u$ ，u為總體均值)
residual是觀測(cè)值與估計(jì)值（estimated）的偏差。(比如 $r_i=X_i-\overline X$ ， $\overline X$ 為樣本均值)
Orthogonal Projection view
$Y = X\hat \beta + \epsilon$
$Y:n \times 1$ ，每一行是一個(gè)observation的response
$\epsilon: n \times 1$ ，每一行是一個(gè)observation的error項(xiàng)
$X:n \times p$ ，也被叫做design matrix，每一行是特征向量的轉(zhuǎn)置 $x_i^T$
$\beta : p \times 1$ ，參數(shù)向量
帶入 $\hat \beta$ 得到：
$\hat Y = X\hat \beta = X(X^TX)^{-1}X^TY=PY$
$P=X(X^TX)^{-1}X^T$ 為稱為Projection matrix，維度為 $n \times n$

估計(jì)值的方差：variance of ols estimator:

$\hat{\beta}$ 為 $\beta$ （真值）的估計(jì)值，其值是function of datas，并非一個(gè)constant estimate，所以也可以看作是一個(gè)隨機(jī)變量，計(jì)算其mean 與 variance

期望： $E[\hat{\beta}]=\beta$ ，即OLS estimator為\beta的無偏估計(jì)
方差： $Var(\hat{\beta}|X) = E[(\hat{\beta}-\beta)(\hat{\beta}-\beta)^T]=\frac{\sigma^2}{X^TX}$ ，由于 $\sigma^2$ 未知，我們通常用其樣本上的估計(jì)值來計(jì)算。

PS0:
$\beta$ 是一個(gè)m維向量， $Var(\beta)$ 是mxm的covariance matrix，對(duì)角線上的元素為每個(gè)beta的方差。

PS1:
其公式在直覺上也非常好理解，分子是模型預(yù)估y的 $\sigma^2$ ，預(yù)估越準(zhǔn)，residual越小，其值也越小，與estimator的var成正比。例如維度m=1，則對(duì)于 $Var(\beta_1)$ ，其分母為 $\sum_{i}^N((x_i-\overline{x})^2)$ ，即：1、樣本數(shù)量 $N$ 越大，2、X分布越寬泛（variance大利于估計(jì)，如果x全部集中在一點(diǎn)，那么其值對(duì)y的估計(jì)沒有幫助），越利于估計(jì)，所以與其值呈反比。（證明見[4]，或者[2]中的Unbiasedness and variance of $\hat{\beta}$ ）

PS2:
注意，這里conditioning on $X$ 其實(shí)可以消除，證明見[3]
一種更直覺的計(jì)算方式[4]：對(duì)sample進(jìn)行bootstrap，獲得多個(gè)估計(jì)值， $\hat{\beta_i}$ ，對(duì)這組變量計(jì)算variance即可獲得其variance的一個(gè)估計(jì)。

誤差的方差(Residual/Error Variance)[5](ie: variance of $\epsilon$ or expectation of $\hat{\sigma}^2$ )

根據(jù)定義 $\epsilon \sim N(0,\sigma^2)$ ， $\epsilon$ 的variance為 $\sigma^2$ ，但是我們無法知道 $\sigma^2$ 的真實(shí)值。所以我們計(jì)算時(shí)會(huì)使用其估計(jì)值代替： $\hat{\sigma}^2$

因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cepsilon_i%3D%5Chat%7By_i%7D%20-%20y_i" alt="\epsilon_i=\hat{y_i} - y_i" mathimg="1">， $E[\epsilon]=0$ ，根據(jù)方差的定義從樣本獲得 $\epsilon$ 方差的估計(jì)值： $\hat{\sigma}^2=\frac{1}{n-2}\sum_{i}^n(\hat{y_i} - y_i)^2$
再由推導(dǎo)： $E[\hat{\sigma}^2]=\frac{n-p}{n}\sigma^2$ ，即其期望的bias隨n的增加而減小，所以 $\hat{\sigma}^2$ 為 $\sigma^2$ 的一致性估計(jì)，但不是無偏估計(jì)。

Heteroscedasticity異方差性

1、對(duì)于異方差性，需要用GLS來擬合。
2、其實(shí)，我們也可以進(jìn)行針對(duì)性的分析與處理。比如在業(yè)務(wù)中也可以采取一些針對(duì)性的措施。譬如不僅僅只參考預(yù)估的均值，也將其方差考慮在內(nèi)。
3、異方差性狀況下誤差variance的估計(jì)：直覺上處理，特征命中數(shù)量量越多，variance越小[6]。還有一些思路在之前的文章中有討論[7]

低估variance的影響

1、譬如在不均衡數(shù)據(jù)中對(duì)p(x| y =1)估計(jì)的問題：（此處1為數(shù)據(jù)量少的樣本，在之前文章有討論[8]以及[9]，以及論文[10].）

estimator自身的方差很大。
用樣本均值 $\overline{x}=\frac{1}{n}\sum(X_i)$ 估計(jì)總體均值時(shí)雖然是無偏（unbiased）的 $E[\overline{x}]=E[u]$ ，但是其方差與樣本數(shù)量成反比，為 $var(\overline{x})=s^2/n$ 。即樣本越小，這個(gè)estimator的variance就越大。estimator本身的variance太大，則本身就不有效（availability）【當(dāng)然，從嚴(yán)謹(jǐn)?shù)囊饬x上來講，應(yīng)該去計(jì)算在有限樣本條件下，是否能達(dá)到variance的最小值（minimum）[12]。這里我們跳出一下理論框架，直覺上理解一下：設(shè)想一下采集更多的樣本，我們就可以獲得更小的variance】
系統(tǒng)性地低估少樣本數(shù)的數(shù)據(jù)本身dependent variable的方差：
導(dǎo)致對(duì) $X$ 變量方差的估計(jì)偏?。篗LE估計(jì)分母為n，在n很小的時(shí)候會(huì)對(duì)variance低估。導(dǎo)致會(huì)對(duì)p(y=1)低估。直覺上的理解可以詳見[10]中的Parameter Estimation

2、直覺上，variance越大，越容易induce a wrong ranking

引申1 Linear Regression 中的 Uncertainty Estimate[7]

對(duì)于Linear Regression。
1、Homoscedasticity
$\sigma^2$ 是一致的，可以直接從樣本中獲取sigma的估計(jì)。
2、Heteroscedasticity
由于 $\sigma^2$ 不是一致的，所以我們直覺上很容易想到可以同時(shí)建模conditional mean與conditional variance： $p(\sigma^2| x)$ 。[13][14]

引申2 Heteroscedasticity in Logistic Regression

由于Logit model的定義本身不包含error term $\epsilon$ ，所以Heteroscedasticity并無法在此定義。[15]

APPENDIX A

先引出OLS estimator的幾個(gè)特性：
residual： $\hat r_i =y_i - \hat y_i= y_i - x_i^T \hat \beta$
1、 $\sum_i^n \hat r_i = 0$
2、 $\sum_i^n \hat r_i x_{ij}= 0$ ，這里 $j$ 為常數(shù)
3、 $\sum_i^n \hat r_i \hat y_i= 0$ ，可以通過上述兩個(gè)結(jié)論推廣
一個(gè)簡(jiǎn)單的證明方法是凸函數(shù)最優(yōu)解的FOC
即滿足： $\frac {\partial S(\beta)}{\partial \beta}=\frac {\partial \sum_i^n (y_i-\beta_0-\beta_1x_1-...\beta_p x_p)^2}{\partial \beta} =0$
對(duì) $\beta_0$ 的偏導(dǎo)可得： $\sum_i^n 2 \hat r_i (-1)= 0$ ，除去常數(shù)得到第一個(gè)推論。
對(duì) $\beta_j$ 求導(dǎo)可得： $\sum_i^n 2 \hat r_i (-x_{ij}) = 0$ ，除去常數(shù)得到第二個(gè)推論。
由于 $\hat y_i=x_i^T \hat \beta$ ，對(duì)式子進(jìn)行移項(xiàng)， $\beta_0\sum_i^n \hat r_i + \sum_j^p \hat \beta_j\sum_i^n 2 \hat r_i (x_{ij})=0$ ，即可得 $\sum_i^n \hat r_i \hat y_i= 0$ ，即第三個(gè)推論。
SST的decomposition推導(dǎo)：
SST= $\sum (y_i-\overline y)^2 = \sum (y_i - \hat y_i + \hat y_i - \overline y)^2$
$=\sum (y_i - \hat y_i )^2 +\sum (\hat y_i - \overline y)^2+ 2\sum(y_i - \hat y_i )(\hat y_i - \overline y)$
$SST=SSE+SSR+ 2\sum \hat r_i \hat y_i + 2\overline y \sum \hat r_i$
根據(jù)上述特性的推論，可以得到后面兩項(xiàng)=0，所以 $SST=SSE+SSR$
類似推導(dǎo)見[16]
換個(gè)角度理解SST分解：
$Var(y)=Var(\hat y + \epsilon)$
$=Var(\hat y)+ Var(\epsilon)+Cov(\hat y ,\epsilon)$
由Homoscedasticity的定義， $\epsilon$ 與 $X$ 無關(guān) $Cov(x_i,\epsilon)=0$ ，而 $\hat y$ 是 $X$ 線性加權(quán)和，根據(jù)Cov的性質(zhì)很容易得到 $Cov(\hat y ,\epsilon)=0$

Refer：
[1]:https://link.springer.com/content/pdf/bbm%3A978-0-585-25657-3%2F1.pdf
[2]:相關(guān)證明：proof:https://en.wikipedia.org/wiki/Proofs_involving_ordinary_least_squares#Least_squares_estimator_for_.CE.B2
[3]:消除conditioning on X的證明：https://stats.stackexchange.com/questions/183986/derivation-of-ols-variance
[4]:變量維度m=1時(shí)的證明：
https://stats.stackexchange.com/questions/391254/standard-error-of-simple-linear-regression-coefficients
[5]:我們這里是residuals，因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cbeta" alt="\beta" mathimg="1">的真實(shí)值我們不知道，所以我們用的是估計(jì)值與觀測(cè)值的偏差。
[6]:Ad Click Prediction: a View from the Trenches章節(jié)confidence estimate
[7]:其他Uncertainty Estimate的思路：http://m.itdecent.cn/p/7f6597ed66dc
[8]:非均衡數(shù)據(jù)分類，采樣：http://m.itdecent.cn/p/c2a543d68e71
[9]:Ctr校準(zhǔn)：http://m.itdecent.cn/p/43403b2540e1
[10]:Logistic Regression in Rare Events Data
[11]:When is undersampling effective in unbalanced classification tasks?
[12]:Finite-sample efficient estimators:
https://en.wikipedia.org/wiki/Efficiency_(statistics)#:~:text=An%20efficient%20estimator%20is%20an,estimation%20errors%20of%20different%20magnitudes.
[13]:https://stats.stackexchange.com/questions/169499/heteroscedasticity-in-machine-learning-predictions
[14]:Heteroscedastic kernel ridge regression
[15]:Logit model相對(duì)于Linear的理解。Logit其實(shí)是對(duì)一個(gè)unobserved latent variable進(jìn)行建模：log-odds（ $logit(p) = log\frac{p}{1-p}$ ）與independent variable是線性關(guān)系。log-odds其實(shí)就是概率p的一個(gè)變換，將其從 $[0,1]$ 的區(qū)間映射到實(shí)數(shù)集上 $R$ ，這個(gè)函數(shù)本身隱含了p屬于 $[0,1)$ 。類似地可見probit函數(shù)。
https://stats.stackexchange.com/questions/503092/heteroskedasticity-and-logistic-regression