線性回歸中的共線性問題

轉(zhuǎn)自:知乎 https://zhuanlan.zhihu.com/p/22907932

突然想到,在實(shí)際情況中,對(duì)于回歸模型

不難保證每維特征的獨(dú)立性,特征之間難免會(huì)存在共線性關(guān)系,而線性回歸中通常采用的最小二乘法是一種無偏估計(jì),會(huì)對(duì)結(jié)果造成偏差

在消除多重共線性的問題的時(shí)候,可以利用相關(guān)系數(shù)矩陣和方差擴(kuò)大因子來進(jìn)行識(shí)別,可以使用主成分分析(pca)和嶺回歸(ridge)來對(duì)多重共線性的問題進(jìn)行減弱或者消除。

1. 多元回歸的基本假定:

第一:對(duì)于擾動(dòng)項(xiàng)的假設(shè)為正態(tài)性,零均值,同方差,相互獨(dú)立

第二:對(duì)自變量的假定,解釋變量是確定型變量,不存在線性相關(guān)關(guān)系

第三:自變量與擾動(dòng)項(xiàng)不相關(guān)

2. 數(shù)據(jù)和多重共線性驗(yàn)證

(一) 如果不存在共線性問題的話,只用普通的最小二乘法即可

這里需要注意的是,為了提高處理效率和準(zhǔn)確率,常常我們會(huì)將數(shù)據(jù)標(biāo)準(zhǔn)化處理

比如變成均值為0,標(biāo)準(zhǔn)差為1的序列,這樣能夠使每個(gè)因子得到平等對(duì)待


(二)相關(guān)性矩陣

如果各個(gè)因子之間存在比較低的正相關(guān)或者負(fù)相關(guān)系數(shù),但不一定是多重共線性問題,那么問題不嚴(yán)重

(三)多重共線

多重共線表示變量之間的線性相關(guān)關(guān)系,多重共線性一般采用反證法

共線性理論證明

(四)方差擴(kuò)大因子

方差擴(kuò)大因子其實(shí)類似于相關(guān)系數(shù)矩陣,通過相關(guān)系數(shù)矩陣,我們只能大致看出存不存在多重共線性,但是通過方差擴(kuò)大因子VIF可以度量多重共線性的嚴(yán)重程度。

經(jīng)驗(yàn)表明,當(dāng)VIF>10,也就是R^2>0.9,就說明xi和其他變量之間有嚴(yán)重的多重共線性,且會(huì)影響最小二乘估計(jì)量。

三、解決多重共線性問題

(一)嶺回歸

最小二乘法對(duì)于參數(shù)的估計(jì)是無偏的,但是建立在很多基本假設(shè)之上,如果我們可以放寬一些條件,對(duì)于參數(shù)估計(jì)是有偏的,那么多重共線性問題就沒有那么嚴(yán)重了,損失了無偏性,但是帶來的是高的數(shù)值穩(wěn)定。

當(dāng)變量之間存在多重共線的時(shí)候,|X^TX|約定于0,矩陣的逆也及其不穩(wěn)定,導(dǎo)致最小二乘法對(duì)參數(shù)的估計(jì)偏差非常大,矩陣解決奇異性的成都就非常高。這時(shí)強(qiáng)制加上一個(gè)單位矩陣,那么矩陣就變得可逆了。

加上懲罰項(xiàng),正則化

(二)主成分分析

如果因變量的個(gè)數(shù)比較多,彼此很可能存在多重共線性問題,觀測(cè)信息有一定程度上的信息重疊,這時(shí)希望用較少的幾個(gè)綜合變量來代替原來較多的變量,使得這幾個(gè)綜合變量之間彼此不相關(guān),但是盡可能地包含原有的信息。

pca---假設(shè)數(shù)據(jù)的數(shù)量為N,因子數(shù)量是n,首先求解幾個(gè)因子的協(xié)方差矩陣(n*n),對(duì)協(xié)方差矩陣求解特征值,特征向量,選出的特征向量最大的p個(gè)組成矩陣(n*p),再和原本的數(shù)據(jù)做乘法(N*n)


利用調(diào)整后的數(shù)據(jù)進(jìn)行回歸。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容