轉(zhuǎn)自:知乎 https://zhuanlan.zhihu.com/p/22907932
突然想到,在實(shí)際情況中,對(duì)于回歸模型
不難保證每維特征的獨(dú)立性,特征之間難免會(huì)存在共線性關(guān)系,而線性回歸中通常采用的最小二乘法是一種無偏估計(jì),會(huì)對(duì)結(jié)果造成偏差
在消除多重共線性的問題的時(shí)候,可以利用相關(guān)系數(shù)矩陣和方差擴(kuò)大因子來進(jìn)行識(shí)別,可以使用主成分分析(pca)和嶺回歸(ridge)來對(duì)多重共線性的問題進(jìn)行減弱或者消除。
1. 多元回歸的基本假定:
第一:對(duì)于擾動(dòng)項(xiàng)的假設(shè)為正態(tài)性,零均值,同方差,相互獨(dú)立
第二:對(duì)自變量的假定,解釋變量是確定型變量,不存在線性相關(guān)關(guān)系
第三:自變量與擾動(dòng)項(xiàng)不相關(guān)
2. 數(shù)據(jù)和多重共線性驗(yàn)證
(一) 如果不存在共線性問題的話,只用普通的最小二乘法即可
這里需要注意的是,為了提高處理效率和準(zhǔn)確率,常常我們會(huì)將數(shù)據(jù)標(biāo)準(zhǔn)化處理
比如變成均值為0,標(biāo)準(zhǔn)差為1的序列,這樣能夠使每個(gè)因子得到平等對(duì)待
(二)相關(guān)性矩陣
如果各個(gè)因子之間存在比較低的正相關(guān)或者負(fù)相關(guān)系數(shù),但不一定是多重共線性問題,那么問題不嚴(yán)重
(三)多重共線
多重共線表示變量之間的線性相關(guān)關(guān)系,多重共線性一般采用反證法

(四)方差擴(kuò)大因子
方差擴(kuò)大因子其實(shí)類似于相關(guān)系數(shù)矩陣,通過相關(guān)系數(shù)矩陣,我們只能大致看出存不存在多重共線性,但是通過方差擴(kuò)大因子VIF可以度量多重共線性的嚴(yán)重程度。

經(jīng)驗(yàn)表明,當(dāng)VIF>10,也就是R^2>0.9,就說明xi和其他變量之間有嚴(yán)重的多重共線性,且會(huì)影響最小二乘估計(jì)量。
三、解決多重共線性問題
(一)嶺回歸
最小二乘法對(duì)于參數(shù)的估計(jì)是無偏的,但是建立在很多基本假設(shè)之上,如果我們可以放寬一些條件,對(duì)于參數(shù)估計(jì)是有偏的,那么多重共線性問題就沒有那么嚴(yán)重了,損失了無偏性,但是帶來的是高的數(shù)值穩(wěn)定。
當(dāng)變量之間存在多重共線的時(shí)候,|X^TX|約定于0,矩陣的逆也及其不穩(wěn)定,導(dǎo)致最小二乘法對(duì)參數(shù)的估計(jì)偏差非常大,矩陣解決奇異性的成都就非常高。這時(shí)強(qiáng)制加上一個(gè)單位矩陣,那么矩陣就變得可逆了。

(二)主成分分析
如果因變量的個(gè)數(shù)比較多,彼此很可能存在多重共線性問題,觀測(cè)信息有一定程度上的信息重疊,這時(shí)希望用較少的幾個(gè)綜合變量來代替原來較多的變量,使得這幾個(gè)綜合變量之間彼此不相關(guān),但是盡可能地包含原有的信息。
pca---假設(shè)數(shù)據(jù)的數(shù)量為N,因子數(shù)量是n,首先求解幾個(gè)因子的協(xié)方差矩陣(n*n),對(duì)協(xié)方差矩陣求解特征值,特征向量,選出的特征向量最大的p個(gè)組成矩陣(n*p),再和原本的數(shù)據(jù)做乘法(N*n)
利用調(diào)整后的數(shù)據(jù)進(jìn)行回歸。