1、降維的目的
1)數(shù)據(jù)壓縮
將數(shù)據(jù)從多維數(shù)據(jù)降低為低維數(shù)據(jù),從而減小數(shù)據(jù)的規(guī)模,并使用較少的計(jì)算機(jī)內(nèi)存或磁盤(pán)空間。在機(jī)器學(xué)習(xí)中,通過(guò)降維也可以加快算法計(jì)算。
2)可視化
通過(guò)降維可以減小數(shù)據(jù)的特征數(shù),從而可以分析組成數(shù)據(jù)的基本結(jié)構(gòu),方便可視化數(shù)據(jù)。但是,降維后新的特征所代表的含義需要我們依據(jù)情況自己分析。
2、主成分分析(PCA)
PCA是一種常見(jiàn)的降維方法。它是通過(guò)正交變換將原數(shù)據(jù)中線性相關(guān)的特征轉(zhuǎn)化為少數(shù)幾個(gè)線性無(wú)關(guān)的特征,這幾個(gè)線性無(wú)關(guān)的特征表示的變量稱為主成分。
2.1 主成分的幾何解釋
在選定主成分個(gè)數(shù)k后,我們的目的是選擇k個(gè)兩兩正交的基坐標(biāo)系,將樣本點(diǎn)向這k個(gè)坐標(biāo)分別進(jìn)行投影,使得所有樣本點(diǎn)在坐標(biāo)上的投影平方和最大(即樣本點(diǎn)距投影坐標(biāo)的距離—投影誤差的平方和最?。?。投影平方和越大,代表保留原始數(shù)據(jù)的信息成分越多。
2.3 主成分分析的協(xié)方差矩陣特征值分解法
設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。
1)算法流程
- (1)將樣本的特征進(jìn)行規(guī)范化處理
- (2)計(jì)算相關(guān)系數(shù)矩陣(規(guī)范化后的數(shù)據(jù)協(xié)方差矩陣和相關(guān)系數(shù)矩陣相等)的特征值λk和特征向量αk=(α1k,α2k...αmk)T。相關(guān)系數(shù)矩陣R與X矩陣關(guān)系如下:
- (3)選擇累計(jì)方差貢獻(xiàn)率大于某一閾值的前K個(gè)特征值。
數(shù)學(xué)上可以證明,樣本第k個(gè)主成分的方差與特征值λk相等,因此,累計(jì)方差貢獻(xiàn)率為前r個(gè)特征值之和與K個(gè)特征值之和的比值(r<=K)。 - (4)每個(gè)特征值λk(k=1,2...K)對(duì)應(yīng)的特征向量αk進(jìn)行線性變換后的值稱為樣本的第k個(gè)主成分。
2)因子負(fù)荷量
主成分yi與變量xj與的相關(guān)系數(shù)ρ(yi,xj)也稱為因子負(fù)荷量。計(jì)算公式為:
如果是規(guī)范化矩陣,則變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=%5Crho%20(y_%7Bi%7D%2Cx_%7Bj%7D)%3D%5Csqrt%7B%5Clambda_%7Bi%7D%20%7D%5Calpha%20_%7Bji%7D" alt="\rho (y_{i},x_{j})=\sqrt{\lambda_{i} }\alpha _{ji}" mathimg="1">
K個(gè)主成分對(duì)原變量xj的貢獻(xiàn)率為:
2.4主成分分析的奇異值分解法
設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。X每一列數(shù)據(jù)進(jìn)行了規(guī)范化處理。
算法流程如下: - (1)構(gòu)造新的矩陣X'
- (2)依據(jù)主成分個(gè)數(shù)k對(duì)矩陣X'進(jìn)行截?cái)嗥娈愔捣纸?,得到?br>
其中,U為n×k矩陣,Σ為k×k對(duì)角矩陣,對(duì)角線元素為x'的k個(gè)奇異值,V為m×k矩陣。矩陣V的k列構(gòu)成k個(gè)樣本主成分。 - (3)求樣本主成分Y(k×n矩陣,列向量表示轉(zhuǎn)換后的一個(gè)樣本)
2.5 矩陣特征值分解和奇異值分解的比較
1)矩陣A特征值分解表示A=QΣQ-1,其中Σ為對(duì)角線元素為A的特征值的對(duì)角矩陣,Q為相應(yīng)特征向量組成的矩陣。要求矩陣A必須為方陣?。?!
2)如果A不是方陣,是一個(gè)n×m矩陣(n≠m)。那么A的奇異值分解為A=UΣVT,其中U為n×n的正交矩陣,V為m×m正交矩陣。Σ為一個(gè)n×m的矩陣。
3)由于在主成分分析中,樣本特征的協(xié)方差矩陣為一個(gè)對(duì)稱陣,即是一個(gè)方陣,因此,可以通過(guò)兩種方式進(jìn)行求解。
4)設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。X每一列數(shù)據(jù)進(jìn)行了規(guī)范化處理。主成分矩陣分解方法中使用協(xié)方差矩陣1/(n-1)XTX作為矩陣A,而奇異值分解方法利用1/(n-1)X作為矩陣A,要注意區(qū)分。
3、應(yīng)用主成分分析的建議
主成分分析主要應(yīng)用與降維和發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)關(guān)系,不要應(yīng)用主成分來(lái)解決數(shù)據(jù)模型的過(guò)擬合問(wèn)題。因?yàn)?,主成分丟失了原始數(shù)據(jù)的某些信息,而這些信息可能包含重要信息。解決過(guò)擬合用正則化方法。