筆記:降維與主成分分析

1、降維的目的

1)數(shù)據(jù)壓縮
將數(shù)據(jù)從多維數(shù)據(jù)降低為低維數(shù)據(jù),從而減小數(shù)據(jù)的規(guī)模,并使用較少的計(jì)算機(jī)內(nèi)存或磁盤(pán)空間。在機(jī)器學(xué)習(xí)中,通過(guò)降維也可以加快算法計(jì)算。
2)可視化
通過(guò)降維可以減小數(shù)據(jù)的特征數(shù),從而可以分析組成數(shù)據(jù)的基本結(jié)構(gòu),方便可視化數(shù)據(jù)。但是,降維后新的特征所代表的含義需要我們依據(jù)情況自己分析。

2、主成分分析(PCA)

PCA是一種常見(jiàn)的降維方法。它是通過(guò)正交變換將原數(shù)據(jù)中線性相關(guān)的特征轉(zhuǎn)化為少數(shù)幾個(gè)線性無(wú)關(guān)的特征,這幾個(gè)線性無(wú)關(guān)的特征表示的變量稱為主成分。
2.1 主成分的幾何解釋
在選定主成分個(gè)數(shù)k后,我們的目的是選擇k個(gè)兩兩正交的基坐標(biāo)系,將樣本點(diǎn)向這k個(gè)坐標(biāo)分別進(jìn)行投影,使得所有樣本點(diǎn)在坐標(biāo)上的投影平方和最大(即樣本點(diǎn)距投影坐標(biāo)的距離—投影誤差的平方和最?。?。投影平方和越大,代表保留原始數(shù)據(jù)的信息成分越多。
2.3 主成分分析的協(xié)方差矩陣特征值分解法
設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。
1)算法流程

  • (1)將樣本的特征進(jìn)行規(guī)范化處理
  • (2)計(jì)算相關(guān)系數(shù)矩陣(規(guī)范化后的數(shù)據(jù)協(xié)方差矩陣和相關(guān)系數(shù)矩陣相等)的特征值λk和特征向量αk=(α1k2k...αmk)T。相關(guān)系數(shù)矩陣R與X矩陣關(guān)系如下:
    R=[r_{ij}]_{m×m}=\frac{1}{n-1}X^{T}X
  • (3)選擇累計(jì)方差貢獻(xiàn)率大于某一閾值的前K個(gè)特征值。
    數(shù)學(xué)上可以證明,樣本第k個(gè)主成分的方差與特征值λk相等,因此,累計(jì)方差貢獻(xiàn)率為前r個(gè)特征值之和與K個(gè)特征值之和的比值(r<=K)。
  • (4)每個(gè)特征值λk(k=1,2...K)對(duì)應(yīng)的特征向量αk進(jìn)行線性變換后的值稱為樣本的第k個(gè)主成分。y_{i}=\alpha _{i}\cdot x=\sum_{j=1}^{m}\alpha _{ji}x_{j} 2)因子負(fù)荷量
    主成分yi與變量xj與的相關(guān)系數(shù)ρ(yi,xj)也稱為因子負(fù)荷量。計(jì)算公式為:
    \rho (y_{i},x_{j})=\frac{\sqrt{\lambda_{i} }\alpha _{ji}}{\sqrt{\sigma _{jj}}}如果是規(guī)范化矩陣,則變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=%5Crho%20(y_%7Bi%7D%2Cx_%7Bj%7D)%3D%5Csqrt%7B%5Clambda_%7Bi%7D%20%7D%5Calpha%20_%7Bji%7D" alt="\rho (y_{i},x_{j})=\sqrt{\lambda_{i} }\alpha _{ji}" mathimg="1">
    K個(gè)主成分對(duì)原變量xj的貢獻(xiàn)率為:
    \nu _{j}=\sum_{i=1}^{K}\rho (y_{i},x_{j})^{2}
    2.4主成分分析的奇異值分解法
    設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。X每一列數(shù)據(jù)進(jìn)行了規(guī)范化處理。
    算法流程如下:
  • (1)構(gòu)造新的矩陣X'
    X^{'}= \frac{1}{\sqrt{n-1}}X
  • (2)依據(jù)主成分個(gè)數(shù)k對(duì)矩陣X'進(jìn)行截?cái)嗥娈愔捣纸?,得到?br> X^{'}≈UΣV^{T}
    其中,U為n×k矩陣,Σ為k×k對(duì)角矩陣,對(duì)角線元素為x'的k個(gè)奇異值,V為m×k矩陣。矩陣V的k列構(gòu)成k個(gè)樣本主成分。
  • (3)求樣本主成分Y(k×n矩陣,列向量表示轉(zhuǎn)換后的一個(gè)樣本)
    Y=V^{T}×X^{T}
    2.5 矩陣特征值分解和奇異值分解的比較
    1)矩陣A特征值分解表示A=QΣQ-1,其中Σ為對(duì)角線元素為A的特征值的對(duì)角矩陣,Q為相應(yīng)特征向量組成的矩陣。要求矩陣A必須為方陣?。?!
    2)如果A不是方陣,是一個(gè)n×m矩陣(n≠m)。那么A的奇異值分解為A=UΣVT,其中U為n×n的正交矩陣,V為m×m正交矩陣。Σ為一個(gè)n×m的矩陣。
    3)由于在主成分分析中,樣本特征的協(xié)方差矩陣為一個(gè)對(duì)稱陣,即是一個(gè)方陣,因此,可以通過(guò)兩種方式進(jìn)行求解。
    4)設(shè)X表示n×m矩陣,代表n個(gè)樣本、每個(gè)樣本是m維向量。X每一列數(shù)據(jù)進(jìn)行了規(guī)范化處理。主成分矩陣分解方法中使用協(xié)方差矩陣1/(n-1)XTX作為矩陣A,而奇異值分解方法利用1/(n-1)X作為矩陣A,要注意區(qū)分。
3、應(yīng)用主成分分析的建議

主成分分析主要應(yīng)用與降維和發(fā)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)關(guān)系,不要應(yīng)用主成分來(lái)解決數(shù)據(jù)模型的過(guò)擬合問(wèn)題。因?yàn)?,主成分丟失了原始數(shù)據(jù)的某些信息,而這些信息可能包含重要信息。解決過(guò)擬合用正則化方法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 西瓜書(shū)第10章講解的是降維和度量學(xué)習(xí)的相關(guān)內(nèi)容 image 維度 對(duì)于數(shù)組和Series而言,維度就是shape返...
    皮皮大閱讀 2,428評(píng)論 0 6
  • 轉(zhuǎn)自:主成分分析 - xiaoyu714543065的專欄 - 博客頻道 - CSDN.NET 問(wèn)題...
    horu閱讀 1,346評(píng)論 1 3
  • 主成分分析(PCA)是一種常用的無(wú)監(jiān)督學(xué)習(xí)方法,這一方法利用正交變換把由現(xiàn)行相關(guān)變量表示的觀測(cè)數(shù)據(jù)轉(zhuǎn)化為少數(shù)幾個(gè)由...
    rosyxiao閱讀 4,734評(píng)論 0 4
  • 一.判別分析降維 LDA降維和PCA的不同是LDA是有監(jiān)督的降維,其原理是將特征映射到低維上,原始數(shù)據(jù)的類別也...
    wlj1107閱讀 12,390評(píng)論 0 4
  • 主成分分析一個(gè)非監(jiān)督學(xué)習(xí)算法,主要用于數(shù)據(jù)降維,通過(guò)降維可以發(fā)現(xiàn)數(shù)據(jù)更容易理解的特征,其他作用也有可視化、降噪等。...
    Chuck_Hu閱讀 5,515評(píng)論 0 10

友情鏈接更多精彩內(nèi)容