outline
- 概念
- 預(yù)處理
- 特征選擇
- 降維
概念
數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成,一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體
屬性(attribute)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。屬性向量(或特征向量)是用來(lái)描述一個(gè)給定對(duì)象的一組屬性。
屬性的分類:
- 標(biāo)稱屬性(nominal attribute)
- 二元屬性(binary attribute)
- 序數(shù)屬性(ordinal attribute)--- 常量表中的某個(gè)值
- 數(shù)值屬性(numerical attribute)= 離散屬性 + 連續(xù)屬性
數(shù)據(jù)清洗
清洗標(biāo)注數(shù)據(jù),主要是數(shù)據(jù)采樣和樣本過(guò)濾
數(shù)據(jù)增強(qiáng)( Data Augmentation)
數(shù)據(jù)增強(qiáng)是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加
如CV領(lǐng)域中的圖像增廣技術(shù)
預(yù)處理
缺失值的處理
(1)丟棄
(2)均值
(3)上下數(shù)據(jù)填充
(4)插值法 線性插值
(5)隨機(jī)森林?jǐn)M合
標(biāo)準(zhǔn)化和歸一化
標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),使每個(gè)特征中的數(shù)值平均變?yōu)?(將每個(gè)特征的值都減掉原始資料中該特征的平均)、標(biāo)準(zhǔn)差變?yōu)?
基于正態(tài)分布假設(shè)
標(biāo)準(zhǔn)化后可能為負(fù)
(X-X_mean)/std歸一化
對(duì)每個(gè)樣本計(jì)算其p-范數(shù),再對(duì)每個(gè)元素除以該范數(shù),這使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1。-
區(qū)間縮放法
常見(jiàn)的一種為利用兩個(gè)最值進(jìn)行縮放
image.png
具有加速收斂的作用,原因如下圖:
clipboard.png
可以使用sklearn中的preproccessing庫(kù)來(lái)進(jìn)行數(shù)據(jù)預(yù)處理
特征選擇
定義: 從給定的特征集合中選擇出相關(guān)特征子集的過(guò)程
兩個(gè)關(guān)鍵問(wèn)題:
- 子集搜索
forward搜索: 逐漸增加相關(guān)特征的策略
backward搜索:逐漸減少特征的策略
bidirectional搜索 - 子集評(píng)價(jià)
特征選擇方法 = 子集搜索機(jī)制 + 子集評(píng)價(jià)機(jī)制
特征選擇的作用
- 減少(冗余)特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合
- 增強(qiáng)對(duì)特征和特征值之間的理解
-
去噪
image.png
過(guò)濾式(filter)
特點(diǎn):特征選擇過(guò)程和學(xué)習(xí)器無(wú)關(guān)
通過(guò)特征的某個(gè)統(tǒng)計(jì)量值來(lái)進(jìn)行排序,選擇Top K特征
from sklearn.feature_selection import SelectKBest
- 基于方差
- 基于信息增益
去除方差較小的特征,譬如某些特征只有一個(gè)值
ID3算法在選擇節(jié)點(diǎn)對(duì)應(yīng)的特征時(shí)也是使用信息增益
對(duì)于決策樹(shù)來(lái)說(shuō),樹(shù)節(jié)點(diǎn)的劃分屬性所組成的集合就是選擇出的特征子集
Pearson相關(guān)系數(shù)
皮爾森相關(guān)系數(shù)是一種最簡(jiǎn)單的,能幫助理解特征和響應(yīng)變量之間關(guān)系的方法,該方法衡量的是變量之間的線性相關(guān)性,結(jié)果的取值區(qū)間為[-1,1],-1表示完全的負(fù)相關(guān)(這個(gè)變量下降,那個(gè)就會(huì)上升),+1表示完全的正相關(guān),0表示沒(méi)有線性相關(guān)。互信息量
互信息(Mutual Information)是度量?jī)蓚€(gè)事件集合之間的相關(guān)性(mutual dependence)。互信息最常用的單位是bit。
根據(jù)互信息計(jì)算公式可得: 當(dāng)互信息MI=0時(shí),兩個(gè)變量(兩個(gè)事件集合)之間相互獨(dú)立χ2統(tǒng)計(jì)量(卡方檢驗(yàn))
χ2檢驗(yàn)用來(lái)檢驗(yàn)兩個(gè)事件的獨(dú)立性。
χ2 值越大,則表明實(shí)際觀察值與期望值偏離越大,也說(shuō)明兩個(gè)事件的相互獨(dú)立性越弱。
wrapper
特點(diǎn):將后續(xù)學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則
將子集的選擇看作是一個(gè)搜索尋優(yōu)問(wèn)題,生成不同的組合,對(duì)組合進(jìn)行評(píng)價(jià),再與其他的組合進(jìn)行比較
啟發(fā)式算法
from sklearn.feature_selection import RFE
- Las Vegas Wrapper(LVW)
在LVW中,特征子集搜索采用了隨機(jī)策略,然后訓(xùn)練學(xué)習(xí)器進(jìn)行交叉校驗(yàn)。
- 基于學(xué)習(xí)模型的特征排序
這種方法的思路是直接使用你要用的機(jī)器學(xué)習(xí)算法,針對(duì)每個(gè)單獨(dú)的特征和響應(yīng)變量建立預(yù)測(cè)模型。交叉驗(yàn)證后,根據(jù)分?jǐn)?shù)值對(duì)特征進(jìn)行排序。
特征和響應(yīng)變量之間的關(guān)系是線性:線性回歸
假如某個(gè)特征和響應(yīng)變量之間的關(guān)系是非線性的,可以用基于樹(shù)的方法(決策樹(shù)、隨機(jī)森林)、或者擴(kuò)展的線性模型等
embedding
特點(diǎn):特征選擇過(guò)程與學(xué)習(xí)訓(xùn)練過(guò)程融為一體,兩者在同一個(gè)優(yōu)化過(guò)程中完成,即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行了特征選擇
from sklearn.feature_selection import SelectFromModel
L1和L2范數(shù)都有助于降低過(guò)擬合風(fēng)險(xiǎn)
L1正則化/Lasso
L1正則化將系數(shù)w的l1范數(shù)作為懲罰項(xiàng)加到損失函數(shù)上,由于正則項(xiàng)非零,這就迫使那些弱的特征所對(duì)應(yīng)的系數(shù)變成0
防止過(guò)擬合
更容易獲得系數(shù)解

L2正則化/Ridge regression嶺回歸
L2正則化對(duì)于特征理解來(lái)說(shuō)更加有用:表示能力強(qiáng)的特征對(duì)應(yīng)的系數(shù)是非零
降維
定義:通過(guò)某種數(shù)學(xué)變化將原始高維屬性空間轉(zhuǎn)變?yōu)榈途S子空間(subspace)
低維嵌入(三維-->二維):

降維方法分類

PCA
from sklearn.decomposition import PCA
參考資料
<機(jī)器學(xué)習(xí)>第10章降維與度量學(xué)習(xí)-周志華
<機(jī)器學(xué)習(xí)>第11章特征選擇和稀疏學(xué)習(xí)-周志華
結(jié)合Scikit-learn介紹幾種常用的特征選擇方法
機(jī)器學(xué)習(xí)之特征選擇
Sklearn數(shù)據(jù)預(yù)處理:scale, StandardScaler, MinMaxScaler, Normalizer
機(jī)器學(xué)習(xí)中,有哪些特征選擇的工程方法?
知乎特征工程總結(jié)


