機(jī)器學(xué)習(xí)-特征工程

outline

  • 概念
  • 預(yù)處理
  • 特征選擇
  • 降維

概念

數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成,一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體
屬性(attribute)是一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。屬性向量(或特征向量)是用來(lái)描述一個(gè)給定對(duì)象的一組屬性。
屬性的分類:

  • 標(biāo)稱屬性(nominal attribute)
  • 二元屬性(binary attribute)
  • 序數(shù)屬性(ordinal attribute)--- 常量表中的某個(gè)值
  • 數(shù)值屬性(numerical attribute)= 離散屬性 + 連續(xù)屬性
數(shù)據(jù)清洗

清洗標(biāo)注數(shù)據(jù),主要是數(shù)據(jù)采樣和樣本過(guò)濾

數(shù)據(jù)增強(qiáng)( Data Augmentation)

數(shù)據(jù)增強(qiáng)是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加
如CV領(lǐng)域中的圖像增廣技術(shù)

預(yù)處理

缺失值的處理

(1)丟棄
(2)均值
(3)上下數(shù)據(jù)填充
(4)插值法 線性插值
(5)隨機(jī)森林?jǐn)M合

標(biāo)準(zhǔn)化和歸一化
  • 標(biāo)準(zhǔn)化
    標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù),使每個(gè)特征中的數(shù)值平均變?yōu)?(將每個(gè)特征的值都減掉原始資料中該特征的平均)、標(biāo)準(zhǔn)差變?yōu)?
    基于正態(tài)分布假設(shè)
    標(biāo)準(zhǔn)化后可能為負(fù)
    (X-X_mean)/std

  • 歸一化
    對(duì)每個(gè)樣本計(jì)算其p-范數(shù),再對(duì)每個(gè)元素除以該范數(shù),這使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1。

  • 區(qū)間縮放法
    常見(jiàn)的一種為利用兩個(gè)最值進(jìn)行縮放


    image.png

    具有加速收斂的作用,原因如下圖:


    clipboard.png

可以使用sklearn中的preproccessing庫(kù)來(lái)進(jìn)行數(shù)據(jù)預(yù)處理

特征選擇

定義: 從給定的特征集合中選擇出相關(guān)特征子集的過(guò)程
兩個(gè)關(guān)鍵問(wèn)題:

  • 子集搜索
    forward搜索: 逐漸增加相關(guān)特征的策略
    backward搜索:逐漸減少特征的策略
    bidirectional搜索
  • 子集評(píng)價(jià)

特征選擇方法 = 子集搜索機(jī)制 + 子集評(píng)價(jià)機(jī)制

特征選擇的作用
  • 減少(冗余)特征數(shù)量、降維,使模型泛化能力更強(qiáng),減少過(guò)擬合
  • 增強(qiáng)對(duì)特征和特征值之間的理解
  • 去噪


    image.png

過(guò)濾式(filter)

特點(diǎn):特征選擇過(guò)程和學(xué)習(xí)器無(wú)關(guān)
通過(guò)特征的某個(gè)統(tǒng)計(jì)量值來(lái)進(jìn)行排序,選擇Top K特征
from sklearn.feature_selection import SelectKBest

  • 基于方差
  • 基于信息增益
    去除方差較小的特征,譬如某些特征只有一個(gè)值

ID3算法在選擇節(jié)點(diǎn)對(duì)應(yīng)的特征時(shí)也是使用信息增益
對(duì)于決策樹(shù)來(lái)說(shuō),樹(shù)節(jié)點(diǎn)的劃分屬性所組成的集合就是選擇出的特征子集

  • Pearson相關(guān)系數(shù)
    皮爾森相關(guān)系數(shù)是一種最簡(jiǎn)單的,能幫助理解特征和響應(yīng)變量之間關(guān)系的方法,該方法衡量的是變量之間的線性相關(guān)性,結(jié)果的取值區(qū)間為[-1,1],-1表示完全的負(fù)相關(guān)(這個(gè)變量下降,那個(gè)就會(huì)上升),+1表示完全的正相關(guān),0表示沒(méi)有線性相關(guān)。

  • 互信息量
    互信息(Mutual Information)是度量?jī)蓚€(gè)事件集合之間的相關(guān)性(mutual dependence)。互信息最常用的單位是bit。
    根據(jù)互信息計(jì)算公式可得: 當(dāng)互信息MI=0時(shí),兩個(gè)變量(兩個(gè)事件集合)之間相互獨(dú)立

  • χ2統(tǒng)計(jì)量(卡方檢驗(yàn))
    χ2檢驗(yàn)用來(lái)檢驗(yàn)兩個(gè)事件的獨(dú)立性。
    χ2 值越大,則表明實(shí)際觀察值與期望值偏離越大,也說(shuō)明兩個(gè)事件的相互獨(dú)立性越弱。

wrapper

特點(diǎn):將后續(xù)學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則
將子集的選擇看作是一個(gè)搜索尋優(yōu)問(wèn)題,生成不同的組合,對(duì)組合進(jìn)行評(píng)價(jià),再與其他的組合進(jìn)行比較
啟發(fā)式算法

from sklearn.feature_selection import RFE

  • Las Vegas Wrapper(LVW)
    在LVW中,特征子集搜索采用了隨機(jī)策略,然后訓(xùn)練學(xué)習(xí)器進(jìn)行交叉校驗(yàn)。
  • 基于學(xué)習(xí)模型的特征排序
    這種方法的思路是直接使用你要用的機(jī)器學(xué)習(xí)算法,針對(duì)每個(gè)單獨(dú)的特征和響應(yīng)變量建立預(yù)測(cè)模型。交叉驗(yàn)證后,根據(jù)分?jǐn)?shù)值對(duì)特征進(jìn)行排序。
    特征和響應(yīng)變量之間的關(guān)系是線性:線性回歸
    假如某個(gè)特征和響應(yīng)變量之間的關(guān)系是非線性的,可以用基于樹(shù)的方法(決策樹(shù)、隨機(jī)森林)、或者擴(kuò)展的線性模型等

embedding

特點(diǎn):特征選擇過(guò)程與學(xué)習(xí)訓(xùn)練過(guò)程融為一體,兩者在同一個(gè)優(yōu)化過(guò)程中完成,即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行了特征選擇
from sklearn.feature_selection import SelectFromModel

L1和L2范數(shù)都有助于降低過(guò)擬合風(fēng)險(xiǎn)

L1正則化/Lasso

L1正則化將系數(shù)w的l1范數(shù)作為懲罰項(xiàng)加到損失函數(shù)上,由于正則項(xiàng)非零,這就迫使那些弱的特征所對(duì)應(yīng)的系數(shù)變成0
防止過(guò)擬合
更容易獲得系數(shù)解


image.png
L2正則化/Ridge regression嶺回歸

L2正則化對(duì)于特征理解來(lái)說(shuō)更加有用:表示能力強(qiáng)的特征對(duì)應(yīng)的系數(shù)是非零

降維

定義:通過(guò)某種數(shù)學(xué)變化將原始高維屬性空間轉(zhuǎn)變?yōu)榈途S子空間(subspace)
低維嵌入(三維-->二維):


image.png

降維方法分類


image.png
PCA

from sklearn.decomposition import PCA

參考資料

<機(jī)器學(xué)習(xí)>第10章降維與度量學(xué)習(xí)-周志華
<機(jī)器學(xué)習(xí)>第11章特征選擇和稀疏學(xué)習(xí)-周志華
結(jié)合Scikit-learn介紹幾種常用的特征選擇方法
機(jī)器學(xué)習(xí)之特征選擇
Sklearn數(shù)據(jù)預(yù)處理:scale, StandardScaler, MinMaxScaler, Normalizer
機(jī)器學(xué)習(xí)中,有哪些特征選擇的工程方法?
知乎特征工程總結(jié)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容