伊人黄在线,亚洲,国产精品视频

outline

概念
預(yù)處理
特征選擇
降維

概念

數(shù)據(jù)集由數(shù)據(jù)對(duì)象組成，一個(gè)數(shù)據(jù)對(duì)象代表一個(gè)實(shí)體
屬性（attribute）是一個(gè)數(shù)據(jù)字段，表示數(shù)據(jù)對(duì)象的一個(gè)特征。屬性向量（或特征向量）是用來(lái)描述一個(gè)給定對(duì)象的一組屬性。
屬性的分類：

標(biāo)稱屬性（nominal attribute）
二元屬性（binary attribute）
序數(shù)屬性（ordinal attribute）--- 常量表中的某個(gè)值
數(shù)值屬性（numerical attribute）= 離散屬性 + 連續(xù)屬性

數(shù)據(jù)清洗

清洗標(biāo)注數(shù)據(jù)，主要是數(shù)據(jù)采樣和樣本過(guò)濾

數(shù)據(jù)增強(qiáng)( Data Augmentation)

數(shù)據(jù)增強(qiáng)是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加
如CV領(lǐng)域中的圖像增廣技術(shù)

預(yù)處理

缺失值的處理

（1）丟棄
（2）均值
（3）上下數(shù)據(jù)填充
（4）插值法線性插值
（5）隨機(jī)森林?jǐn)M合

標(biāo)準(zhǔn)化和歸一化

標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化是依照特征矩陣的列處理數(shù)據(jù)，使每個(gè)特征中的數(shù)值平均變?yōu)?(將每個(gè)特征的值都減掉原始資料中該特征的平均)、標(biāo)準(zhǔn)差變?yōu)?
基于正態(tài)分布假設(shè)
標(biāo)準(zhǔn)化后可能為負(fù)
(X-X_mean)/std
歸一化
對(duì)每個(gè)樣本計(jì)算其p-范數(shù)，再對(duì)每個(gè)元素除以該范數(shù)，這使得每個(gè)處理后樣本的p-范數(shù)（l1-norm,l2-norm）等于1。
區(qū)間縮放法
常見(jiàn)的一種為利用兩個(gè)最值進(jìn)行縮放

image.png

具有加速收斂的作用,原因如下圖：

clipboard.png

可以使用sklearn中的preproccessing庫(kù)來(lái)進(jìn)行數(shù)據(jù)預(yù)處理

特征選擇

定義：從給定的特征集合中選擇出相關(guān)特征子集的過(guò)程
兩個(gè)關(guān)鍵問(wèn)題:

子集搜索
forward搜索: 逐漸增加相關(guān)特征的策略
backward搜索：逐漸減少特征的策略
bidirectional搜索
子集評(píng)價(jià)

特征選擇方法 = 子集搜索機(jī)制 + 子集評(píng)價(jià)機(jī)制

特征選擇的作用

減少(冗余)特征數(shù)量、降維，使模型泛化能力更強(qiáng)，減少過(guò)擬合
增強(qiáng)對(duì)特征和特征值之間的理解
去噪

image.png

過(guò)濾式(filter)

特點(diǎn):特征選擇過(guò)程和學(xué)習(xí)器無(wú)關(guān)
通過(guò)特征的某個(gè)統(tǒng)計(jì)量值來(lái)進(jìn)行排序，選擇Top K特征
from sklearn.feature_selection import SelectKBest

基于方差
基于信息增益
去除方差較小的特征，譬如某些特征只有一個(gè)值

ID3算法在選擇節(jié)點(diǎn)對(duì)應(yīng)的特征時(shí)也是使用信息增益
對(duì)于決策樹(shù)來(lái)說(shuō)，樹(shù)節(jié)點(diǎn)的劃分屬性所組成的集合就是選擇出的特征子集

Pearson相關(guān)系數(shù)
皮爾森相關(guān)系數(shù)是一種最簡(jiǎn)單的，能幫助理解特征和響應(yīng)變量之間關(guān)系的方法，該方法衡量的是變量之間的線性相關(guān)性，結(jié)果的取值區(qū)間為[-1，1]，-1表示完全的負(fù)相關(guān)(這個(gè)變量下降，那個(gè)就會(huì)上升)，+1表示完全的正相關(guān)，0表示沒(méi)有線性相關(guān)。
互信息量
互信息(Mutual Information)是度量?jī)蓚€(gè)事件集合之間的相關(guān)性(mutual dependence)。互信息最常用的單位是bit。
根據(jù)互信息計(jì)算公式可得: 當(dāng)互信息MI=0時(shí)，兩個(gè)變量(兩個(gè)事件集合)之間相互獨(dú)立
χ2統(tǒng)計(jì)量(卡方檢驗(yàn))
χ2檢驗(yàn)用來(lái)檢驗(yàn)兩個(gè)事件的獨(dú)立性。
χ2 值越大，則表明實(shí)際觀察值與期望值偏離越大，也說(shuō)明兩個(gè)事件的相互獨(dú)立性越弱。

wrapper

特點(diǎn)：將后續(xù)學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則
將子集的選擇看作是一個(gè)搜索尋優(yōu)問(wèn)題，生成不同的組合，對(duì)組合進(jìn)行評(píng)價(jià)，再與其他的組合進(jìn)行比較
啟發(fā)式算法

from sklearn.feature_selection import RFE

Las Vegas Wrapper(LVW)
在LVW中，特征子集搜索采用了隨機(jī)策略，然后訓(xùn)練學(xué)習(xí)器進(jìn)行交叉校驗(yàn)。

基于學(xué)習(xí)模型的特征排序
這種方法的思路是直接使用你要用的機(jī)器學(xué)習(xí)算法，針對(duì)每個(gè)單獨(dú)的特征和響應(yīng)變量建立預(yù)測(cè)模型。交叉驗(yàn)證后，根據(jù)分?jǐn)?shù)值對(duì)特征進(jìn)行排序。
特征和響應(yīng)變量之間的關(guān)系是線性：線性回歸
假如某個(gè)特征和響應(yīng)變量之間的關(guān)系是非線性的，可以用基于樹(shù)的方法（決策樹(shù)、隨機(jī)森林）、或者擴(kuò)展的線性模型等

embedding

特點(diǎn)：特征選擇過(guò)程與學(xué)習(xí)訓(xùn)練過(guò)程融為一體，兩者在同一個(gè)優(yōu)化過(guò)程中完成，即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)地進(jìn)行了特征選擇
from sklearn.feature_selection import SelectFromModel

L1和L2范數(shù)都有助于降低過(guò)擬合風(fēng)險(xiǎn)

L1正則化/Lasso

L1正則化將系數(shù)w的l1范數(shù)作為懲罰項(xiàng)加到損失函數(shù)上，由于正則項(xiàng)非零，這就迫使那些弱的特征所對(duì)應(yīng)的系數(shù)變成0
防止過(guò)擬合
更容易獲得系數(shù)解

image.png

L2正則化/Ridge regression嶺回歸

L2正則化對(duì)于特征理解來(lái)說(shuō)更加有用：表示能力強(qiáng)的特征對(duì)應(yīng)的系數(shù)是非零

降維

定義：通過(guò)某種數(shù)學(xué)變化將原始高維屬性空間轉(zhuǎn)變?yōu)榈途S子空間(subspace)
低維嵌入(三維-->二維)：

image.png

降維方法分類

image.png

PCA

from sklearn.decomposition import PCA

參考資料

<機(jī)器學(xué)習(xí)>第10章降維與度量學(xué)習(xí)-周志華
 <機(jī)器學(xué)習(xí)>第11章特征選擇和稀疏學(xué)習(xí)-周志華
 結(jié)合Scikit-learn介紹幾種常用的特征選擇方法
 機(jī)器學(xué)習(xí)之特征選擇
 Sklearn數(shù)據(jù)預(yù)處理：scale, StandardScaler, MinMaxScaler, Normalizer
機(jī)器學(xué)習(xí)中，有哪些特征選擇的工程方法？
知乎特征工程總結(jié)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)-特征工程

機(jī)器學(xué)習(xí)-特征工程

outline

概念

數(shù)據(jù)清洗

數(shù)據(jù)增強(qiáng)( Data Augmentation)

預(yù)處理

缺失值的處理

標(biāo)準(zhǔn)化和歸一化

特征選擇

特征選擇的作用

過(guò)濾式(filter)

wrapper

embedding

L1正則化/Lasso

L2正則化/Ridge regression嶺回歸

降維

PCA

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)-特征工程

outline

概念

數(shù)據(jù)清洗

數(shù)據(jù)增強(qiáng)( Data Augmentation)

預(yù)處理

缺失值的處理

標(biāo)準(zhǔn)化和歸一化

特征選擇

特征選擇的作用

過(guò)濾式(filter)

wrapper

embedding

L1正則化/Lasso

L2正則化/Ridge regression嶺回歸

降維

PCA

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av