二戰(zhàn)周志華《機(jī)器學(xué)習(xí)》--特征選擇

1、子集搜索與評(píng)價(jià)

我們能用很多屬性描述一個(gè)西瓜,例如色澤、根蒂、敲聲、紋理等等。但有經(jīng)驗(yàn)的人往往只需看根蒂,聽(tīng)聽(tīng)敲聲就可以知道是否是好瓜,換言之,對(duì)于一個(gè)學(xué)習(xí)任務(wù)來(lái)說(shuō),給定屬性集,其中有些屬性可能很關(guān)鍵,而另一些則可能沒(méi)什么用,我們將這些屬性稱為特征的話,對(duì)當(dāng)前學(xué)習(xí)任務(wù)有用的特征稱為相關(guān)特征,而沒(méi)什么用的特征稱為無(wú)關(guān)特征,從給定的特征集選擇特征的過(guò)程,稱為特征選擇

為什么要進(jìn)行特征選擇呢?有兩個(gè)重要的原因,一個(gè)是避免維數(shù)災(zāi)難問(wèn)題,另一個(gè)是,去除不相關(guān)的特征往往會(huì)降低學(xué)習(xí)任務(wù)的難度。

如果想從初始的特征集合中選取一個(gè)包含了所有重要信息的特征子集,若沒(méi)有任何領(lǐng)域作為先驗(yàn)知識(shí),那就只好遍歷所有可能的子集了,然而這在計(jì)算上是不可能的,特征個(gè)數(shù)稍多就無(wú)法進(jìn)行,可行的方法是產(chǎn)生一個(gè)候選子集,判斷它的好壞,基于評(píng)價(jià)結(jié)果產(chǎn)生下一個(gè)候選特征子集。顯然,有兩個(gè)環(huán)節(jié)需要注意:如何根據(jù)評(píng)價(jià)結(jié)果選取下一個(gè)子集?如何評(píng)價(jià)特征子集的好壞?

將特征子集搜索機(jī)制和子集評(píng)價(jià)機(jī)制相結(jié)合,即可得到特征選擇方法,例如將前向搜索與信息熵相結(jié)合,這顯然與決策樹(shù)算法非常相似。常見(jiàn)的特征選擇方法大致可分為三類:過(guò)濾式、包裹式和嵌入式

2、過(guò)濾式選擇

過(guò)濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特張選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過(guò)程與后續(xù)學(xué)習(xí)器無(wú)關(guān),這相當(dāng)于先用特征選擇過(guò)程對(duì)初識(shí)特征進(jìn)行“過(guò)濾”,然后再用過(guò)濾后的特征來(lái)訓(xùn)練模型。

Relief方法

3、包裹式選擇

包裹式選擇特征不考慮后續(xù)學(xué)習(xí)器不同,包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則。換言之,包裹式特征選擇的目的就是為給定學(xué)習(xí)器選擇最有利于其性能,量身定做的特征子集。包裹式選擇比過(guò)濾式特征選擇更好,但是另一方面,計(jì)算開(kāi)銷(xiāo)卻要大得多。

LVW方法

4、嵌入式選擇與L1正則化

嵌入式特征選擇是將特征選擇過(guò)程與學(xué)習(xí)器訓(xùn)練過(guò)程融為一體,兩者在同一個(gè)優(yōu)化過(guò)程中優(yōu)化,即在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)進(jìn)行了特征選擇。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容