task3 數(shù)據(jù)的特征工程

針對本次任務中遇到的問題,進行一些資料的補充。

針對xgb等模型的理解

lightgbm,xgboost,gbdt的區(qū)別與聯(lián)系

LR和樹模型基礎概念

決策樹、邏輯回歸、線性回歸使用時注意事項以及模型過擬合策略

個人的理解是,這些模型大致分為兩類,一類是線性模型(邏輯回歸也算廣義的線性),一類是樹模型。這兩類都可以處理回歸問題,但是由于線性模型對數(shù)據(jù)更加敏感,而樹模型具有更強的魯棒性,所以比賽中常見的都是樹模型。

像lgb,xgb,catboost都是樹模型,它們都是由gbdt發(fā)展而來(不知道能不能這么理解)。

另外,需要注意特征篩選環(huán)節(jié),lgb等都是嵌入式的,即模型自己就可以篩選;而lr需要通過正則L1,L2等方式篩選??傊?,現(xiàn)在不用再蠢到自己動手篩特征了。當然,對特征的深入理解,是有助于優(yōu)化模型的。

pandas一些小操作

pandas聚合和分組運算之groupby

python pandas中 inplace 參數(shù)理解

Pandas DataFrame連接表,Merge, Join, Concat的對比

pandas 如何找到NaN、缺失值或者某些元素的索引名稱以及位置

都是實踐中會遇到的,值得收藏哦~

說回特征處理

首先,針對task3里的分桶,個人覺得還是有必要補充一些知識點。

如何對數(shù)值型特征進行分桶

另外,實操中發(fā)現(xiàn)power的分桶會出現(xiàn)缺失值,這點需要想辦法解決。

其次,針對one hot問題,也有一些額外的知識點可以補充。

著重看part3.1

這里提到了one hot的一些隱患

最后,針對聚合特征構造,除了task里的brand統(tǒng)計量,還有其它手段。

特征工程系列:聚合特征構造以及轉(zhuǎn)換特征構造

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容