針對本次任務中遇到的問題,進行一些資料的補充。
針對xgb等模型的理解
lightgbm,xgboost,gbdt的區(qū)別與聯(lián)系
個人的理解是,這些模型大致分為兩類,一類是線性模型(邏輯回歸也算廣義的線性),一類是樹模型。這兩類都可以處理回歸問題,但是由于線性模型對數(shù)據(jù)更加敏感,而樹模型具有更強的魯棒性,所以比賽中常見的都是樹模型。
像lgb,xgb,catboost都是樹模型,它們都是由gbdt發(fā)展而來(不知道能不能這么理解)。
另外,需要注意特征篩選環(huán)節(jié),lgb等都是嵌入式的,即模型自己就可以篩選;而lr需要通過正則L1,L2等方式篩選??傊?,現(xiàn)在不用再蠢到自己動手篩特征了。當然,對特征的深入理解,是有助于優(yōu)化模型的。
pandas一些小操作
python pandas中 inplace 參數(shù)理解
Pandas DataFrame連接表,Merge, Join, Concat的對比
pandas 如何找到NaN、缺失值或者某些元素的索引名稱以及位置
都是實踐中會遇到的,值得收藏哦~
說回特征處理
首先,針對task3里的分桶,個人覺得還是有必要補充一些知識點。
另外,實操中發(fā)現(xiàn)power的分桶會出現(xiàn)缺失值,這點需要想辦法解決。
其次,針對one hot問題,也有一些額外的知識點可以補充。
最后,針對聚合特征構造,除了task里的brand統(tǒng)計量,還有其它手段。