為什么使用集成算法
?簡單算法一般復(fù)雜度低,速度快,易展示結(jié)果,但預(yù)測效果往往不是特別好。每種算法好像一種專家,集成就是把簡單的算法(后文稱基算法/基模型)組織起來,即多個專家共同決定結(jié)果。
如何組織算法和數(shù)據(jù)
?這里我們的著眼點(diǎn)不是某個算法,某個函數(shù),而是對數(shù)據(jù)和算法整體的規(guī)劃。
?從數(shù)據(jù)拆分的角度看:可以按行拆分?jǐn)?shù)據(jù),也可以按列給屬性分組。
?從算法組合的成份看:可以集成不同算法,也可以集成同一算法不同參數(shù),還可以集成同一算法使用不同數(shù)據(jù)集(結(jié)合數(shù)據(jù)拆分)。
?從組合的方式看:可以選擇少數(shù)服從多數(shù),或加權(quán)求合(可根據(jù)正確率分配權(quán)重)。
?從組合的結(jié)構(gòu)看:可以是并行,串行,樹型或者更復(fù)雜。
?綜上,我們看到了各種構(gòu)造集成的方法,這里面可選的組合太多,不可能一一嘗試,目前拼的還是人的經(jīng)驗(yàn):對數(shù)據(jù)的理解,對算法的組織,以及對工具的駕駛能力。在使用集成算法的過程中,除了調(diào)庫,調(diào)參,更重要的是領(lǐng)會精神。也可以自己編寫一些集成算法。
三個臭皮匠頂個諸葛亮
?三個臭皮匠是否能頂諸葛亮,這還得具體問題,具體分析。如果基算法選錯了,即使再怎么組合,再怎么調(diào)參也沒用。但有些問題確實(shí)可以拆開看,達(dá)到1+1>2的效果,比如說,用線性函數(shù)去擬合曲線,效果不好,但是如果用分段線性函數(shù),效果還不錯。分段線性函數(shù)就可看作線性函數(shù)的集成(把數(shù)據(jù)橫著拆開了),只不過這種集成要比直接調(diào)集成函數(shù)復(fù)雜一些。

?一般來說集成的會比不集成效果好,但集成的過程也會增加復(fù)雜度。
常用的集成算法
?集成算法一般分為三類:Bagging,Boosting,Stacking(我們可以把它簡單地看成并行,串行和樹型)。Bagging是把各個基模型的結(jié)果組織起來,取一個折中的結(jié)果;Boosting是根據(jù)舊模型中的錯誤來訓(xùn)練新模型,層層改進(jìn);Stacking是把基模型組織起來,注意不是組織結(jié)果,而是組織基模型本身,該方法看起來更靈活,也更復(fù)雜。
1. Bagging(自舉匯聚法)
?Bagging的全稱是bootstrap averaging,它把各個基模型的結(jié)果組織起來,具體實(shí)現(xiàn)也有很多種類型,以sklearn中提供的Bagging集成算法為例:
?BaggingClassifier/BaggingRegressor是從原始數(shù)據(jù)集抽選S次(抽取實(shí)例,抽取屬性),得到S個新數(shù)據(jù)集(有的值可能重復(fù),有的值可能不出現(xiàn))。使用同一模型,訓(xùn)練得到S個分類器,預(yù)測時使用投票結(jié)果最多的分類。
?RandomForestClassifier隨機(jī)森林,它是對決策樹的集成,用隨機(jī)的方式建立一個決策樹的森林。當(dāng)有一個新的輸入樣本進(jìn)入的時候,就讓森林中的每一棵決策樹分別進(jìn)行判斷,預(yù)測時使用投票結(jié)果最多的分類,也是少數(shù)服從多數(shù)的算法。
?VotingClassifier,可選擇多個不同的基模型,分別進(jìn)行預(yù)測,以投票方式?jīng)Q定最終結(jié)果。
?Bagging中各個基算法之間沒有依賴,可以并行計(jì)算,它的結(jié)果參考了各種情況,實(shí)現(xiàn)的是在欠擬合和過擬合之間取折中。
2. Boosting(提升法)
?Boosting不斷的建立新模型,而新模型更重視上一個模型中被錯誤分類的樣本,最終根據(jù)按成功度加權(quán)組合得到結(jié)果。
?由于引入了逐步改進(jìn)的思想,重要屬性會被加權(quán),這也符合人的直覺。一般來說,它的效果會比Bagging好一些。由于新模型是在舊模型的基本上建立的,因此不能使用并行方法訓(xùn)練,并且由于對錯誤樣本的關(guān)注,也可能造成過擬合。常見的Boosting算法有:
?AdaBoost自適應(yīng)提升算法,它對分類錯誤屬性的給予更大權(quán)重,再做下次迭代,直到收斂。AdaBoost是一個相對簡單的Boosting算法,可以自己寫代碼實(shí)現(xiàn),常見的做法是基模型用單層分類器實(shí)現(xiàn)(樹樁),樁對應(yīng)當(dāng)前最適合劃分的屬性值位置。
?Gradient Boosting Machine(簡稱GBM)梯度提升算法,它通過求損失函數(shù)在梯度方向下降的方法,層層改進(jìn),sklearn中也實(shí)現(xiàn)了該算法:GradientBoostingClassifier/GradientBoostingRegressor。GBM是目前非常流行的一類算法,在后面詳細(xì)說明。
3. Stacking
?Stacking訓(xùn)練一個模型用于組合(combine)其他各個基模型。具體方法是把數(shù)據(jù)分成兩部分,用其中一部分訓(xùn)練幾個基模型A1,A2,A3,用另一部分?jǐn)?shù)據(jù)測試這幾個基模型,把A1,A2,A3的輸出作為輸入,訓(xùn)練組合模型B。注意,它不是把模型的結(jié)果組織起來,而把模型組織起來。理論上,Stacking可以組織任何模型,實(shí)際中常使用單層logistic回歸作為模型。Sklearn中也實(shí)現(xiàn)了stacking模型:StackingClassifier
梯度提升算法(GB**)
?Gradient Boosting Machine(GBM)梯度提升算法是目前比較流行的數(shù)據(jù)挖掘模型,它是泛化能力較強(qiáng)的算法,常用于各種數(shù)據(jù)挖掘比賽之中。常用的工具有XGBoost,LightGBM,sklearn提供的GradientBoostingClassifier等等。GBM常把決策樹作為基模型,我們??吹降腉BDT梯度提升決策樹,一般也是指該算法。
?通常我們使用GBM都是直接調(diào)庫,所以我們關(guān)注的是:什么時候用它,選用哪個GBM庫,給它什么樣的數(shù)據(jù),以及具體調(diào)參。
GBM的原理是希望通過集成基模型使得模型總體的損失函數(shù)在梯度方向上下降(梯度下降具體見《深度學(xué)習(xí)——BP神經(jīng)網(wǎng)絡(luò)》篇),模型不斷改進(jìn)。
在調(diào)參方面,作為梯度下降算法,我們也需要在參數(shù)中指定學(xué)習(xí)率(每次迭代改進(jìn)多少),誤差函數(shù)(在回歸問題中判斷預(yù)測值與實(shí)際值的差異);是與決策樹結(jié)合時,還需要指定樹的大?。涣硗膺€要設(shè)置迭代的次數(shù),每次抽取樣本的比例等等。
?在選庫方面,sklearn中提供的GradientBoostingClassifier是GBM最基本的實(shí)現(xiàn),同時還提供了圖形化工具,讓開發(fā)者對GBM中的各屬性有直觀理解。不過Sklearn是一個算法集,不是專門做GBM的。

?XGBoost(eXtreme Gradient Boosting)是一個單獨(dú)的工具包,對GBDT做了一些改進(jìn):比如加入線性分類器的支持,正則化,對代價函數(shù)進(jìn)行了二階泰勒展開,缺失值處理,提高了效率,支持分布式計(jì)算等等。
?LightGBM(Light Gradient Boosting Machine)同樣是一款基于決策樹算法的分布式梯度提升框架。相對于XGBoost,速度又有提高,并且占用內(nèi)存更少。
幾個工具的比較詳見《關(guān)于樹的幾個ensemble模型的比較(GBDT、xgBoost、lightGBM、RF)》
實(shí)例:
說明:
實(shí)例摘自sklearn官網(wǎng)上GBM的例程,實(shí)現(xiàn)的是波士頓房價預(yù)測,它使用4層決策樹,經(jīng)過500次迭代之后預(yù)測房價,從圖中可看到,預(yù)測結(jié)果的均方誤差在迭代的過程中是如何下降的,以及從模型中提取的變量與結(jié)果的相關(guān)性。核心代碼
params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)
clf.fit(X_train, y_train)
mse = mean_squared_error(y_test, clf.predict(X_test))
print("MSE: %.4f" % mse)
- 完整代碼下載
http://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_regression.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-regression-py -
運(yùn)行結(jié)果
房價預(yù)測
參考
- GBDT源碼分析之一 :總覽
http://m.itdecent.cn/p/02cfaae3fd01 - 機(jī)器學(xué)習(xí)算法中GBDT和XGBOOST的區(qū)別有哪些?
https://www.zhihu.com/question/41354392 - GBDT:梯度提升決策樹
http://m.itdecent.cn/p/005a4e6ac775 - Ensemble methods
http://scikit-learn.org/stable/modules/ensemble.html - 機(jī)器學(xué)習(xí)系列(12)_XGBoost參數(shù)調(diào)優(yōu)完全指南
http://blog.csdn.net/han_xiaoyang/article/details/52665396 - 關(guān)于樹的幾個ensemble模型的比較(GBDT、xgBoost、lightGBM、RF)
http://m.blog.csdn.net/xwd18280820053/article/details/68927422
