东京热av不卡,美h一区二区三区,曰本无码人妻啪啪

為什么使用集成算法

?簡單算法一般復(fù)雜度低，速度快，易展示結(jié)果，但預(yù)測效果往往不是特別好。每種算法好像一種專家，集成就是把簡單的算法（后文稱基算法/基模型）組織起來，即多個專家共同決定結(jié)果。

如何組織算法和數(shù)據(jù)

?這里我們的著眼點(diǎn)不是某個算法，某個函數(shù)，而是對數(shù)據(jù)和算法整體的規(guī)劃。
?從數(shù)據(jù)拆分的角度看：可以按行拆分?jǐn)?shù)據(jù)，也可以按列給屬性分組。
?從算法組合的成份看：可以集成不同算法，也可以集成同一算法不同參數(shù)，還可以集成同一算法使用不同數(shù)據(jù)集（結(jié)合數(shù)據(jù)拆分）。
?從組合的方式看：可以選擇少數(shù)服從多數(shù)，或加權(quán)求合（可根據(jù)正確率分配權(quán)重）。
?從組合的結(jié)構(gòu)看：可以是并行，串行，樹型或者更復(fù)雜。
?綜上，我們看到了各種構(gòu)造集成的方法，這里面可選的組合太多，不可能一一嘗試，目前拼的還是人的經(jīng)驗(yàn)：對數(shù)據(jù)的理解，對算法的組織，以及對工具的駕駛能力。在使用集成算法的過程中，除了調(diào)庫，調(diào)參，更重要的是領(lǐng)會精神。也可以自己編寫一些集成算法。

三個臭皮匠頂個諸葛亮

?三個臭皮匠是否能頂諸葛亮，這還得具體問題，具體分析。如果基算法選錯了，即使再怎么組合，再怎么調(diào)參也沒用。但有些問題確實(shí)可以拆開看，達(dá)到1+1>2的效果，比如說，用線性函數(shù)去擬合曲線，效果不好，但是如果用分段線性函數(shù)，效果還不錯。分段線性函數(shù)就可看作線性函數(shù)的集成（把數(shù)據(jù)橫著拆開了），只不過這種集成要比直接調(diào)集成函數(shù)復(fù)雜一些。

分段線性擬合

?一般來說集成的會比不集成效果好，但集成的過程也會增加復(fù)雜度。

常用的集成算法

?集成算法一般分為三類：Bagging，Boosting，Stacking（我們可以把它簡單地看成并行，串行和樹型）。Bagging是把各個基模型的結(jié)果組織起來，取一個折中的結(jié)果；Boosting是根據(jù)舊模型中的錯誤來訓(xùn)練新模型，層層改進(jìn)；Stacking是把基模型組織起來，注意不是組織結(jié)果，而是組織基模型本身，該方法看起來更靈活，也更復(fù)雜。

１. Bagging（自舉匯聚法）
?Bagging的全稱是bootstrap averaging，它把各個基模型的結(jié)果組織起來，具體實(shí)現(xiàn)也有很多種類型，以sklearn中提供的Bagging集成算法為例：
?BaggingClassifier/BaggingRegressor是從原始數(shù)據(jù)集抽選Ｓ次（抽取實(shí)例，抽取屬性），得到S個新數(shù)據(jù)集（有的值可能重復(fù)，有的值可能不出現(xiàn)）。使用同一模型，訓(xùn)練得到S個分類器，預(yù)測時使用投票結(jié)果最多的分類。
?RandomForestClassifier隨機(jī)森林，它是對決策樹的集成，用隨機(jī)的方式建立一個決策樹的森林。當(dāng)有一個新的輸入樣本進(jìn)入的時候，就讓森林中的每一棵決策樹分別進(jìn)行判斷，預(yù)測時使用投票結(jié)果最多的分類，也是少數(shù)服從多數(shù)的算法。
?VotingClassifier，可選擇多個不同的基模型，分別進(jìn)行預(yù)測，以投票方式?jīng)Q定最終結(jié)果。
?Bagging中各個基算法之間沒有依賴，可以并行計(jì)算，它的結(jié)果參考了各種情況，實(shí)現(xiàn)的是在欠擬合和過擬合之間取折中。

２. Boosting（提升法）
?Boosting不斷的建立新模型，而新模型更重視上一個模型中被錯誤分類的樣本，最終根據(jù)按成功度加權(quán)組合得到結(jié)果。
?由于引入了逐步改進(jìn)的思想，重要屬性會被加權(quán)，這也符合人的直覺。一般來說，它的效果會比Bagging好一些。由于新模型是在舊模型的基本上建立的，因此不能使用并行方法訓(xùn)練，并且由于對錯誤樣本的關(guān)注，也可能造成過擬合。常見的Boosting算法有：
?AdaBoost自適應(yīng)提升算法，它對分類錯誤屬性的給予更大權(quán)重，再做下次迭代，直到收斂。AdaBoost是一個相對簡單的Boosting算法，可以自己寫代碼實(shí)現(xiàn)，常見的做法是基模型用單層分類器實(shí)現(xiàn)（樹樁），樁對應(yīng)當(dāng)前最適合劃分的屬性值位置。
?Gradient Boosting Machine（簡稱GBM）梯度提升算法，它通過求損失函數(shù)在梯度方向下降的方法，層層改進(jìn)，sklearn中也實(shí)現(xiàn)了該算法：GradientBoostingClassifier/GradientBoostingRegressor。GBM是目前非常流行的一類算法，在后面詳細(xì)說明。

３. Stacking
?Stacking訓(xùn)練一個模型用于組合(combine)其他各個基模型。具體方法是把數(shù)據(jù)分成兩部分，用其中一部分訓(xùn)練幾個基模型A1,A2,A3，用另一部分?jǐn)?shù)據(jù)測試這幾個基模型，把A1,A2,A3的輸出作為輸入，訓(xùn)練組合模型B。注意，它不是把模型的結(jié)果組織起來，而把模型組織起來。理論上，Stacking可以組織任何模型，實(shí)際中常使用單層logistic回歸作為模型。Sklearn中也實(shí)現(xiàn)了stacking模型：StackingClassifier

梯度提升算法（GB**）

?Gradient Boosting Machine（GBM）梯度提升算法是目前比較流行的數(shù)據(jù)挖掘模型，它是泛化能力較強(qiáng)的算法，常用于各種數(shù)據(jù)挖掘比賽之中。常用的工具有XGBoost，LightGBM，sklearn提供的GradientBoostingClassifier等等。GBM常把決策樹作為基模型，我們?？吹降腉BDT梯度提升決策樹，一般也是指該算法。
?通常我們使用GBM都是直接調(diào)庫，所以我們關(guān)注的是：什么時候用它，選用哪個GBM庫，給它什么樣的數(shù)據(jù)，以及具體調(diào)參。
GBM的原理是希望通過集成基模型使得模型總體的損失函數(shù)在梯度方向上下降（梯度下降具體見《深度學(xué)習(xí)——BP神經(jīng)網(wǎng)絡(luò)》篇），模型不斷改進(jìn)。
在調(diào)參方面，作為梯度下降算法，我們也需要在參數(shù)中指定學(xué)習(xí)率（每次迭代改進(jìn)多少），誤差函數(shù)（在回歸問題中判斷預(yù)測值與實(shí)際值的差異）；是與決策樹結(jié)合時，還需要指定樹的大?。涣硗膺€要設(shè)置迭代的次數(shù)，每次抽取樣本的比例等等。
?在選庫方面，sklearn中提供的GradientBoostingClassifier是GBM最基本的實(shí)現(xiàn)，同時還提供了圖形化工具，讓開發(fā)者對GBM中的各屬性有直觀理解。不過Sklearn是一個算法集，不是專門做GBM的。

Feature

?XGBoost（eXtreme Gradient Boosting）是一個單獨(dú)的工具包，對GBDT做了一些改進(jìn)：比如加入線性分類器的支持，正則化，對代價函數(shù)進(jìn)行了二階泰勒展開，缺失值處理，提高了效率，支持分布式計(jì)算等等。
?LightGBM（Light Gradient Boosting Machine）同樣是一款基于決策樹算法的分布式梯度提升框架。相對于XGBoost，速度又有提高，并且占用內(nèi)存更少。
幾個工具的比較詳見《關(guān)于樹的幾個ensemble模型的比較（GBDT、xgBoost、lightGBM、RF）》

實(shí)例：

說明：
實(shí)例摘自sklearn官網(wǎng)上GBM的例程，實(shí)現(xiàn)的是波士頓房價預(yù)測，它使用4層決策樹，經(jīng)過500次迭代之后預(yù)測房價，從圖中可看到，預(yù)測結(jié)果的均方誤差在迭代的過程中是如何下降的，以及從模型中提取的變量與結(jié)果的相關(guān)性。
核心代碼

params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,
          'learning_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)
clf.fit(X_train, y_train)
mse = mean_squared_error(y_test, clf.predict(X_test))
print("MSE: %.4f" % mse)

完整代碼下載
http://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_regression.html#sphx-glr-auto-examples-ensemble-plot-gradient-boosting-regression-py
運(yùn)行結(jié)果

房價預(yù)測

參考

GBDT源碼分析之一：總覽
http://m.itdecent.cn/p/02cfaae3fd01
機(jī)器學(xué)習(xí)算法中GBDT和XGBOOST的區(qū)別有哪些？
https://www.zhihu.com/question/41354392
GBDT：梯度提升決策樹
http://m.itdecent.cn/p/005a4e6ac775
Ensemble methods
http://scikit-learn.org/stable/modules/ensemble.html
機(jī)器學(xué)習(xí)系列(12)_XGBoost參數(shù)調(diào)優(yōu)完全指南
http://blog.csdn.net/han_xiaoyang/article/details/52665396
關(guān)于樹的幾個ensemble模型的比較（GBDT、xgBoost、lightGBM、RF）
http://m.blog.csdn.net/xwd18280820053/article/details/68927422

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)_集成算法

機(jī)器學(xué)習(xí)_集成算法

為什么使用集成算法

如何組織算法和數(shù)據(jù)

三個臭皮匠頂個諸葛亮

常用的集成算法

梯度提升算法（GB**）

實(shí)例：

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)_集成算法

為什么使用集成算法

如何組織算法和數(shù)據(jù)

三個臭皮匠頂個諸葛亮

常用的集成算法

梯度提升算法（GB**）

實(shí)例：

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av