Gradient Boosting

也來(lái)講講 Gradient Boosting,傳說(shuō)中天池移動(dòng)推薦算法比賽中應(yīng)用最多的算法。

基本思想:把分類問(wèn)題看作回歸問(wèn)題,弱分類器看作一個(gè)決策函數(shù) F(x);每次迭代過(guò)程,對(duì)上一次分類的殘差進(jìn)行分類訓(xùn)練,即訓(xùn)練 $h(x) = y - F_m(x)$ ,作為前一次分類結(jié)果的補(bǔ)償。對(duì)于平方損失函數(shù) $\frac{1}{2} (\hat{y} - y)^2$ 而言,上述 $h(x)$ 則是其導(dǎo)數(shù),因此,該方法作為一個(gè)梯度提升方法得名,可以根據(jù)需要推廣到不同的損失函數(shù)。

算法:

  1. 初始化基礎(chǔ)模型 $F_0(x) = \underset{\gamma}{\arg\min} \sum_{i=1}^n L(y_i, \gamma)$
  2. 迭代 $m \in (1, M)$
    1. 計(jì)算偽梯度 $r_{im} = -\left[\frac{\partial L(y_i, F(x_i))}{\partial F(x_i)}\right]{F(x)=F{m-1}(x)} \quad \mbox{for } i=1,\ldots,n$
    2. 以偽梯度為類標(biāo),訓(xùn)練基礎(chǔ)模型 $h_m(x)$
    3. 計(jì)算模型權(quán)重 $\gamma_m = \underset{\gamma}{\operatorname{arg,min}} \sum_{i=1}^n L\left(y_i, F_{m-1}(x_i) + \gamma h_m(x_i)\right)$
    4. 更新模型: $F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)$
  3. 得到最終模型 $F_m(x)$

其中 2.4 中計(jì)算模型權(quán)重采用的是一維模型,更恰當(dāng)?shù)?,?yīng)該采用區(qū)域模型(決策樹對(duì)特征向量的預(yù)測(cè)實(shí)際上是就是對(duì)特征空間進(jìn)行劃分):
$$F_m(x) = F_{m-1}(x) + \sum_{j=1}^J \gamma_{jm} I(x \in R_{jm}), \quad
\gamma_{jm} = \underset{\gamma}{\operatorname{arg,min}} \sum_{x_i \in R_{jm}} L(y_i, F_{m-1}(x_i) + \gamma h_m(x_i))$$
但這樣做無(wú)疑增加了計(jì)算量。

為了簡(jiǎn)化操作,在 Spark MLlib 中的 GradientBoostTree 中,模型參數(shù) $\gamma_m$ 被規(guī)定為 1 ,不要與學(xué)習(xí)率(learning rate)混淆。


參數(shù)調(diào)優(yōu):

  1. 學(xué)習(xí)率(Learning Rate) $F_m(x) = F_{m-1}(x) + \nu \cdot \gamma_m h_m(x), \quad 0 < \nu \leq 1$ ,實(shí)踐中越小的學(xué)習(xí)率分類預(yù)測(cè)效果越好
  2. 隨機(jī)梯度提升(Stochastic Gradient Boosting),受 Bagging 思想啟發(fā),每次訓(xùn)練時(shí)不直接用全局?jǐn)?shù)據(jù),而是對(duì)數(shù)據(jù)進(jìn)行抽樣,每次只選擇一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練
  3. 限制葉子節(jié)點(diǎn)的實(shí)例個(gè)數(shù),減小預(yù)測(cè)的方差
  4. 模型復(fù)雜度的懲罰,樹越復(fù)雜越可能過(guò)擬合

具體可以參考 <a >https://en.wikipedia.org/wiki/Gradient_boosting</a>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容