自適應(yīng)Softmax(Adaptive Softmax)

Adaptive Softmax

自適應(yīng)Softmax
原文:https://towardsdatascience.com/speed-up-your-deep-learning-language-model-up-to-1000-with-the-adaptive-softmax-part-1-e7cc1f89fcc9

提出原因

原來(lái)的分層Softmax只使用于CPU,并不適用于GPU

基本原理

根據(jù)2-8原則,即80%的文檔中只包含20%的單詞,或者說(shuō)20%的單詞覆蓋了80%的文檔,設(shè)想下面的場(chǎng)景:

假設(shè)有1000個(gè)單詞構(gòu)成的詞匯表,其中200個(gè)為常用詞,且任意一個(gè)單詞,它為常用詞的概率80%。那么將詞匯表按常用和非常用進(jìn)行分組后,計(jì)算次數(shù)的期望為200 x 80% + 800 x 20% = 320。而原始的Softmax需要計(jì)算1000次。則分組后,計(jì)算速度提升了將近4倍!

那么處理詞匯表的基本思路如下:

  1. 將詞匯表分割為兩組 V^{HEAD}V^{TAIL}
  2. 將少一些的更常出現(xiàn)的單詞放入V^{HEAD}, 其它單詞放入V^{TAIL},那么任意一個(gè)單詞出現(xiàn)在V^{HEAD}中的概率顯然更大,即p(V^{HEAD}) > p(V^{TAIL})

處理步驟

  1. 首先將V^{TAIL},從原詞匯表中剔除,并新增一個(gè)分類用來(lái)指代原來(lái)屬于V^{TAIL}中的詞,那么現(xiàn)在詞匯表的數(shù)量為V^{HEAD} + 1
  2. 首先在現(xiàn)有的詞匯表上做一次Softmax,若單詞屬于V^{TAIL}, 唯一需要做的就是在V^{TAIL}中再做一次Softmax。那么單詞的概率變?yōu)榱?P^{HEAD}(tail|h) * P^{TAIL}(w|h),P^{HEAD}(tail|h)指單詞屬于V^{TAIL}的概率,而后者指單詞是V^{TAIL}中任意單詞的概率。

然而,你并非只能分為兩組,更常用的是分為2-5組,處理方式與2組的相似,以5組為例:

  1. 首先將原詞匯表進(jìn)行劃分,使其數(shù)量為V^{HEAD} + 4,其余4類代表單詞屬于其它分組的概率
  2. 然后按照2組時(shí)的第二步相同

提升推理速度的另一個(gè)Trick

另一個(gè)以最小的精度犧牲提高速度的方法,就是為每個(gè)組都賦予不同的容量。設(shè)nh為模型隱層的輸出維度,對(duì)于更常用的單詞,需要更大的容量來(lái)使預(yù)測(cè)更準(zhǔn)確。假設(shè)1000個(gè)單詞,被[200, 400]分為3組,那么前200個(gè)單詞用nh進(jìn)行預(yù)測(cè),200-400個(gè)單詞可以nh / 2的容量進(jìn)行預(yù)測(cè),剩余的單詞可以nh / 4的容量進(jìn)行預(yù)測(cè)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 最近新接觸文本分類問(wèn)題,對(duì)于我來(lái)數(shù)第一個(gè)問(wèn)題就是Word Embedding這個(gè)詞到底是什么意思,因此也就開始學(xué)習(xí)...
    小松qxs閱讀 25,215評(píng)論 2 27
  • 首頁(yè) 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁(yè) 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫(kù) 運(yùn)維 其他...
    Helen_Cat閱讀 4,159評(píng)論 1 10
  • 主要內(nèi)容 自然語(yǔ)言輸入編碼 前饋網(wǎng)絡(luò) 卷積網(wǎng)絡(luò) 循環(huán)網(wǎng)絡(luò)(recurrent networks ) 遞歸網(wǎng)絡(luò)(re...
    JackHorse閱讀 4,502評(píng)論 0 2
  • 有人說(shuō)萬(wàn)事開頭難,有人說(shuō)堅(jiān)持到底難。對(duì)于一個(gè)淺嘗輒止的人來(lái)說(shuō),平臺(tái)期無(wú)疑是最難過(guò)的。 小A是一個(gè)私企里的部門經(jīng)理。...
    Lucky_mama閱讀 192評(píng)論 0 1
  • 因?yàn)橐痪洹俺峭獾娜硕枷脒M(jìn)去,城里的人都想出去”,在家的幾天特意拜讀了一下錢老爺子的圍城,方鴻漸一個(gè)具有多重特色...
    站在風(fēng)中的豬閱讀 724評(píng)論 0 0

友情鏈接更多精彩內(nèi)容