ChatGPT

Google 研究者發(fā)表了題為“大型語(yǔ)言模型的涌現(xiàn)能力”(Emergent Abilities of Large Language Models)的論文,考察了以 GPT-3 為代表的語(yǔ)言模型,發(fā)現(xiàn)語(yǔ)言模型的表現(xiàn)并非隨著模型規(guī)模增加而線性增長(zhǎng),而是存在臨界點(diǎn),只有當(dāng)模型大到超過(guò)特定的臨界值,才會(huì)涌現(xiàn)出較小的模型不具備的能力。語(yǔ)言模型的這種涌現(xiàn)能力意味著,大型語(yǔ)言模型可能進(jìn)一步擴(kuò)展語(yǔ)言模型的功能。

GPT-自回歸語(yǔ)言模型

RLHF


GPT-1

GPT-2

GPT-3

InstructGPT

1.使用人類(lèi)更喜歡的數(shù)據(jù)去做訓(xùn)練(ALIGN)

2.應(yīng)用強(qiáng)化學(xué)習(xí)提升性能天花板。


人工打分(強(qiáng)化學(xué)習(xí))

吵一架 -5

跟他道歉 -1

認(rèn)錯(cuò)要快 +3


ChatGPT 訓(xùn)練流程

監(jiān)督學(xué)習(xí)(SFT)

收集人工編寫(xiě)的回答

獎(jiǎng)勵(lì)模型(RM)

從問(wèn)題庫(kù)中選擇問(wèn)題,重復(fù)生成四次回復(fù),人工排序,利用排序結(jié)果訓(xùn)練獎(jiǎng)勵(lì)模型。

LossFunction:Pair-Wise Loss

RLHF

訓(xùn)練細(xì)節(jié):GPT-3、2 Epochs、


強(qiáng)化學(xué)習(xí)算法 PPO

1.在每個(gè) token 上都計(jì)算一個(gè)和第一步訓(xùn)練出的生成模型之間的 KL-Divergence,其目的是希望不要強(qiáng)化學(xué)習(xí)過(guò)程中不要太過(guò)于偏離最開(kāi)始的生成模型。

2.PPO-PTX,在訓(xùn)練的同時(shí)加入一些通用預(yù)訓(xùn)練任務(wù),以維持在通用 NLP 任務(wù)上的性能。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容