Google 研究者發(fā)表了題為“大型語(yǔ)言模型的涌現(xiàn)能力”(Emergent Abilities of Large Language Models)的論文,考察了以 GPT-3 為代表的語(yǔ)言模型,發(fā)現(xiàn)語(yǔ)言模型的表現(xiàn)并非隨著模型規(guī)模增加而線性增長(zhǎng),而是存在臨界點(diǎn),只有當(dāng)模型大到超過(guò)特定的臨界值,才會(huì)涌現(xiàn)出較小的模型不具備的能力。語(yǔ)言模型的這種涌現(xiàn)能力意味著,大型語(yǔ)言模型可能進(jìn)一步擴(kuò)展語(yǔ)言模型的功能。
GPT-自回歸語(yǔ)言模型
RLHF
GPT-1
GPT-2
GPT-3
InstructGPT
1.使用人類(lèi)更喜歡的數(shù)據(jù)去做訓(xùn)練(ALIGN)
2.應(yīng)用強(qiáng)化學(xué)習(xí)提升性能天花板。
人工打分(強(qiáng)化學(xué)習(xí))
吵一架 -5
跟他道歉 -1
認(rèn)錯(cuò)要快 +3
ChatGPT 訓(xùn)練流程
監(jiān)督學(xué)習(xí)(SFT)
收集人工編寫(xiě)的回答
獎(jiǎng)勵(lì)模型(RM)
從問(wèn)題庫(kù)中選擇問(wèn)題,重復(fù)生成四次回復(fù),人工排序,利用排序結(jié)果訓(xùn)練獎(jiǎng)勵(lì)模型。
LossFunction:Pair-Wise Loss
RLHF
訓(xùn)練細(xì)節(jié):GPT-3、2 Epochs、
強(qiáng)化學(xué)習(xí)算法 PPO
1.在每個(gè) token 上都計(jì)算一個(gè)和第一步訓(xùn)練出的生成模型之間的 KL-Divergence,其目的是希望不要強(qiáng)化學(xué)習(xí)過(guò)程中不要太過(guò)于偏離最開(kāi)始的生成模型。
2.PPO-PTX,在訓(xùn)練的同時(shí)加入一些通用預(yù)訓(xùn)練任務(wù),以維持在通用 NLP 任務(wù)上的性能。