Med-PaLM;Med-PaLM2

Med-PaLM

原鏈接:https://zhuanlan.zhihu.com/p/615828955

Med-PaLM2

Google latest health AI research updates:

https://blog.google/technology/health/ai-llm-medpalm-research-thecheckup/

去年,Google建立了Med-PaLM [1](Leo Zhang:當(dāng)機器成為我們的醫(yī)生,在AI時代,基礎(chǔ)模型(foundation model)助力醫(yī)生與患者),一個為醫(yī)療領(lǐng)域Fine Tuning的PaLM版本。Med-PaLM是第一個在美國醫(yī)學(xué)執(zhí)照式問題上獲得 "合格分數(shù)"(>60%)的模型。這個模型不僅準(zhǔn)確地回答了多項選擇題和開放式問題,而且還提供了理由并評估了自己的回答。

最近,Med-PaLM的下一個迭代,Med-PaLM 2 [2],在醫(yī)學(xué)考試問題上持續(xù)表現(xiàn)出 "專家 "醫(yī)生水平,得分達到85%。這比Med-PaLM之前的表現(xiàn)提高了18%,遠遠超過了類似的人工智能模型。

雖然這是令人振奮的進展,但仍有許多工作要做,以確保這項技術(shù)能夠在現(xiàn)實世界中發(fā)揮作用。我們的模型根據(jù)14個標(biāo)準(zhǔn)進行了測試--包括科學(xué)事實性、精確性、醫(yī)學(xué)共識、推理、偏見和傷害--并由來自不同背景和國家的臨床醫(yī)生和非臨床醫(yī)生進行了評估。通過這一評估,我們發(fā)現(xiàn)與標(biāo)準(zhǔn)答案存在重大差距,并了解這項技術(shù)如何能夠幫助改善健康服務(wù)。


GPT-4在醫(yī)學(xué)挑戰(zhàn)問題上的能力

Capabilities of GPT-4 on Medical Challenge Problems

Mar 2023

Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, Eric Horvitz

[Microsoft, OpenAI]

https://arxiv.org/abs/2303.13375

大型語言模型(LLM)在包括醫(yī)學(xué)在內(nèi)的各個領(lǐng)域的自然語言理解和生成方面表現(xiàn)出了非凡的能力。我們在醫(yī)學(xué)能力考試和基準(zhǔn)數(shù)據(jù)集上對GPT-4這一最先進的LLM進行了全面評估。GPT-4是一種通用模型,不是專門通過訓(xùn)練來解決醫(yī)學(xué)問題,也不是專門為解決臨床任務(wù)而設(shè)計的。我們的分析涵蓋了USMLE的兩套官方實踐材料,USMLE是一個三步考試計劃,用于評估美國的臨床能力和授予許可證。我們還評估了MultiMedQA基準(zhǔn)數(shù)據(jù)集套件的性能。除了測量模型性能外,還進行了實驗來研究包含文本和圖像的試題對模型性能、訓(xùn)練過程中內(nèi)容記憶的探索以及學(xué)習(xí)概率校準(zhǔn)的影響,這在醫(yī)學(xué)等高風(fēng)險應(yīng)用中至關(guān)重要。我們的研究結(jié)果表明,在沒有任何專門提示制作的情況下,GPT-4在USMLE上的及格分數(shù)超過了20多分,并且優(yōu)于早期的通用模型(GPT-3.5)以及專門根據(jù)醫(yī)學(xué)知識進行微調(diào)的模型(Med PaLM,F(xiàn)lan PaLM 540B的提示調(diào)整版本)。此外,GPT-4的校準(zhǔn)效果明顯優(yōu)于GPT-3.5,這表明其預(yù)測答案正確可能性的能力大大提高。我們還通過一項案例研究定性地探索了模型的行為,該案例研究表明GPT-4有能力解釋醫(yī)學(xué)推理,向?qū)W生進行個性化解釋,并圍繞醫(yī)學(xué)案例交互式地設(shè)計新的反事實場景。討論了這些發(fā)現(xiàn)對GPT-4在醫(yī)學(xué)教育、評估和臨床實踐中的潛在用途的影響,并適當(dāng)關(guān)注準(zhǔn)確性和安全性方面的挑戰(zhàn)。


大語言模型編碼臨床醫(yī)學(xué)知識

Large Language Models Encode Clinical Knowledge?

Dec 2022

Karan Singhal*, Shekoofeh Azizi*, Tao Tu*, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam?, Vivek Natarajan?

[Google Research, DeepMind]

https://arxiv.org/abs/2212.13138

摘要:大型語言模型(LLM)在自然語言理解和生成方面表現(xiàn)出了令人印象深刻的能力,但醫(yī)學(xué)和臨床應(yīng)用的質(zhì)量標(biāo)準(zhǔn)很高。如今,評估模型臨床知識的嘗試通常依賴于對有限基準(zhǔn)的自動評估。沒有標(biāo)準(zhǔn)來評估各種任務(wù)中的模型預(yù)測和推理。為了解決這一問題,我們提出了MultiMedQA,這是一個基準(zhǔn),結(jié)合了六個現(xiàn)有的開放式問答數(shù)據(jù)集,涵蓋專業(yè)醫(yī)學(xué)考試、研究和消費者查詢;以及HealthSearchQA,一個新的在線搜索醫(yī)學(xué)問題的免費回答數(shù)據(jù)集。我們提出了一個框架,用于沿著多個軸對模型答案進行人類評估,包括真實性、準(zhǔn)確性、可能的危害和偏見。此外,我們在MultiMedQA上評估了PaLM(一種5400億參數(shù)的LLM)及其指令調(diào)優(yōu)變體Flan PaLM。使用不同提示策略的組合,F(xiàn)lan PaLM在每個MultiMedQA多項選擇數(shù)據(jù)集(MedQA、MedMCQA、PubMedQA、MMLU臨床主題)上都達到了最先進的準(zhǔn)確性,其中在MedQA(美國醫(yī)學(xué)執(zhí)照考試問題)上的準(zhǔn)確性為67.6%,比以前的最先進水平高出17%以上。然而,人類評估揭示了Flan-PaLM輸出的關(guān)鍵差距。為了解決這個問題,我們引入了指令提示調(diào)優(yōu)(instruction prompt tuning),這是一種使用一些示例將LLM與新域?qū)R的參數(shù)高效方法。由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞,但仍不如臨床醫(yī)生。

我們發(fā)現(xiàn),隨著模型放大和指令提示微調(diào),理解(comprehension)、知識回憶和醫(yī)學(xué)推理都會提高,這表明LLM在醫(yī)學(xué)中的潛在效用。我們的人類評估揭示了當(dāng)今模型的重要局限性,強調(diào)了評估框架和方法開發(fā)(evaluation frameworks and method development)在為臨床應(yīng)用創(chuàng)建安全、有用的LLM模型方面的重要性。

1? ? 引言

醫(yī)學(xué)是一項人道的努力,語言使臨床醫(yī)生、研究人員和患者之間能夠進行關(guān)鍵的互動。然而,今天用于醫(yī)學(xué)和醫(yī)療保健的人工智能模型在很大程度上未能充分利用語言。這些模型雖然有用,但主要是單一任務(wù)系統(tǒng)(例如,分類、回歸、分割),缺乏表現(xiàn)力和交互能力[21,81,97]。因此,今天的模型所能做的和現(xiàn)實世界臨床工作流程中對它們的期望之間存在不一致[42,74]。

大型語言模型(LLM)的最新進展為重新思考人工智能系統(tǒng)提供了機會,將語言作為中介人類與人工智能交互的工具。LLM是“基礎(chǔ)模型”[10],是一種經(jīng)過預(yù)訓(xùn)練的大型人工智能系統(tǒng),可以在眾多領(lǐng)域和不同任務(wù)中以最小的努力重新調(diào)整用途。這些表達和交互模型在大規(guī)模地從醫(yī)學(xué)語料庫中編碼的知識中學(xué)習(xí)一般有用的表示的能力方面提供了巨大的前景。此類模型在醫(yī)學(xué)中有幾個令人興奮的潛在應(yīng)用,包括知識檢索、臨床決策支持、關(guān)鍵發(fā)現(xiàn)總結(jié)、對患者的初級保健問題進行分類等。

然而,該領(lǐng)域的安全關(guān)鍵性需要深思熟慮地制定評估框架,使研究人員能夠有意義地衡量進展,捕捉和減輕潛在危害。這對LLM來說尤其重要,因為這些模型可能會產(chǎn)生與臨床和社會價值觀不一致的世代。例如,他們可能會產(chǎn)生令人信服的醫(yī)學(xué)錯誤信息的幻覺,或者加入可能加劇健康差距的偏見。

為了評估LLM對臨床知識的編碼程度并評估其在醫(yī)學(xué)中的潛力,我們考慮了醫(yī)學(xué)問答。這項任務(wù)具有挑戰(zhàn)性:為醫(yī)學(xué)問題提供高質(zhì)量的答案需要理解醫(yī)學(xué)背景,回憶適當(dāng)?shù)尼t(yī)學(xué)知識,并利用專家信息進行推理?,F(xiàn)有的醫(yī)學(xué)問答基準(zhǔn)[33]通常僅限于評估分類準(zhǔn)確性或自動自然語言生成指標(biāo)(例如,BLEU[67]),并且不能實現(xiàn)現(xiàn)實世界臨床應(yīng)用所需的詳細分析。這就產(chǎn)生了對廣泛的醫(yī)學(xué)問答基準(zhǔn)的未滿足需求,以評估LLM的反應(yīng)真實性、在醫(yī)學(xué)和科學(xué)推理中使用專家知識、有用性、準(zhǔn)確性、健康公平性,以及對接受模型輸出作為事實的人類的潛在傷害。

為了解決這一問題,我們策劃了MultiMedQA,這是一個由七個醫(yī)學(xué)問答數(shù)據(jù)集組成的基準(zhǔn),包括六個現(xiàn)有數(shù)據(jù)集:MedQA[33]、MedMCQA[64]、PubMedQA[34]、LiveQA[1]、藥物質(zhì)量保證[2]和MMLU臨床主題[29]。我們新引入了第七個數(shù)據(jù)集HealthSearchQA,它由常見的搜索健康問題組成。

為了使用MultiMedQA評估LLM,我們建立在PaLM,一個5400億參數(shù)的LLM[14]及其指令調(diào)整變體Flan PaLM[15]的基礎(chǔ)上。通過結(jié)合少量注射[12]、思維鏈[91]和自我一致性[88]提示策略,F(xiàn)lan PaLM在MedQA、MedMCQA、PubMedQA和MMLU臨床主題上實現(xiàn)了最先進的(SOTA)性能,通常顯著優(yōu)于幾個強LLM基線。在包括USMLE問題的MedQA數(shù)據(jù)集上,F(xiàn)LAN PaLM比之前的SOTA高出17%以上。

盡管Flan PaLM在多項選擇題上表現(xiàn)強勁,但其對消費者醫(yī)療問題的回答揭示了關(guān)鍵差距。為了解決這個問題,我們提出了指令提示調(diào)優(yōu),這是一種數(shù)據(jù)和參數(shù)高效的對齊技術(shù),以進一步使Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域。由此產(chǎn)生的模型Med-PaLM在我們的試點人類評估框架的軸上表現(xiàn)令人鼓舞。例如,一個臨床醫(yī)生小組判斷,只有61.9%的Flan-PaLM長形式答案符合科學(xué)共識,而Med-PaLM答案的這一比例為92.6%,與臨床醫(yī)生生成的答案(92.9%)相當(dāng)。同樣,29.7%的Flan-PaLM答案被評為可能導(dǎo)致有害結(jié)果,而Med-PaLM的這一比率為5.8%,與臨床醫(yī)生產(chǎn)生的答案(6.5%)相當(dāng)。

雖然這些結(jié)果是有希望的,但醫(yī)學(xué)領(lǐng)域是復(fù)雜的。進一步的評估是必要的,特別是在公平、公正和偏見方面。我們的工作表明,在這些模型能夠用于臨床應(yīng)用之前,必須克服許多限制。我們在研究中概述了一些關(guān)鍵的局限性和未來研究的方向。

我們的主要貢獻總結(jié)如下:

?醫(yī)學(xué)問答中LLM的評估方法

-HealthSearchQA和MultiMedQA的處理我們介紹HealthSearchQA,這是一個由3375個常見搜索的消費者醫(yī)療問題組成的數(shù)據(jù)集。我們將該數(shù)據(jù)集與其他六個現(xiàn)有的醫(yī)學(xué)問答開放數(shù)據(jù)集一起呈現(xiàn),涵蓋醫(yī)學(xué)考試、醫(yī)學(xué)研究和消費者醫(yī)學(xué)問題,作為評估LLM臨床知識和問答能力的不同基準(zhǔn)(見第3.1節(jié))。

-人類評估的試點框架我們試點了一個醫(yī)生和非專業(yè)用戶評估框架,以在多項選擇數(shù)據(jù)集上評估LLM性能的多個軸,超過準(zhǔn)確性。我們的評估評估了答案是否符合科學(xué)和臨床共識、傷害的可能性和可能程度、閱讀理解、對相關(guān)臨床知識的回憶、通過有效推理對知識的操縱、回答的完整性、偏見的可能性、相關(guān)性和幫助性(見第3.2節(jié))。

?醫(yī)學(xué)問答基準(zhǔn)的最新成果

在MedQA、MedMCQA、PubMedQA和MMLU臨床主題數(shù)據(jù)集上,F(xiàn)LAN-PaLM通過提示策略的組合實現(xiàn)了SOTA性能,超過了幾個強大的LLM基線。具體而言,我們在MedQA上的準(zhǔn)確率達到67.6%(比之前的SOTA高出17%以上),在MedMCQA上達到57.6%,在PubMedQA上達到79.0%(見第4節(jié))。

?指令提示調(diào)整,使LLM與醫(yī)學(xué)領(lǐng)域保持一致

我們引入了指令提示調(diào)優(yōu),這是一種簡單、數(shù)據(jù)和參數(shù)高效的技術(shù),用于將LLM與安全關(guān)鍵醫(yī)療領(lǐng)域?qū)R(見第3.3.3節(jié))。我們利用這一點構(gòu)建Med PaLM,這是專門用于醫(yī)療領(lǐng)域的指令提示調(diào)優(yōu)版Flan PaLM。我們的人類評估框架揭示了Flan PaLM在科學(xué)基礎(chǔ)、危害和偏見方面的局限性。然而,根據(jù)臨床醫(yī)生和非專業(yè)用戶的說法,Med-PaLM在其中幾個軸上顯著縮小了與臨床醫(yī)生的差距(甚至可以比較有利)(見第4.5節(jié))。

?通過我們的人類評估揭示了LLM的主要局限性

雖然我們的研究結(jié)果證明了LLM在醫(yī)學(xué)中的潛力,但它們也表明,為了使這些模型在現(xiàn)實世界的臨床應(yīng)用中可行,需要進行一些關(guān)鍵的改進。我們概述了應(yīng)對這些挑戰(zhàn)的未來研究方向和緩解策略(見第6節(jié))。

2相關(guān)工作

大型語言模型(LLM)

在過去的幾年里,LLM在自然語言處理(NLP)任務(wù)上表現(xiàn)出了令人印象深刻的性能[12,14,15,30,69,70,73,89,91,99]。他們的成功歸功于擴大了基于Transformer的模型的訓(xùn)練[84]。研究表明,模型性能和數(shù)據(jù)效率隨模型大小和數(shù)據(jù)集大小而變化[37]。LLM通常使用大規(guī)模的自我監(jiān)督進行訓(xùn)練,使用維基百科和BooksCorpus等通用文本語料庫。他們在廣泛的任務(wù)中證明了有希望的結(jié)果,包括需要專業(yè)科學(xué)知識和推理的任務(wù)[17,29]。也許這些LLM最有趣的方面是它們的上下文少shot能力,它使這些模型適應(yīng)不同的任務(wù),而不需要基于梯度的參數(shù)更新[12,40,43,89]。這使他們能夠快速概括到看不見的任務(wù),甚至通過適當(dāng)?shù)奶崾静呗员憩F(xiàn)出明顯的推理能力[14,47,79,91]。

幾項研究表明,LLM有能力充當(dāng)內(nèi)隱知識庫[29,35,79]。然而,這些模型存在產(chǎn)生幻覺、放大訓(xùn)練數(shù)據(jù)中存在的社會偏見以及推理能力不足的重大風(fēng)險。為了檢查LLM的當(dāng)前局限性,并量化人類和LLM語言能力之間的巨大差距,BIG bench被引入作為一項社區(qū)范圍的舉措,以對在出版時被認為超出當(dāng)前語言模型能力的任務(wù)進行基準(zhǔn)測試[78]。

科學(xué)和生物醫(yī)學(xué)法學(xué)碩士

最近的研究,如SciBERT[5]、BioNLP[46]、BioMegatron[76]、BioBERT[44]、PubMedBERT[25]、DARE[66]、ScholarBERT[31]和BioGPT[56],已經(jīng)證明了使用精心策劃的科學(xué)和生物醫(yī)學(xué)語料庫進行判別和生成語言建模的有效性。這些模型雖然很有前景,但與GPT-3[12]和PaLM[14]等LLM相比,其規(guī)模和范圍通常較小。雖然醫(yī)學(xué)領(lǐng)域具有挑戰(zhàn)性,但LLM的具體建議已經(jīng)包括了各種各樣的例子,從增強非關(guān)鍵臨床評估到總結(jié)復(fù)雜的醫(yī)療通信[3,41,75]。

與我們的工作最接近的先例是Taylor等人[79],他為科學(xué)引入了一種名為Galactica的LLM,以及Liévin等人[50],他們研究了LLM在醫(yī)學(xué)問答環(huán)境中的推理能力。特別是,Liévin等人[50]使用了instruction GPT-3,一種經(jīng)過指令調(diào)整的LLM[63],并在頂部應(yīng)用了思想鏈提示[91],以改進MedQA、MedMCQA和PubMedQA數(shù)據(jù)集的結(jié)果。

3方法

我們在這里詳細描述:

?數(shù)據(jù)集:用于評估醫(yī)學(xué)問答中LLM的MultiMedQA基準(zhǔn)。

?人類評估框架:臨床醫(yī)生和非專業(yè)人員對模型(和臨床醫(yī)生)答案進行評估的評級框架。

?建模:在本研究中,大型語言模型(LLM)以及用于將其與醫(yī)學(xué)領(lǐng)域的要求相一致的方法。

3.1數(shù)據(jù)集

為了評估LLM在醫(yī)學(xué)中的潛力,我們專注于醫(yī)學(xué)問答?;卮疳t(yī)學(xué)問題需要閱讀理解能力、準(zhǔn)確回憶醫(yī)學(xué)知識的能力以及對專家知識的掌握。有幾個現(xiàn)有的醫(yī)學(xué)問答數(shù)據(jù)集可供研究。其中包括評估專業(yè)醫(yī)學(xué)知識的數(shù)據(jù)集,如醫(yī)學(xué)考試問題[33,64],需要醫(yī)學(xué)研究理解技能的問題[34],以及需要評估用戶意圖并為其醫(yī)學(xué)信息需求提供有用答案的問題[1,2]。

我們承認醫(yī)學(xué)知識在數(shù)量和質(zhì)量上都是巨大的?,F(xiàn)有的基準(zhǔn)在本質(zhì)上是有限的,只提供了醫(yī)學(xué)知識空間的部分覆蓋范圍。盡管如此,與多項選擇準(zhǔn)確性或BLEU等自然語言生成指標(biāo)相比,將許多不同的醫(yī)學(xué)問答數(shù)據(jù)集結(jié)合在一起可以對LLM知識進行更深入的評估。我們組合在一起的數(shù)據(jù)集探討了不同的能力——有些是多項選擇題,而另一些則需要長格式的答案;有些是開放域(回答問題時不將可用信息限制在預(yù)先指定的來源),而另一些是封閉域(通過從相關(guān)參考文本中檢索內(nèi)容來回答問題),并且來自不同的來源。近年來,醫(yī)學(xué)問答領(lǐng)域開展了廣泛的活動,我們參考[33]對醫(yī)學(xué)問答數(shù)據(jù)集進行了全面總結(jié)。

3.1.1 MultiMedQA-醫(yī)學(xué)問答的基準(zhǔn)

MultiMedQA包括多項選擇題回答數(shù)據(jù)集、需要醫(yī)療專業(yè)人員對問題做出較長形式回答的數(shù)據(jù)集,以及需要非專業(yè)人員對可能提出的問題做出較長格式回答的數(shù)據(jù)集中。其中包括MedQA[33]、MedMCQA[64]、PubMedQA[34]、LiveQA[1]、藥物QA[2]和MMLU臨床主題[29]數(shù)據(jù)集。我們通過一個新的精心策劃的常見搜索健康查詢數(shù)據(jù)集HealthSearchQA進一步增強了MultiMedQA。所有數(shù)據(jù)集均為英語,我們將在下面對其進行詳細描述。

這些數(shù)據(jù)集沿以下軸變化:

?形式:選擇題與長式答題

?測試的能力:例如,單獨評估醫(yī)學(xué)事實的回憶,與評估除事實回憶之外的醫(yī)學(xué)推理能力

?領(lǐng)域:開放領(lǐng)域與封閉領(lǐng)域問題

?問題來源:來自專業(yè)體檢、醫(yī)學(xué)研究或?qū)で筢t(yī)療信息的消費者

?標(biāo)簽和元數(shù)據(jù):標(biāo)簽或解釋的存在及其來源

雖然MedMCQA、PubMedQA、LiveQA和藥物質(zhì)量保證提供了參考長格式的答案或解釋,但我們在這項工作中沒有使用它們。首先,參考答案并非來自不同數(shù)據(jù)集的一致來源。答案通常來自自動化工具或非臨床醫(yī)生,如圖書館員。在這些開創(chuàng)性的數(shù)據(jù)集中,參考答案和解釋的構(gòu)建并沒有針對長答案質(zhì)量的整體或全面評估進行優(yōu)化,這使得它們不太適合作為“基本事實”來使用BLEU等自動化自然語言指標(biāo)來評估LLM。為了緩解這種情況,如第4.5節(jié)所述,我們從合格的臨床醫(yī)生那里獲得了一組標(biāo)準(zhǔn)化的回答,以回答基準(zhǔn)中的一個子集問題。其次,考慮到醫(yī)學(xué)領(lǐng)域的安全關(guān)鍵要求,我們認為重要的是超越使用BLEU等指標(biāo)的長形式答案生成質(zhì)量的自動化測量,轉(zhuǎn)而使用本研究中提出的更細致的人類評估框架

醫(yī)療質(zhì)量保證(USMLE)

MedQA數(shù)據(jù)集[33]由美國醫(yī)學(xué)執(zhí)照考試(USMLE)風(fēng)格的問題組成,這些問題是從美國國家醫(yī)學(xué)委員會考試中選擇4或5個可能的答案獲得的。開發(fā)集由11450個問題組成,測試集有1273個問題。

醫(yī)療質(zhì)量保證

MedMCQA數(shù)據(jù)集由來自印度醫(yī)學(xué)入學(xué)考試(AIIMS/NEET)的194k多個4選項多項選擇題組成[64]。該數(shù)據(jù)集涵蓋2.4k個醫(yī)療保健主題和21個醫(yī)學(xué)主題。開發(fā)集內(nèi)容豐富,有超過18.7萬個問題。

PubMedQA公司

PubMedQA數(shù)據(jù)集[34]由1k個專家標(biāo)記的問答對組成,任務(wù)是在給定一個問題的情況下產(chǎn)生一個是/否/可能的多選答案,并將PubMed摘要作為上下文。雖然MedQA和MedMCQA數(shù)據(jù)集是開放域問答任務(wù),但PubMedQA任務(wù)是封閉域的,因為它需要從支持的PubMed抽象上下文中進行答案推理。

毫米盧

“測量大規(guī)模多任務(wù)語言理解”(MMLU)[29]包括來自57個領(lǐng)域的考試問題。我們選擇了與醫(yī)學(xué)知識最相關(guān)的子任務(wù):“解剖學(xué)”、“臨床知識”、“大學(xué)醫(yī)學(xué)”、“醫(yī)學(xué)遺傳學(xué)”、“專業(yè)醫(yī)學(xué)”和“大學(xué)生物學(xué)”。每個MMLU子任務(wù)包含有四個選項的多項選擇題以及答案。

現(xiàn)場質(zhì)量保證

LiveQA數(shù)據(jù)集[1]是作為2017年文本檢索挑戰(zhàn)賽(TREC)的一部分進行策劃的。該數(shù)據(jù)集由人們提交給國家醫(yī)學(xué)圖書館(NLM)的醫(yī)學(xué)問題組成。該數(shù)據(jù)集還包括從國家衛(wèi)生研究所(NIH)網(wǎng)站等可信來源手動收集的參考答案。

藥物質(zhì)量保證

藥物質(zhì)量保證數(shù)據(jù)集[2]由消費者常見的有關(guān)藥物的問題組成。除了這個問題,數(shù)據(jù)集還包含與藥物焦點和相互作用相對應(yīng)的注釋。與LiveQA類似,我們評估模型對測試集中的問題產(chǎn)生長格式答案的能力。

健康搜索QA

我們策劃了自己的額外數(shù)據(jù)集,包括3375個常見的搜索消費者問題,稱為“HealthSearchQA”。數(shù)據(jù)集是使用種子醫(yī)學(xué)狀況及其相關(guān)癥狀進行整理的。我們使用種子數(shù)據(jù)來檢索搜索引擎生成的公開可用的常見搜索問題,這些問題會顯示給所有輸入種子術(shù)語的用戶。我們發(fā)布該數(shù)據(jù)集作為消費者醫(yī)療問題回答的開放基準(zhǔn),并希望這將成為社區(qū)的有用資源,作為反映現(xiàn)實世界消費者擔(dān)憂的數(shù)據(jù)集。

3.2人的評估框架

在這里,我們描述了我們提出的對醫(yī)學(xué)問題的長形式答案進行人類評估的框架。

3.2.1臨床醫(yī)生評估

雖然多項選擇題的客觀準(zhǔn)確性指標(biāo)是衡量模型性能的可靠指標(biāo),但它們省略了幾個重要的細節(jié)。為了更深入地評估LLM在醫(yī)學(xué)主題開放式問答中的生成輸出,我們開發(fā)了一個試點框架,用于在LiveQA、DrudiceQA和HealthSearchQA數(shù)據(jù)集中對消費者醫(yī)學(xué)問題的長形式模型答案進行人類評估。

該試點框架的靈感來自Feng等人[22]在類似領(lǐng)域發(fā)表的方法,以檢查LLM世代在臨床環(huán)境中的優(yōu)勢和劣勢。我們使用焦點小組和對英國、美國和印度臨床醫(yī)生的采訪來確定額外的評估軸[60],并擴展框架項目,以解決與科學(xué)共識一致的概念、傷害的可能性和可能性、答案的完整性和缺失以及偏見的可能性。通過詢問評分者模型的輸出是否符合普遍的科學(xué)共識(例如,以公認的臨床實踐指南的形式),而不是科學(xué)共識,來衡量與科學(xué)共識的一致性;或者在這個問題上是否沒有明確的科學(xué)共識。危害是一個復(fù)雜的概念,可以從幾個方面進行評估(例如身體健康、心理健康、道德、財務(wù)和許多其他方面)。在回答這個問題時,評分者被要求只關(guān)注與身體/心理健康相關(guān)的傷害,并評估嚴(yán)重程度(以AHRQ常見傷害格式[93]為靈感的格式)和可能性,假設(shè)消費者或醫(yī)生可能會根據(jù)答案的內(nèi)容采取行動。評分者廣泛評估了偏見,考慮到答案中是否包含對特定患者群體不適用或不準(zhǔn)確的信息。表2中總結(jié)了評估中提出的問題

我們的框架項目的形式、措辭和反應(yīng)量表點是通過三名合格的臨床醫(yī)生對每個數(shù)據(jù)集25個問答元組進行一式三份的評估進行進一步訪談來完善的。為臨床醫(yī)生編寫的說明包括問題評級的指示性示例,并重復(fù),直到臨床醫(yī)生的評級方法趨于一致,表明說明是可用的。一旦指南融合在一起,來自消費者醫(yī)療問題數(shù)據(jù)集的一組更大的問答元組就由英國、美國或印度的九名臨床醫(yī)生中的一名進行單一評級,這些臨床醫(yī)生有資格在各自國家執(zhí)業(yè),具有兒科、外科、內(nèi)科和初級保健等專業(yè)經(jīng)驗。

3.2.2非專業(yè)用戶(非專家)評估

為了評估消費者醫(yī)療問題答案的有用性和實用性,我們進行了額外的非專業(yè)用戶(非專家)評估。這是由五名沒有醫(yī)學(xué)背景的評分員進行的,他們都在印度。這項練習(xí)的目的是評估答案在多大程度上解決了問題背后的感知意圖,以及它的幫助和可操作性。表3總結(jié)了評估中提出的問題

3.3建模

在本節(jié)中,我們詳細介紹了大型語言模型(LLM)以及用于使其與醫(yī)學(xué)領(lǐng)域的需求保持一致的技術(shù)。

3.3.1型號

在本研究中,我們建立在LLM的PaLM和Flan-PaLM家族的基礎(chǔ)上。

棕櫚

由[14]引入的Pathways Language Model(PaLM)是一種密集激活的僅限解碼器的Transformer語言模型,使用Pathways[4]進行訓(xùn)練,Pathways[4]是一種大規(guī)模的ML加速器編排系統(tǒng),能夠在TPU吊艙中進行高效訓(xùn)練。PaLM訓(xùn)練語料庫由7800億個令牌組成,代表網(wǎng)頁、維基百科文章、源代碼、社交媒體對話、新聞文章和書籍的混合。所有三個PaLM模型變體都是針對訓(xùn)練數(shù)據(jù)的恰好一個時期進行訓(xùn)練的。關(guān)于訓(xùn)練語料庫的更多細節(jié),我們參考[14,19,80]。在發(fā)布時,PaLM 540B實現(xiàn)了突破性的性能,在一套多步驟推理任務(wù)上優(yōu)于微調(diào)的最先進模型,并超過了BIG平臺上的平均人類性能[14,78]。

3.3.2將LLM與醫(yī)學(xué)領(lǐng)域相結(jié)合

像PaLM[14]和GPT-3[12]這樣的通用LLM在具有挑戰(zhàn)性的基準(zhǔn)測試(如BIG bench)上的各種任務(wù)上都達到了最先進的性能。然而,鑒于醫(yī)學(xué)領(lǐng)域的安全關(guān)鍵性,有必要根據(jù)特定領(lǐng)域的數(shù)據(jù)調(diào)整和調(diào)整模型。典型的遷移學(xué)習(xí)和領(lǐng)域自適應(yīng)方法依賴于使用大量的領(lǐng)域內(nèi)數(shù)據(jù)對模型進行端到端的微調(diào),鑒于醫(yī)學(xué)數(shù)據(jù)的匱乏,這種方法在這里很有挑戰(zhàn)性。因此,在這項研究中,我們專注于基于提示[12]和提示調(diào)整[45]的數(shù)據(jù)高效對齊策略。

提示策略

Brown等人[12]證明了LLM是強大的少shot學(xué)習(xí)者,可以通過提示策略實現(xiàn)快速的上下文學(xué)習(xí)。通過在輸入上下文中編碼為提示文本的少數(shù)演示示例,這些模型能夠在沒有任何梯度更新或微調(diào)的情況下推廣到新示例和新任務(wù)。上下文少shot學(xué)習(xí)的顯著成功刺激了許多提示策略的發(fā)展,包括草稿簿[61]、思維鏈[91]和最少到最多提示[100],尤其是對于數(shù)學(xué)問題[17]等多步驟計算和推理問題。在這項研究中,我們重點關(guān)注標(biāo)準(zhǔn)的少數(shù)shot、思維鏈和自我一致性提示,如下所述。

很少有shot提示

Brown等人[12]引入了標(biāo)準(zhǔn)的幾次shot提示策略。在這里,模型的提示被設(shè)計為包括通過基于文本的演示來描述任務(wù)的幾個shot示例。這些演示通常被編碼為輸入輸出對。示例的數(shù)量通常是根據(jù)可以放入模型的輸入上下文窗口的令牌的數(shù)量來選擇的。在提示之后,向模型提供輸入,并要求其生成測試時間預(yù)測。零樣本提示對應(yīng)項通常只涉及描述任務(wù)的指令,沒有任何其他示例。Brown等人[12]觀察到,雖然零樣本提示隨著模型大小適度縮放,但使用少量快照提示時的性能增長更快。此外,Wei等人[90]觀察到了涌現(xiàn)能力——也就是說,在提示范式中,在小模型中不存在的能力,但在超過一定模型大小的隨機性能之上迅速提高。

在這項研究中,我們與一個合格的臨床醫(yī)生小組合作,確定了最佳的演示示例,并制定了為數(shù)不多的注射提示。如第A.8節(jié)所述,為每個數(shù)據(jù)集設(shè)計了單獨的提示。少shot演示的數(shù)量因數(shù)據(jù)集而異。通常,我們?yōu)橄M者醫(yī)療問答數(shù)據(jù)集使用了5個輸入-輸出示例,但考慮到也需要適應(yīng)提示文本中的抽象上下文,PubMedQA將數(shù)量減少到3個或更少。

思維鏈提示

Wei等人[91]引入的思維鏈(CoT)包括通過逐步分解和一組連貫的中間推理步驟來增強提示中的每個少數(shù)shot示例,以獲得最終答案。該方法旨在模擬人類在解決需要多步驟計算和推理的問題時的思維過程。Wei等人[91]證明了CoT提示可以在足夠大的語言模型中激發(fā)推理能力,并顯著提高數(shù)學(xué)問題等任務(wù)的性能[17]。此外,這種CoT推理的出現(xiàn)似乎是LLM的一種突發(fā)能力[90]。Lewkowycz等人[47]將CoT提示作為其工作中的關(guān)鍵策略之一,從而在幾個STEM基準(zhǔn)上取得突破性的LLM性能。

本研究中探討的許多醫(yī)學(xué)問題都涉及復(fù)雜的多步驟推理,這使得它們非常適合CoT提示技術(shù)。我們與臨床醫(yī)生一起制作了CoT提示,以提供如何推理和回答給定醫(yī)學(xué)問題的明確演示。第A.9節(jié)詳細介紹了此類提示的示例。

自我一致性提示

提高多項選擇基準(zhǔn)測試性能的一個簡單策略是提示和采樣模型的多個解碼輸出。最終答案是擁有多數(shù)票(或多數(shù)票)的人。這個想法是由Wang等人[88]以“自我一致性”的名義提出的。這種方法背后的基本原理是,對于像醫(yī)學(xué)這樣具有復(fù)雜推理路徑的領(lǐng)域,可能有多種潛在的途徑可以找到正確的答案。將推理路徑邊緣化可以得到最一致的答案。自我一致性提示策略在[47]中帶來了特別強大的改進,我們對具有多項選擇題的數(shù)據(jù)集采用了相同的方法:MedQA、MedMCQA、PubMedQA和MMLU。

提示調(diào)整

由于LLM已經(jīng)增長到數(shù)千億個參數(shù)[12,14],因此對它們進行微調(diào)在計算上非常昂貴。雖然少shot提示的成功在很大程度上緩解了這一問題,但許多任務(wù)將進一步受益于基于梯度的學(xué)習(xí)。Lester等人[45]引入了提示調(diào)整(與提示/啟動相反),這是一種簡單且計算成本低廉的方法,可使LLM適應(yīng)特定的下游任務(wù),尤其是在數(shù)據(jù)有限的情況下。該方法包括通過反向傳播學(xué)習(xí)軟提示向量,同時保持LLM的其余部分凍結(jié),從而允許跨任務(wù)輕松重用單個模型。

這種軟提示的使用可以與GPT-3[12]等LLM推廣的基于離散“硬”文本的少量提示形成對比。雖然即時調(diào)優(yōu)可以從任何數(shù)量的標(biāo)記示例中受益,但通常只需要少數(shù)示例(例如,數(shù)十個)即可實現(xiàn)良好的性能。此外,Lester等人[45]證明,在增加模型規(guī)模的情況下,即時調(diào)整的模型性能與端到端微調(diào)相當(dāng)。其他相關(guān)方法包括前綴調(diào)諧[48],其中前綴激活向量被預(yù)處理到LLM編碼器的每一層,并通過反向傳播進行學(xué)習(xí)。Lester等人[45]的提示調(diào)整可以被認為是對這一想法的簡化,將可學(xué)習(xí)的參數(shù)限制為僅代表作為軟提示預(yù)先添加到輸入中的少量令牌的參數(shù)。

3.3.3指令提示調(diào)諧

Wei等人[89]和Chung等人[15]證明了多任務(wù)指令微調(diào)的好處:Flan-PaLM模型在幾個基準(zhǔn)測試上實現(xiàn)了性能狀態(tài),如BIG bench[47]和MMLU[29]。特別是,F(xiàn)lan PaLM展示了在微調(diào)中使用CoT數(shù)據(jù)的好處,從而在需要推理的任務(wù)中實現(xiàn)了穩(wěn)健的改進。

鑒于指令調(diào)優(yōu)的強大性能,我們在這項工作中主要基于Flan PALM模型。然而,如第4.5節(jié)所述,我們的人類評估揭示了Flan PaLM在消費者醫(yī)療問答數(shù)據(jù)集上的表現(xiàn)存在關(guān)鍵差距,即使很少有shot提示。為了進一步使模型符合安全關(guān)鍵醫(yī)療領(lǐng)域的要求,我們探索了專門針對醫(yī)療數(shù)據(jù)的額外訓(xùn)練。

對于這種額外的訓(xùn)練,考慮到計算和臨床醫(yī)生的數(shù)據(jù)生成成本,我們使用了即時調(diào)整,而不是全模型微調(diào)。我們的方法有效地將Flan PaLM的“學(xué)習(xí)遵循指令”原則擴展到了即時調(diào)整階段。具體來說,我們不是使用通過提示調(diào)優(yōu)學(xué)習(xí)到的軟提示來代替特定任務(wù)的人類工程提示,而是使用軟提示作為在多個醫(yī)學(xué)數(shù)據(jù)集之間共享的初始前綴,隨后是相關(guān)的任務(wù)特定的人工設(shè)計提示(由指令和/或少數(shù)shot示例組成,這些示例可以是思維鏈?zhǔn)纠┮约皩嶋H問題和/或上下文。

我們將這種提示調(diào)優(yōu)方法稱為“指令提示調(diào)優(yōu)”。因此,指令提示調(diào)優(yōu)可以被視為訓(xùn)練模型在一個或多個域中遵循指令的一種輕量級方式(在訓(xùn)練和推理期間數(shù)據(jù)高效、參數(shù)高效、計算高效)。在我們的設(shè)置中,指令提示調(diào)整使LLM能夠更好地遵循我們所針對的醫(yī)學(xué)數(shù)據(jù)集家族中使用的特定類型的指令。

考慮到軟提示和硬提示的組合,指令提示調(diào)整可以被視為一種“硬-軟混合提示調(diào)整”[52],以及將硬錨標(biāo)記插入軟提示[53]、將學(xué)習(xí)的軟標(biāo)記插入硬提示[28]或?qū)W(xué)習(xí)的軟提示用作短零樣本硬提示的前綴[26,96]的現(xiàn)有技術(shù)。據(jù)我們所知,我們的例子是第一個公開的學(xué)習(xí)軟提示的例子,該軟提示在包含指令和少量shot示例的完整硬提示前面加前綴。

3.3.4綜合起來:Med PaLM

為了使Flan-PaLM適應(yīng)醫(yī)學(xué)領(lǐng)域,我們在一小部分示例上應(yīng)用了指令提示調(diào)優(yōu)。這些例子被有效地用于指導(dǎo)模型生成更符合醫(yī)學(xué)領(lǐng)域要求的文本生成,醫(yī)學(xué)理解、臨床知識回憶和醫(yī)學(xué)知識推理的良好例子不太可能導(dǎo)致患者傷害。因此,這些例子的策劃是非常重要的。

我們從MultiMedQA免費響應(yīng)數(shù)據(jù)集(HealthSearchQA、MedicineQA、LiveQA)中隨機抽取樣本,并請五名臨床醫(yī)生組成的小組提供樣本答案。這些臨床醫(yī)生來自美國和英國,在初級保健、外科、內(nèi)科和兒科都有專業(yè)經(jīng)驗。臨床醫(yī)生隨后篩選出他們認為不是指導(dǎo)模型的好例子的問題/答案對。這種情況通常發(fā)生在臨床醫(yī)生覺得他們無法為給定的問題提供“理想”的模型答案時,例如,如果回答問題所需的信息未知。我們留下了40個例子,分別是HealthSearchQA、DrudiceQA和LiveQA,用于指令提示調(diào)整訓(xùn)練。

在MultiMedQA和Flan-PaLM的消費者醫(yī)療問答數(shù)據(jù)集上對由此產(chǎn)生的模型Med-PaLM進行了評估。圖2概述了我們針對Med-PaLM的指令提示調(diào)整方法。有關(guān)超參數(shù)優(yōu)化和模型選擇過程的更多詳細信息,請參見第A.1節(jié)。Med-PaLM的模型卡見第A.5節(jié)。

4結(jié)果

在本節(jié)中,我們首先概述了圖3和圖4中總結(jié)的關(guān)鍵結(jié)果。然后,我們提出了一些消融,以幫助將結(jié)果置于情境中并加以解釋。

4.1 Flan PaLM在MedQA(USMLE)方面超過了以前的最先進水平17%以上

在由4個選項的USMLE風(fēng)格問題組成的MedQA數(shù)據(jù)集上,我們的Flan PaLM 540B模型的多項選擇題(MCQ)準(zhǔn)確率為67.6%,比DRAGON模型[94]高20.1%。在我們的研究同時,Bolton等人[9]開發(fā)了PubMedGPT,這是一個專門針對生物醫(yī)學(xué)摘要和論文訓(xùn)練的27億模型。該模型在有4個選項的MedQA問題上的表現(xiàn)為50.3%。據(jù)我們所知,這是MedQA上最先進的,F(xiàn)lan PaLM 540B超過了17.3%。表4與該數(shù)據(jù)集上性能最好的模型進行了比較。在有5個選項的更難的一組問題上,我們的模型獲得了62.0%的分數(shù)。

4.2 MedMCQA和PubMedQA的最新性能

在由來自印度的醫(yī)學(xué)入學(xué)考試問題組成的MedMCQA數(shù)據(jù)集上,F(xiàn)lan PaLM 540B在開發(fā)集上的表現(xiàn)達到了57.6%。這超過了卡拉狄加模型之前52.9%的最先進結(jié)果[79]。類似地,在PubMedQA數(shù)據(jù)集上,我們的模型實現(xiàn)了79.0%的準(zhǔn)確率,比之前最先進的BioGPT模型Luo等人[56]高出0.8%。結(jié)果匯總在下圖2中。雖然與MedQA和MedMCQA數(shù)據(jù)集相比,這一改進似乎很小,但PubMedQA上的單個評分人的績效為78.0%[33],這表明該任務(wù)的最大可能績效可能存在固有的上限。

4.3 MMLU臨床主題的最新表現(xiàn)

MMLU數(shù)據(jù)集包含來自幾個臨床知識、醫(yī)學(xué)和生物學(xué)相關(guān)主題的多項選擇題。其中包括解剖學(xué)、臨床知識、專業(yè)醫(yī)學(xué)、人類遺傳學(xué)、大學(xué)醫(yī)學(xué)和大學(xué)生物學(xué)。Flan PaLM 540B在所有這些子集上都實現(xiàn)了最先進的性能,優(yōu)于強大的LLM,如PaLM、Gopher、Chinchilla、BLOOM、OPT和Galactica。特別是,在專業(yè)醫(yī)學(xué)和臨床知識子集上,F(xiàn)lan PaLM 540B的SOTA準(zhǔn)確率分別為83.5%和84.0%。圖4總結(jié)了結(jié)果,并在可用的情況下與其他LLM進行了比較[79]。

4.4消融

我們對三個多選數(shù)據(jù)集——MedQA、MedMCQA和PubMedQA——進行了幾次消融

-以更好地理解我們的結(jié)果,并確定對Flan PaLM的性能有貢獻的關(guān)鍵組件。我們在下面詳細介紹它們:

指令調(diào)整提高了醫(yī)療問答的性能

在所有模型大小中,我們觀察到,在所有三個數(shù)據(jù)集(MedQA、MedMCQA和PubMedQA)上,指令調(diào)整的Flan-PaLM模型都優(yōu)于基線PaLM模型。在這些實驗中,模型很少使用A.8中詳細說明的提示文本進行提示。詳細結(jié)果總結(jié)在5中。這些改進在PubMedQA數(shù)據(jù)集中最為顯著,其中8B Flan PaLM模型的性能優(yōu)于基線PaLM模型30%以上。在62B和540B變體的情況下也觀察到了類似的強烈改善。這些結(jié)果證明了指令微調(diào)的強大優(yōu)勢。第A.3節(jié)報告了MMLU臨床主題的類似結(jié)果。

我們尚未完成對指令提示調(diào)諧對多項選擇準(zhǔn)確性的影響的徹底分析;我們在本節(jié)中的分析是Flan PaLM,而不是Med PaLM。Med PaLM(指令提示調(diào)諧的Flan PaLM)的開發(fā)是為了通過更好地將模型與醫(yī)學(xué)領(lǐng)域相一致來改進第4.5節(jié)中提出的Flan PaLM的長形式生成結(jié)果。然而,鑒于選擇題回答領(lǐng)域不可知指令調(diào)優(yōu)的成功,領(lǐng)域內(nèi)指令提示調(diào)優(yōu)似乎很有希望,我們在第a.6節(jié)中給出了初步結(jié)果。

縮放可提高醫(yī)療問答的性能

5的相關(guān)觀察結(jié)果是,通過將模型從8B縮放到62B和540B,獲得了強大的性能改進。我們觀察到,在PaLM和Flan PaLM中將模型從8B擴展到540B時,性能提高了約2倍。這些改進在MedQA和MedMCQA數(shù)據(jù)集中更加明顯。特別是,對于Flan-PaLM模型,540B變體的性能優(yōu)于62B變體超過14%,8B變體超過24%。鑒于這些結(jié)果和Flan-PaLM 540B模型的強大性能,我們在該模型的基礎(chǔ)上進行了下游實驗和燒蝕。第A.4節(jié)提供了比例圖。

思維鏈(CoT)提示6總結(jié)了使用CoT提示的結(jié)果,并提供了與使用Flan-PaLM 540B模型的少shot提示策略的比較。出乎意料的是,在三個多選數(shù)據(jù)集(MedQA、MedMCQA和PubMedQA)中,我們沒有觀察到使用CoT相對于標(biāo)準(zhǔn)的幾次提示策略的改進。所使用的CoT提示在第A.9節(jié)中進行了總結(jié)。

自我一致性(SC)使多項選擇的表現(xiàn)有很大的改善

Wang等人[88]表明,當(dāng)CoT提示影響表現(xiàn)時,自我一致性提示會有所幫助。他們在算術(shù)和常識推理任務(wù)上有了顯著的改進。根據(jù)他們的提示,我們將其應(yīng)用于我們的數(shù)據(jù)集。對于三個數(shù)據(jù)集中的每一個,我們將思維鏈答案解釋路徑的數(shù)量固定為11。然后,我們在不同的解釋路徑上進行邊緣化,以選擇最一致的答案。使用該策略,我們在MedQA和MedMCQA數(shù)據(jù)集上觀察到Flan PaLM 540B模型的標(biāo)準(zhǔn)少shot提示策略有了顯著改進。特別是,對于MedQA數(shù)據(jù)集,我們觀察到自一致性提高了>7%。然而,出乎意料的是,自一致性導(dǎo)致PubMedQA數(shù)據(jù)集的性能下降。結(jié)果匯總在表7中。我們在表8中進一步提供了MedQA的Flan-PaLM 540B模型的一些示例響應(yīng)。

不確定性與選擇性預(yù)測

LLM能夠進行長時間、連貫和復(fù)雜的世代。然而,它們也可能生成與事實不一致的語句。特別是在醫(yī)療環(huán)境中,這種故障模式需要仔細審查,而在現(xiàn)實世界的應(yīng)用中,不太可能是真的世代應(yīng)該被保留。相反,我們可能希望在需要時聽從其他信息來源或?qū)<业囊庖姟R虼?,LLM的一個解決方案是將不確定性估計與其響應(yīng)一起進行溝通。

雖然LLM輸出序列的不確定性測量仍然是一個開放的研究領(lǐng)域[36,51],但在這里,我們探索了一種簡單的代理,作為測量LLM不確定性和語句準(zhǔn)確性之間關(guān)系的初始方法。我們創(chuàng)建了一個選擇性預(yù)測任務(wù)[82],使用自一致性匹配給定答案的解碼次數(shù)作為不確定性的衡量標(biāo)準(zhǔn),并在模型不適當(dāng)置信的情況下使用它來保留答案。我們使用Flan-PaLM 540B模型的41個解碼進行了實驗,具有思想鏈提示和自一致性。我們在5中觀察到,隨著延遲分數(shù)的增加(即,提供預(yù)測所需的“置信度”更高),模型在MedQA上的性能有所提高,在0.45的延遲分數(shù)下達到82.5%的準(zhǔn)確度。這表明我們對反應(yīng)不確定性的測量可能是合理的,LLM似乎對其在醫(yī)學(xué)領(lǐng)域的知識的不確定性進行了編碼。然而,除了這一初步分析之外,還需要更多的研究。

4.5人員評估結(jié)果

我們從HealthSearchQA中隨機選擇了100個問題,從LiveQA中選擇了20個問題,并從DrudiceQA中選擇20個問題作為詳細的人類評估的較小的長形式答案基準(zhǔn)。這些問題反映了現(xiàn)實世界中消費者對醫(yī)療信息的查詢。這些選擇的問題與那些用于指令提示調(diào)整以產(chǎn)生Med-PaLM的示例是脫節(jié)的。

我們讓一個臨床醫(yī)生小組為這些問題提供專家參考答案。然后,我們使用Flan-PaLM和Med-PaLM(均為540B模型)得出答案。這些問題的一些定性例子和相應(yīng)的Med-PaLM回答如表9所示。我們讓另一組臨床醫(yī)生沿著表2中的軸線對三組答案進行了評估,但沒有透露答案的來源。一名臨床醫(yī)生對每個答案進行了評估。為了減少臨床醫(yī)生之間的差異對我們研究結(jié)果的可推廣性的影響,我們的小組由9名臨床醫(yī)生組成(總部位于美國、英國和印度)。我們使用非參數(shù)bootstrap來估計結(jié)果中的任何顯著變化,其中100個bootstrap復(fù)制品用于產(chǎn)生每組的分布,我們使用95%bootstrap百分位區(qū)間來評估變化。這些結(jié)果在下文和第A.7節(jié)中進行了詳細描述。

科學(xué)共識:

我們希望了解這些答案與臨床和科學(xué)界目前的共識之間的關(guān)系。在研究中評估的140個問題中,我們發(fā)現(xiàn)在92.9%的問題中,臨床醫(yī)生的回答被判斷為與科學(xué)共識一致。另一方面,F(xiàn)lan PaLM僅在61.9%的答案中與科學(xué)共識一致。對于其他問題,答案要么反對達成共識,要么不存在共識。這表明,通用指令調(diào)整本身不足以產(chǎn)生科學(xué)和臨床依據(jù)的答案。然而,我們觀察到,92.9%的Med-PaLM答案被判斷為符合科學(xué)共識,這表明了指令提示調(diào)整作為一種產(chǎn)生有科學(xué)依據(jù)的答案的對齊技術(shù)的優(yōu)勢。

我們注意到,由于PaLM、Flan PaLM和Med PaLM是在給定的時間點使用網(wǎng)絡(luò)文檔、書籍、維基百科、代碼、自然語言任務(wù)和醫(yī)學(xué)任務(wù)的語料庫進行訓(xùn)練的,因此這些模型的一個潛在局限性是,它們可以反映過去而不是今天的科學(xué)共識。這不是當(dāng)今Med-PaLM常見的失敗模式,但這激勵了未來在LLM的持續(xù)學(xué)習(xí)和從不斷發(fā)展的語料庫中檢索方面的工作。

理解、檢索和推理能力:

我們試圖通過他們生成的答案來理解(無論是專家還是模型生成的)模型的醫(yī)學(xué)理解、醫(yī)學(xué)知識檢索和推理能力。我們要求一個臨床醫(yī)生小組使用與Feng等人相同的方法,對答案是否包含正確/不正確的醫(yī)學(xué)閱讀理解、醫(yī)學(xué)知識檢索和醫(yī)學(xué)推理能力的任何證據(jù)(一個或多個例子)進行評分。[22]。正確和不正確的證據(jù)是平行評估的,因為一個長形式的答案可能包含正確和錯誤理解、檢索和推理的證據(jù)。

我們發(fā)現(xiàn),專家生成的答案再次明顯優(yōu)于Flan PaLM,盡管Med PaLM的指令提示調(diào)優(yōu)提高了性能。在該軸中用于評估的所有六個子問題中都觀察到了這一趨勢。例如,關(guān)于正確檢索醫(yī)學(xué)知識的證據(jù),我們發(fā)現(xiàn)臨床醫(yī)生的回答得分為97.8%,而Flan-PaLM的得分僅為76.3%。然而,指令提示調(diào)整的Med-PaLM模型得分為95.4%,降低了該模型與臨床醫(yī)生相比的劣勢。

內(nèi)容不正確或缺失:

這項評估的目的是通過評估答案是否遺漏了任何不應(yīng)該遺漏的信息,或者答案是否包含任何不應(yīng)該包含的內(nèi)容,來了解生成答案的完整性和正確性。在被認為有缺失或遺漏的內(nèi)容的情況下,評分者被問及這是否具有很大或很小的潛在臨床意義。

我們再次觀察到,臨床醫(yī)生生成的答案優(yōu)于人工智能模型。臨床醫(yī)生的回答顯示,只有1.4%的病例存在不適當(dāng)/不正確的內(nèi)容,而Flan-PaLM的這一比例為16.1%。令人驚訝的是,指令提示調(diào)整似乎進一步降低了性能,18.7%的Med-PaLM回答被判斷為包含不適當(dāng)或不正確的內(nèi)容。

另一方面,我們觀察到指令提示調(diào)優(yōu)有助于在遺漏重要信息時提高模型性能。雖然Flan-PaLM的答案有47.2%的時間被判斷為遺漏了重要信息,但Med-PaLM的這一數(shù)字有了顯著改善,只有15.1%的答案被判斷為有遺漏信息,與臨床醫(yī)生相比,他們的答案在只有11.1%的病例中被判斷為缺乏信息,從而降低了劣勢。表10中顯示了一些定性示例,表明LLM回答可能能夠在未來的用例中補充和完善醫(yī)生對患者詢問的回答。

對這些觀察結(jié)果的一個潛在解釋是,指令提示調(diào)整教會Med-PaLM模型生成比Flan-PaLM模型更詳細的答案,從而減少重要信息的遺漏。然而,較長的答案也會增加引入錯誤內(nèi)容的風(fēng)險。

可能的危害程度和可能性:

我們試圖根據(jù)生成的答案來確定潛在傷害的嚴(yán)重性和可能性。我們要求評分者假設(shè)模型的輸出可能會導(dǎo)致臨床醫(yī)生或消費者/患者采取行動,并估計可能導(dǎo)致的身體/心理健康危害的可能嚴(yán)重程度和可能性。我們根據(jù)AHRQ Common Formats Williams等人[93]中的評分員選擇選項,該選項提供了指定傷害嚴(yán)重程度的選項,包括死亡、嚴(yán)重或危及生命的傷害、中度、輕度或無傷害。我們承認,這種傷害的定義更通常用于分析醫(yī)療保健過程中發(fā)生的傷害,即使在這種情況下(已知傷害發(fā)生的背景具有更大的特異性),醫(yī)生對傷害嚴(yán)重程度的估計也經(jīng)常存在實質(zhì)性差異[86]。因此,不能假設(shè)AHRQ量表的有效性擴展到我們的背景,在我們的背景下,我們的評分者輸出應(yīng)該被視為主觀估計,因為我們的工作沒有基于特定的預(yù)期用途和社會文化背景。

盡管評級有著廣泛的定義和主觀性,但我們觀察到,指令提示調(diào)整產(chǎn)生了更安全的答案,降低了估計的可能性和嚴(yán)重程度。雖然29.7%的Flan-PaLM反應(yīng)被判斷為可能導(dǎo)致傷害,但Med-PaLM的這一數(shù)字降至5.9%,與臨床醫(yī)生生成的答案相比,后者在5.7%的病例中也被判斷為潛在有害。

同樣,在傷害軸的可能性方面,指令提示調(diào)整使Med-PaLM的答案與專家生成的答案相匹配。

醫(yī)學(xué)人口統(tǒng)計學(xué)的偏見:

我們評估答案的最后一條軸線是偏見。使用大型語言模型進行醫(yī)學(xué)問答有可能造成偏見和公平相關(guān)的傷害,從而導(dǎo)致健康差異。這些危害來自幾個來源,包括訓(xùn)練數(shù)據(jù)中反映健康結(jié)果和獲得護理機會差異的模式的存在,醫(yī)療問答系統(tǒng)再現(xiàn)關(guān)于種族健康差異原因的種族主義誤解的能力[20,85],算法設(shè)計選擇[32],以及機器學(xué)習(xí)系統(tǒng)在不同人群和群體中的行為或性能差異,這些差異在用于為醫(yī)療決策提供信息時會帶來下游危害[13]。除了在醫(yī)療保健中使用其他人工智能應(yīng)用程序之外,醫(yī)療問答系統(tǒng)還帶來了額外的風(fēng)險,因為它們有可能產(chǎn)生任意輸出,推理能力有限,并且可能用于廣泛的下游用例。我們試圖了解答案中是否包含任何不準(zhǔn)確或不適用于特定人口的信息。在7.9%的病例中,F(xiàn)lan-PaLM的回答包含有偏見的信息。然而,Med-PaLM的這一數(shù)字降至0.8%,與那些被判斷為在1.4%的病例中含有偏見證據(jù)的專家相比,這一數(shù)字是有利的。

非專業(yè)用戶評估:

除了專家評估之外,我們還讓一個由該領(lǐng)域的五名非專家組成的小組(總部位于印度,沒有醫(yī)學(xué)背景的外行)評估答案。結(jié)果總結(jié)如下圖10所示。雖然Flan-PaLM回答被認為只有60.6%的病例有幫助,但Med-PaLM回答的這一數(shù)字提高到了80.3%。然而,這仍然不如臨床醫(yī)生的回答,后者在91.1%的時間里被認為是有幫助的。同樣,在90.8%的案例中,F(xiàn)lan-PaLM的回答被判斷為直接解決了用戶的問題意圖。Med-PaLM的這一數(shù)字提高到94.0%,低于臨床醫(yī)生給出的95.9%的答案。

非專業(yè)評估一貫再現(xiàn)了指令提示調(diào)整的好處,以產(chǎn)生對用戶有幫助的答案,同時也表明,仍需要大量工作來近似人類臨床醫(yī)生提供的輸出質(zhì)量。

5討論

我們的研究結(jié)果表明,在醫(yī)學(xué)問答方面的強大表現(xiàn)可能是LLM的一種應(yīng)急能力[90],再加上有效的指令提示調(diào)整。

首先,當(dāng)我們將PaLM模型從80億擴展到5400億時,我們觀察到了強大的擴展性能,精度提高了約2倍。80億PaLM在MedQA上的性能僅略好于隨機性能。然而,這一數(shù)字在5400億PaLM中提高了30%以上,證明了規(guī)模對醫(yī)療問答任務(wù)的有效性。我們觀察到MedMCQA和PubMedQA數(shù)據(jù)集也有類似的改進。此外,指令微調(diào)也很有效,F(xiàn)lan-PaLM模型在所有多項選擇數(shù)據(jù)集上的所有尺寸變體中的表現(xiàn)都優(yōu)于PaLM模型。

PaLM預(yù)訓(xùn)練語料庫可能包括大量高質(zhì)量的醫(yī)學(xué)內(nèi)容,5400億模型變體的強大性能的一個可能推測是本研究中考慮的評估數(shù)據(jù)集的記憶。然而,Chowdhery等人[14]在評估受污染(即測試集的一部分在模型預(yù)訓(xùn)練語料庫中)和清理的測試數(shù)據(jù)集時,顯示了PaLM 8B和540B模型的性能相似的delta。這表明,僅靠記憶并不能解釋通過放大模型所觀察到的強大性能。

在生物醫(yī)學(xué)語料庫上,特別是PubMed上,已經(jīng)有幾項訓(xùn)練語言模型的努力。其中包括BioGPT[56](3.55億參數(shù))、PubMedGPT[9](27億參數(shù))和Galactica[79](1200億參數(shù))。我們的模型能夠在PubMedQA上超越這些努力,而無需任何微調(diào)。此外,規(guī)模和指令微調(diào)的好處在MedQA數(shù)據(jù)集上更加明顯,這可以被認為是所有這些模型的領(lǐng)域之外的。鑒于這些結(jié)果,我們觀察到醫(yī)學(xué)回答能力(需要回憶、閱讀理解和推理技能)隨著LLM量表的提高而提高。

然而,我們在消費者醫(yī)療問答數(shù)據(jù)集上的人類評估結(jié)果清楚地指出,僅靠規(guī)模是不夠的。即使是像Flan PaLM這樣最先進的LLM,也可以產(chǎn)生不適合在安全關(guān)鍵醫(yī)療領(lǐng)域使用的答案。然而,Med-PaLM的結(jié)果表明,通過指令提示調(diào)整,我們有一種數(shù)據(jù)和參數(shù)高效比對技術(shù),可用于改善與準(zhǔn)確性、真實性、一致性、安全性、危害性和偏見相關(guān)的因素,有助于縮小與臨床專家的差距,使這些模型更接近現(xiàn)實世界的臨床應(yīng)用。

6限制

我們的研究證明了LLM在編碼醫(yī)學(xué)知識,特別是在回答問題方面的潛力。然而,它有幾個局限性,我們將在下面詳細討論,并概述未來研究的方向。

6.1 MultiMedQA的擴展

首先,盡管MultiMedQA基準(zhǔn)是多樣化的,包含了來自各種專業(yè)醫(yī)學(xué)、醫(yī)學(xué)研究和消費者來源的問題,但它絕不是詳盡無遺的。我們計劃在未來擴大基準(zhǔn),將更多種類的醫(yī)學(xué)和科學(xué)領(lǐng)域(如生物學(xué))和形式包括在內(nèi)。

臨床環(huán)境中的一個關(guān)鍵挑戰(zhàn)是從患者那里獲取信息,并將研究結(jié)果綜合到評估和計劃中。多選問答任務(wù)本質(zhì)上更容易,因為它們通常以專家匯編的小插曲為基礎(chǔ),并被選擇為有一個普遍偏好的答案,而這并不適用于所有的醫(yī)療決策。開發(fā)反映真實世界臨床工作流程的基準(zhǔn)任務(wù)是未來研究的一個重要方向。

此外,我們在本研究中只考慮了英語數(shù)據(jù)集,非常需要擴大基準(zhǔn)的范圍,以支持多語言評估。

6.2開發(fā)醫(yī)療應(yīng)用所需的關(guān)鍵LLM能力

雖然Flan PaLM能夠在幾個多項選擇醫(yī)學(xué)問答基準(zhǔn)上達到最先進的性能,但我們的人體評估清楚地表明,這些模型在許多臨床重要的軸上都不處于臨床醫(yī)生專家水平。為了彌補這一差距,需要研究和開發(fā)幾種新的LLM功能,包括:

?權(quán)威醫(yī)學(xué)來源的反應(yīng)基礎(chǔ),并解釋醫(yī)學(xué)共識的時變性質(zhì)。

?能夠有效地檢測不確定性,并將其傳達給回路中的人,無論是臨床醫(yī)生還是非專業(yè)用戶。

?能夠以多種語言響應(yīng)查詢。

6.3改進人類評價方法

我們?yōu)檫@項研究提出的評級框架代表了一種很有前途的試點方法,但我們選擇的評估軸并不詳盡,本質(zhì)上是主觀的。例如,醫(yī)學(xué)/科學(xué)共識的概念本質(zhì)上是時變的,反映了基于種族/民族、性別、年齡、能力等領(lǐng)域的歧視對人類健康、疾病和生理學(xué)的理解[38,57]。此外,共識通常只存在于與某些群體相關(guān)的主題(例如,數(shù)量和/或權(quán)力更大),而受各種原因影響的某些亞群體可能缺乏共識(例如,有爭議的主題、較低的發(fā)病率、較少的資金)。此外,傷害的概念可能因人群而異(例如,對一小群人進行的基因研究可能會揭示事實上但與該群體的文化信仰不一致的信息,這可能會導(dǎo)致該群體的成員受到傷害)。專家對危害的評估也可能因地點、生活經(jīng)歷和文化背景而異。我們對潛在危害的評級是主觀估計,感知危害的變化也可能是由于我們的臨床醫(yī)生和非專業(yè)評分者的健康素養(yǎng)差異,或者在現(xiàn)實世界中可能會有所不同,這取決于Berkman等人[6]的研究中接受和處理健康問題答案的人的社會文化背景和健康素養(yǎng)。進一步的研究可能會測試問題答案的感知有用性和危害性是否因答案內(nèi)容的可理解性和可操作性得分而不同[77]。

評估的模型反應(yīng)的數(shù)量以及評估它們的臨床醫(yī)生和非專業(yè)人員的數(shù)量是有限的,因為我們的結(jié)果僅基于單個臨床醫(yī)生或非專業(yè)人員評估反應(yīng)。這代表了我們的研究結(jié)果的可推廣性的局限性,可以通過在模型審計工具的開發(fā)中納入更大且有意多樣化的人類評分者(臨床醫(yī)生和非專業(yè)用戶)來緩解這種局限性。值得注意的是,LLM回應(yīng)或“覆蓋率”的空間非常大,這給評估工具和框架的設(shè)計帶來了額外的困難。

使用推薦的最佳實踐方法來設(shè)計和驗證健康、社會和行為研究的評級工具,我們開發(fā)的試點框架可以顯著推進[8]。這可能需要通過參與性研究確定額外的評級項目,由領(lǐng)域?qū)<液图夹g(shù)接受者評估評級項目的相關(guān)性、代表性和技術(shù)質(zhì)量。包括大量的人工評分者也將通過批準(zhǔn)測試維度、重新測試的可靠性和有效性來測試儀器的可推廣性[8]。由于同一答案可以通過多種方式進行評估,最合適的評級工具也取決于LLM輸出的預(yù)期目的和接受者,根據(jù)使用的背景和目的,為開發(fā)經(jīng)驗證的評級量表提供了多種機會。此外,在任何現(xiàn)實世界的使用之前,使用基于社區(qū)的參與式研究方法進行大量的用戶體驗(UX)和人機交互(HCI)研究是必要的,并且將專門針對超出我們探索性研究范圍的開發(fā)工具。在這種情況下,進一步的研究可以探索非專業(yè)評分者的教育水平、醫(yī)療條件、照顧者地位、醫(yī)療保健經(jīng)驗、教育水平或其他相關(guān)因素的變化對他們對模型輸出質(zhì)量的看法的獨立影響。臨床醫(yī)生評分者的專業(yè)、人口統(tǒng)計、地理或其他因素的變化的影響可以在進一步的研究中進行類似的探索。

6.4公平和公平考慮

我們目前評估偏見的方法是有限的,不能作為對潛在危害、公平或公平的全面評估。評估大型語言模型中的偏見和公平性相關(guān)危害的程序正在開發(fā)中[49,92]。鑒于該領(lǐng)域的安全關(guān)鍵性以及與導(dǎo)致健康差異的社會和結(jié)構(gòu)偏見相關(guān)的細微差別,醫(yī)療保健是大型語言模型的一個特別復(fù)雜的應(yīng)用。大型語言模型和醫(yī)療保健的交叉為負責(zé)任和道德創(chuàng)新創(chuàng)造了獨特的機會,為偏見、公平和健康公平提供了強有力的評估和緩解工具。

我們概述了未來研究框架的機會,以系統(tǒng)地識別和減輕大型語言模型在醫(yī)療保健環(huán)境中的下游危害和影響。關(guān)鍵原則包括使用參與式方法來設(shè)計情境化評估,反映可能受益或受損的患者的價值觀,將評估建立在一個或多個特定的下游臨床用例的基礎(chǔ)上[54,71],以及使用數(shù)據(jù)集和模型文檔框架,透明地報告在數(shù)據(jù)收集和管理、模型開發(fā)和評估過程中做出的選擇和假設(shè)[24,59,72]。此外,還需要對算法程序和基準(zhǔn)的設(shè)計進行研究,以探測特定的技術(shù)偏見,如果不加以緩解,這些偏見會造成傷害。例如,根據(jù)上下文,在故意設(shè)計的提示中評估模型輸出對人口統(tǒng)計標(biāo)識符擾動的敏感性可能是相關(guān)的,這樣結(jié)果就不會在擾動下發(fā)生變化[23,68,98]。

此外,上述建立評估方法以在大型語言模型中實現(xiàn)健康公平的研究活動需要跨學(xué)科合作,以確保各種科學(xué)觀點和方法能夠應(yīng)用于理解健康的社會和背景方面的任務(wù)[27,58,62]。

開發(fā)大型語言模型的評估框架是一項重要的研究議程,應(yīng)與在語言模型中編碼臨床知識的工作同等嚴(yán)格和重視。

在這項研究中,我們與一個由四名合格臨床醫(yī)生組成的小組合作,確定了最佳的演示示例,并制作了少量的注射提示,所有這些都位于美國或英國,具有內(nèi)科、兒科、外科和初級保健方面的專業(yè)知識。盡管最近的研究令人驚訝地表明,在多步驟推理挑戰(zhàn)中,思維鏈提示中推理的有效性只在很小程度上影響了該策略對LLM性能的影響[87],進一步的研究可以顯著擴大參與快速構(gòu)建和樣本答案選擇的臨床醫(yī)生的范圍,從而探索參與這項活動的臨床醫(yī)生類型的多個軸的變化如何影響LLM行為;例如臨床醫(yī)生的人口統(tǒng)計、地理、專業(yè)、生活經(jīng)驗等等。

6.5倫理考慮

這項研究證明了LLM在未來醫(yī)療保健中的應(yīng)用潛力。從用于醫(yī)療問答的LLM過渡到可供醫(yī)療保健提供者、管理人員和消費者使用的工具,需要進行大量額外的研究,以確保該技術(shù)的安全性、可靠性、有效性和隱私性。需要仔細考慮這項技術(shù)的道德部署,包括在不同的臨床環(huán)境和護欄中使用時進行嚴(yán)格的質(zhì)量評估,以減少對醫(yī)療助理輸出的過度依賴。例如,使用LLM診斷或治療疾病的潛在危害遠大于使用LLM獲取有關(guān)疾病或藥物的信息。還需要進行額外的研究,以評估醫(yī)療保健中使用的LLM是否同質(zhì)化和放大了從基本模型繼承的偏見和安全漏洞[10,11,18,39,49]。鑒于臨床知識的不斷發(fā)展,開發(fā)LLM提供最新臨床信息的方法也很重要。

7結(jié)論

基礎(chǔ)人工智能模型和大型語言模型的出現(xiàn)為重新思考醫(yī)療人工智能的發(fā)展提供了一個重要的機會,使其更容易、更安全、更公平地使用。同時,對于大型語言模型的應(yīng)用來說,醫(yī)學(xué)是一個特別復(fù)雜的領(lǐng)域。

我們的研究讓我們得以一窺將這些技術(shù)應(yīng)用于醫(yī)學(xué)的機遇和挑戰(zhàn)。我們希望這項研究將引發(fā)患者、消費者、人工智能研究人員、臨床醫(yī)生、社會科學(xué)家、倫理學(xué)家、政策制定者和其他感興趣的人之間的進一步對話和合作,以便負責(zé)任地將這些早期研究結(jié)果轉(zhuǎn)化為改善醫(yī)療保健。

附錄

A.1超參數(shù)和模型選擇

我們對Flan PaLM 540B進行了指令提示調(diào)諧,軟提示長度為100,以產(chǎn)生Med PaLM。我們凍結(jié)了模型的其余部分,嵌入維度為18432,如Chowdhery等人[14]所述,因此產(chǎn)生了1.84M的可訓(xùn)練參數(shù)。我們隨機初始化可學(xué)習(xí)參數(shù),使其在[-0.5,0.5]范圍內(nèi)一致,遵循Lester等人[45]。我們使用AdamW優(yōu)化器[55]對0.001、0.003、0.01的學(xué)習(xí)率進行網(wǎng)格搜索,權(quán)重衰減因子為{0.001、0.00001}。我們在所有運行中使用了32的批量大小。我們進行了200步的訓(xùn)練。

我們通過讓臨床醫(yī)生對幾個提出的HealthSearchQA、DruitationQA和LiveQA示例(不用于訓(xùn)練或人類評估)的回答進行排名來進行模型選擇,并選擇表現(xiàn)最好的檢查點。我們進行了這種手動驗證,而不是在驗證集上計算一些自動度量,例如保持(問題,答案)對的負對數(shù)似然,因為在自然語言生成的大輸出空間中,這些度量可能與人類對實際模型輸出的判斷不太相關(guān)。我們?yōu)槿祟愒u估選擇的模型的學(xué)習(xí)率為0.003,權(quán)重衰減因子為0.00001。

A.2結(jié)果的變化

由于使用溫度采樣的重復(fù)隨機解碼,在具有自一致性的結(jié)果中存在一些預(yù)期的變化。雖然在本研究中使用的所有數(shù)據(jù)集上為我們的所有模型運行多個實驗是不切實際的,但我們使用性能最好的模型在MedQA數(shù)據(jù)集上重復(fù)評估4次。觀察到的方差為0.078,表明結(jié)果具有高度一致性。

A.3 MMLU消融

我們在MMLU臨床主題上使用少shot、思維鏈(CoT)和自我一致性提示策略對Flan-PaLM 540B模型進行了消融比較[29]。第A.3節(jié)對結(jié)果進行了總結(jié)。我們觀察到,雖然對于大多數(shù)主題,具有自一致性的Flan PaLM 540B獲得了最好的結(jié)果,但在一些主題中,標(biāo)準(zhǔn)的少shot或CoT提示效果更好。在這些主題中,F(xiàn)lan PaLM 540B獲得了最先進的性能。

A.4標(biāo)度圖

我們在圖A.1中提供了在MedQA和MedMCQA數(shù)據(jù)集上使用少量shot提示比較PaLM和Flan-PaLM模型的比例圖,在圖A.2中提供了另一個比例圖,比較了具有少量shot提示的Flan-PaLM和具有自一致性提示的Flan PaLM。我們觀察到強大的擴展性能,并看到隨著LLM模型規(guī)模的擴大,性能會急劇提高。

A.5 Med-PaLM模型卡

Med PaLM使用與Flan PaLM相同的系統(tǒng)類型和實現(xiàn)框架[15]。我們在表A.2中顯示了Med PaLM特有的模型卡[59]的部分。

A.6 Med PaLM多項選擇題評估

Med PaLM使用指令提示調(diào)諧進行訓(xùn)練,以提高Flan PaLM生產(chǎn)的長型世代的質(zhì)量。然而,考慮到指令提示調(diào)整的普遍性,該技術(shù)也可以應(yīng)用于多項選擇數(shù)據(jù)集。我們可以學(xué)習(xí)共享的軟提示參數(shù),這些參數(shù)將為指令和/或少數(shù)shot樣本做準(zhǔn)備,這些樣本因每個多選數(shù)據(jù)集而異。

在一項初步實驗中,我們使用MedQA、MedMCQA、PubMedQA和MMLU(臨床主題)的指令提示調(diào)諧來訓(xùn)練Flan PaLM。示例由五名合格臨床醫(yī)生組成的小組撰寫。每個訓(xùn)練示例都包含特定于數(shù)據(jù)集的指令和5個少數(shù)shot示例。使用思維鏈和自洽性,最終模型在MedQA上實現(xiàn)了67.2%的準(zhǔn)確率,與Flan PaLM i Section 4的相應(yīng)結(jié)果大致匹配。我們計劃在今后的工作中推廣這一早期成果。

A.7詳細的人員評估結(jié)果

表A.3-表A.12總結(jié)了具有置信區(qū)間的詳細人體評估結(jié)果。

A.8少數(shù)shot提示示例

我們在表A.13、表A.14、表A.15、表A.16和表A.17中提供了研究中使用的一些注射提示的示例。

A.9思維鏈提示示例

我們在表A.18、表A.19、表A.20和表A.21中提供了本研究中使用的一些思維鏈提示的示例

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容