論文筆記| AAAI'24 大語(yǔ)言模型在虛假新聞檢測(cè)中的作用

論文標(biāo)題:Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
論文鏈接:https://arxiv.org/abs/2309.12247
論文來(lái)源:AAAI2024
作者單位:中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院大學(xué)、新加坡國(guó)立大學(xué)

摘要

??檢測(cè)假新聞需要對(duì)多種線索有著敏銳的洞察力和對(duì)真實(shí)世界背景有著深刻的理解,這對(duì)于基于小語(yǔ)言模型(SLMs)的檢測(cè)器來(lái)說(shuō)仍然是一個(gè)挑戰(zhàn),因?yàn)樗鼈冊(cè)谥R(shí)和能力方面存在局限性。最近大語(yǔ)言模型(LLMs)的進(jìn)展在各種任務(wù)中表現(xiàn)出色,但LLMs是否以及如何在假新聞檢測(cè)中發(fā)揮作用仍然是未被深入探討的問(wèn)題。

??在本文中,我們調(diào)查了LLMs在假新聞檢測(cè)中的潛力。首先,我們進(jìn)行了實(shí)證研究,發(fā)現(xiàn)像GPT 3.5這樣的復(fù)雜LLM通常能夠揭露假新聞并提供令人滿意的多重理由,但仍然不如SLM,即經(jīng)過(guò)微調(diào)的BERT。我們的后續(xù)分析將這樣的差距歸因于LLM無(wú)法適當(dāng)選擇和整合理由以做出結(jié)論。基于這些發(fā)現(xiàn),我們提出當(dāng)前的LLMs可能不能替代在假新聞檢測(cè)中經(jīng)過(guò)微調(diào)的SLMs,但可以通過(guò)提供multi-perspective instructive rationales而成為SLMs的良好顧問(wèn)。

??為了實(shí)現(xiàn)這一提議,我們?cè)O(shè)計(jì)了一種 adaptive rationale guidance network for fake news detection (ARG),其中SLMs選擇性地從LLMs的理由中獲取新聞分析的見(jiàn)解。我們通過(guò)蒸餾進(jìn)一步推導(dǎo)出ARG的無(wú)理由版本,即ARGD,該版本在不查詢LLMs的情況下服務(wù)于成本敏感的場(chǎng)景。在兩個(gè)真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)證明,ARG和ARGD均優(yōu)于三種baseline methods,包括基于SLM、基于LLM和小型和大型語(yǔ)言模型的組合。

概述

??盡管已經(jīng)取得了很多進(jìn)展,但對(duì)于當(dāng)前的模型來(lái)說(shuō),理解和描述假新聞仍然是一個(gè)挑戰(zhàn)。這是由于新聞制造過(guò)程的復(fù)雜性所致:假新聞制作者可能操縱新聞的任何部分,使用多種寫作策略,并受到難以捉摸的潛在目標(biāo)的驅(qū)使。因此,為了保持對(duì)假新聞檢測(cè)的有效性和普適性,理想的方法需要具備以下特點(diǎn):1)對(duì)于多樣線索(例如,風(fēng)格、事實(shí)、常識(shí))有著敏銳的洞察力;2)對(duì)于真實(shí)世界背景有著深刻的理解。
??近期的方法通常利用預(yù)訓(xùn)練的小語(yǔ)言模型(SLMs),如BERT和RoBERTa,以理解新聞內(nèi)容并提供基本的表示,再加上可選的社會(huì)背景、知識(shí)庫(kù)或新聞環(huán)境等輔助信息。SLMs確實(shí)帶來(lái)了改進(jìn),但它們的知識(shí)和能力限制也妨礙了對(duì)假新聞檢測(cè)器的進(jìn)一步增強(qiáng)。例如,BERT是在文本語(yǔ)料庫(kù)(如維基百科)上進(jìn)行預(yù)訓(xùn)練的,因此在處理需要不包含的知識(shí)的新聞時(shí)表現(xiàn)較差。

??作為對(duì)SLMs的新替代方案,大語(yǔ)言模型(LLMs)通常在規(guī)模更大的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,并與人類偏好保持一致,已展現(xiàn)出在各種任務(wù)上的令人印象深刻的新興能力,被認(rèn)為有望成為通用任務(wù)解決者。然而,LLMs在假新聞檢測(cè)中的潛力仍未得到充分挖掘:
-LLMs是否能夠利用其內(nèi)部知識(shí)和能力來(lái)幫助檢測(cè)假新聞?
-我們應(yīng)該采用什么解決方案以更好地利用LLMs獲得更好的性能?

??為了回答這兩個(gè)問(wèn)題,我們首先對(duì)LLMs在假新聞檢測(cè)中的有效作用進(jìn)行了深入調(diào)查,并試圖提供一個(gè)實(shí)用的LLM-involved解決方案。與現(xiàn)有工作只是簡(jiǎn)單地提示LLMs根據(jù)任務(wù)指示提供預(yù)測(cè)不同,我們進(jìn)行了詳細(xì)的實(shí)證研究來(lái)挖掘LLMs的潛力。具體而言,我們使用了四種典型的提示方法(zeroshot/few-shot/vanilla/chain-of-thought prompting),要求LLM對(duì)給定的新聞項(xiàng)進(jìn)行真實(shí)性判斷(圖1(a)),并發(fā)現(xiàn)即使表現(xiàn)最好的基于LLM的方法仍然不如任務(wù)特定的經(jīng)過(guò)微調(diào)的SLMs。然后,我們對(duì)由LLM生成的解釋性理由進(jìn)行分析,并發(fā)現(xiàn)LLM能夠從多個(gè)角度提供合理且信息豐富的理由。通過(guò)隨后使用perspective-specific prompts誘導(dǎo)LLM,并執(zhí)行基于規(guī)則的判斷集成,我們發(fā)現(xiàn)理由確實(shí)有益于假新聞檢測(cè),并將性能不佳歸因于LLM無(wú)法適當(dāng)選擇和整合理由以得出結(jié)論。

圖1 大語(yǔ)言模型在虛假新聞檢測(cè)中的作用

??基于這些發(fā)現(xiàn),我們提出目前的LLM可能不是對(duì)fine-tuned SLM的良好替代品,但可以通過(guò)提供有指導(dǎo)性的理由作為良好的顧問(wèn),如圖1(b)所示。為了實(shí)例化我們的提議,我們?cè)O(shè)計(jì)了adaptive rationale guidance (ARG) network,用于假新聞檢測(cè),通過(guò)從大型LM的理由中選擇性地注入有關(guān)新聞分析的新見(jiàn)解,將小型LM和大型LM連接起來(lái)。 ARG通過(guò)蒸餾進(jìn)一步推導(dǎo)出無(wú)理由的ARG-D,適用于在無(wú)需查詢LLMs的成本敏感場(chǎng)景中。對(duì)兩個(gè)真實(shí)世界數(shù)據(jù)集的實(shí)驗(yàn)證明ARG和ARG-D優(yōu)于現(xiàn)有的SLM/LLM-only和組合方法。我們的貢獻(xiàn)如下:

  • 詳細(xì)調(diào)查:我們對(duì)LLMs在假新聞檢測(cè)中的有效作用進(jìn)行了調(diào)查,發(fā)現(xiàn)LLM在真實(shí)性判斷方面表現(xiàn)不佳,但在分析內(nèi)容方面表現(xiàn)良好;

  • 新穎而實(shí)用的解決方案:我們?cè)O(shè)計(jì)了一種新穎的ARG網(wǎng)絡(luò)及其經(jīng)過(guò)蒸餾的版本ARG-D,通過(guò)從LLM生成的理由中選擇性地獲取對(duì)SLMs有啟發(fā)作用的見(jiàn)解,從而補(bǔ)充了小型和大型LMs,該方案在廣泛實(shí)驗(yàn)中表現(xiàn)出優(yōu)越性;

  • 有用的資源:我們從GPT-3.5構(gòu)建了一份關(guān)于假新聞檢測(cè)的理由收集,涵蓋兩種語(yǔ)言(中文和英文),并將其公開(kāi)提供[1],以促進(jìn)進(jìn)一步的研究。

Is the LLM a Good Detector?

??在這一部分,我們?cè)u(píng)估代表性的LLM,即GPT-3.5,在假新聞檢測(cè)中的性能,以揭示其判斷能力。我們利用四種典型的提示方法,并與在該任務(wù)上經(jīng)過(guò)微調(diào)的SLM(這里是BERT)進(jìn)行比較。

實(shí)驗(yàn)設(shè)置

??數(shù)據(jù)集:我們使用了中文數(shù)據(jù)集Weibo21(Nan等,2021[2])和英文數(shù)據(jù)集GossipCop(Shu等,2020[3])進(jìn)行評(píng)估。按照現(xiàn)有的研究(Zhu等,2022;Mu等,2023),我們對(duì)數(shù)據(jù)集進(jìn)行了去重和時(shí)間分割的預(yù)處理,以避免由于數(shù)據(jù)泄漏導(dǎo)致可能的性能過(guò)高評(píng)估。表1呈現(xiàn)了數(shù)據(jù)集的統(tǒng)計(jì)信息。

表1 虛假新聞檢測(cè)數(shù)據(jù)集統(tǒng)計(jì)情況

??大型語(yǔ)言模型:我們?cè)u(píng)估了由OpenAI開(kāi)發(fā)的GPT-3.5-turbo,這是支持流行聊天機(jī)器人ChatGPT(OpenAI,2022)的LLM。由于LLMs的參數(shù)規(guī)模較大,使得對(duì)其進(jìn)行任務(wù)特定的微調(diào)幾乎不可能,因此我們使用提示學(xué)習(xí)范式,即LLM通過(guò)包含指導(dǎo)或少量演示的提示學(xué)習(xí)任務(wù)。具體而言,我們利用以下四種典型的提示方法來(lái)引出LLM在假新聞檢測(cè)中的潛力(圖2):

圖2 對(duì)大模型的提示方法

??小語(yǔ)言模型:我們采用預(yù)訓(xùn)練的小語(yǔ)言模型BERT(Devlin等,2019)作為代表。具體而言,我們將文本的最大長(zhǎng)度限制為170個(gè)標(biāo)記,并分別使用Transformers包中的chinese-bert-wwm-ext和bert-base-uncased來(lái)進(jìn)行中文和英文的評(píng)估。

大模型和小模型的實(shí)驗(yàn)對(duì)比

表2 大語(yǔ)言模型和小語(yǔ)言模型的表現(xiàn)

??表2呈現(xiàn)了GPT-3.5-turbo在四種提示方法和經(jīng)過(guò)微調(diào)的BERT上的性能,涉及兩個(gè)數(shù)據(jù)集。我們觀察到:

  1. 盡管LLM通常被認(rèn)為是強(qiáng)大的,但在所有四種提示方法中,LLM的性能都不如經(jīng)過(guò)微調(diào)的SLM。在中文數(shù)據(jù)集中,SLM相對(duì)于LLM有3.8%~11.3%的增加,在英文數(shù)據(jù)集中為9.0%~34.6%,表明LLM缺乏任務(wù)特定的知識(shí),而SLM在微調(diào)過(guò)程中學(xué)習(xí)到了相關(guān)知識(shí)。
  2. Few-shot版本勝過(guò)Zero-shot版本,表明任務(wù)樣本的重要性。然而,引入一些樣本僅僅減小了與SLM的差距,而沒(méi)有達(dá)到或超過(guò)SLM的性能。
  3. 思維鏈提示通常帶來(lái)額外的性能提升,特別是在英文數(shù)據(jù)集的Zero-shot設(shè)置下(+17.3%)。然而,我們也觀察到一些情況下鏈狀思維提示導(dǎo)致性能下降。這表明有效利用理由可能需要更謹(jǐn)慎的設(shè)計(jì)。
    ??總體而言,考慮到LLM的不理想性能和相對(duì)于SLM更高的推理成本,目前的LLM并不是在假新聞檢測(cè)中替代任務(wù)特定SLMs的“足夠好”的檢測(cè)器。

對(duì)LLM理由的分析

??盡管LLM在新聞?wù)鎸?shí)性判斷方面表現(xiàn)不佳,我們還注意到通過(guò)Zero-shot思維鏈提示生成的理由展示了一種獨(dú)特的多角度分析能力,這對(duì)于SLM來(lái)說(shuō)是具有挑戰(zhàn)性且罕見(jiàn)的。為了進(jìn)一步探索,我們從每個(gè)數(shù)據(jù)集中隨機(jī)抽取了500個(gè)樣本,并根據(jù)LLM執(zhí)行新聞分析的角度對(duì)它們進(jìn)行手動(dòng)分類。表3呈現(xiàn)了按角度和案例統(tǒng)計(jì)的結(jié)果。我們觀察到:

  1. LLM能夠從各種角度生成類似人類的理由,如文本描述、常識(shí)和事實(shí)性,這符合在假新聞檢測(cè)中對(duì)多樣線索的敏感洞察力和對(duì)真實(shí)世界背景的深刻理解的要求。
  2. 在使用特定角度的子集上的檢測(cè)性能高于在整個(gè)測(cè)試集上的Zero-shot思維鏈提示的結(jié)果。
  3. 從事實(shí)性角度進(jìn)行的分析導(dǎo)致性能低于平均水平,表明使用LLM進(jìn)行基于其內(nèi)部記憶的事實(shí)性分析是不可靠的。
    ??
對(duì)大模型給出的不同角度理由的分析

??我們進(jìn)一步調(diào)查了LLM在被要求從特定角度對(duì)整個(gè)測(cè)試集進(jìn)行分析時(shí)的性能。從表4的第一組中,我們可以看到,通過(guò)單一角度分析引發(fā)的LLM的判斷仍然是有希望的。與全面的Zero-shot思維鏈提示設(shè)置相比,基于單一角度的LLM在中文數(shù)據(jù)集上表現(xiàn)相當(dāng),并在英文數(shù)據(jù)集上表現(xiàn)更好(對(duì)于常識(shí)角度的情況)。這些結(jié)果表明,LLM整合來(lái)自不同角度的理由的內(nèi)部機(jī)制對(duì)于假新聞檢測(cè)并不是有效的,它限制了理由的充分利用。在這種情況下,將小型和大型LMs結(jié)合起來(lái)相輔相成是一個(gè)有前景的解決方案:前者可以從后者的分析能力中受益,而后者可以通過(guò)前者獲得的任務(wù)特定知識(shí)得到增強(qiáng)

LLM使用特定角度理由的零樣本思維鏈的表現(xiàn)

??為了展示這種解決方案的優(yōu)勢(shì),我們?cè)趦蓚€(gè)基于單一角度的LLMs和BERT之間應(yīng)用了多數(shù)投票和Oracle投票。結(jié)果表明,如果我們能夠適應(yīng)性地結(jié)合它們的優(yōu)勢(shì),那么我們可能會(huì)獲得比之前提到的任何LLM-/SLM-only方法更好的性能。也就是說(shuō),通過(guò)提供理由,LLM可能成為SLM的良好顧問(wèn),最終提高假新聞檢測(cè)的性能。

ARG: Adaptive Rationale Guidance Network for Fake News Detection

??圖3概述了ARG及其適用于成本敏感場(chǎng)景的rationale-free版本ARG-D。ARG的目標(biāo)是賦予小型假新聞檢測(cè)器以能夠自適應(yīng)地選擇有用的理由作為最終判斷的參考。給定一條新聞x及其相應(yīng)的LLM生成的理由{r}_{t}(文本描述)和{r}_{c}(常識(shí)),ARG首先使用SLM對(duì)輸入進(jìn)行編碼(圖3(a))。隨后,通過(guò)預(yù)測(cè)LLM的判斷,ARG建立新聞-理由協(xié)作,豐富新聞-理由特征交互,并評(píng)估理由的有用性(圖3(b))。最后,交互特征與新聞特征x一起聚合,用于最終判斷x是否為假新聞(圖3(c))。ARG-D是通過(guò)對(duì)在LLM不可用的情況下進(jìn)行的ARG進(jìn)行蒸餾派生的(圖3(d))。

Representation

??我們分別使用兩個(gè)BERT模型作為新聞和理由的編碼器,以獲取語(yǔ)義表示。對(duì)于給定的新聞項(xiàng)目x和兩個(gè)相應(yīng)的理由{r}_{t}{r}_{c},它們的表示分別為X{R}_{t}{R}_{c}。

News-Rationale Collaboration

??新聞-理由協(xié)作的步驟旨在在新聞和理由之間提供豐富的交互,并學(xué)會(huì)自適應(yīng)地選擇有用的理由作為參考,這是我們?cè)O(shè)計(jì)的核心。為了實(shí)現(xiàn)這一目標(biāo),ARG包括三個(gè)模塊,下面詳細(xì)說(shuō)明并以文本描述理由分支為例說(shuō)明:

News-Rationale Interaction

??為了實(shí)現(xiàn)新聞和理由之間的全面信息交流,我們引入了一個(gè)具有雙交叉注意力機(jī)制的新聞-理由交互器,以促進(jìn)特征的交互。交叉注意力可以描述為:
\mathrm{CA}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\mathbf{Q}^{\prime} \cdot \mathbf{K}^{\prime} / \sqrtu0z1t8os\right) \mathbf{V}^{\prime}

其中\mathbf{Q}^{\prime}=\mathbf{W}_{\mathrm{Q}} \mathbf{Q}, \mathbf{K}^{\prime}=\mathbf{W}_{\mathrm{K}} \mathbf{K}, \mathbf{V}^{\prime}=\mathbf{W}_{\mathrm{V}} \mathbf{V}。在給定新聞X和理由{R}_{t}的表示的情況下,該過(guò)程如下:
\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}=\operatorname{AvgPool}\left(\mathrm{CA}\left(\mathbf{R}_{\mathbf{t}}, \mathbf{X}, \mathbf{X}\right)\right)
\mathbf{f}_{\mathbf{x} \rightarrow \mathbf{t}}=\operatorname{AvgPool}\left(\mathrm{CA}\left(\mathbf{X}, \mathbf{R}_{\mathbf{t}}, \mathbf{R}_{\mathbf{t}}\right)\right)

其中,AvgPool(·)是對(duì)通過(guò)交叉注意力輸出的表示進(jìn)行平均池化,以獲取一個(gè)文本表示f的過(guò)程。

LLM Judgement Prediction

??理解給定rationale所暗示的判斷是充分利用理由背后信息的先決條件。為此,我們構(gòu)建了LLM判斷預(yù)測(cè)任務(wù),其要求是根據(jù)給定的rationale預(yù)測(cè)新聞?wù)鎸?shí)性的LLM判斷。我們期望這能夠加深對(duì)rationale文本的理解。對(duì)于文本描述rationale分支,我們將其表示{R}_{t}輸入到LLM判斷預(yù)測(cè)器中,該預(yù)測(cè)器使用多層感知機(jī)(MLP)進(jìn)行參數(shù)化:
\hat{m}_{t}=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\mathbf{R}_{\mathbf{t}}\right)\right)
L_{p t}=\mathrm{CE}\left(\hat{m}_{t}, m_{t}\right)

其中,m_{t}\hat{m}_{t}分別是LLM的實(shí)際判斷和其預(yù)測(cè)。損失{L}_{pt}是交叉熵?fù)p失\mathrm{CE}(\hat{y}, y)=-y \log \hat{y}-(1-y) \log (1-\hat{y})。對(duì)于常識(shí)rationale {R}_{c}的情況也是類似的。

Rationale Usefulness Evaluation

??不同角度的理由(rationale)的有效性在不同的新聞項(xiàng)目中有所不同,不適當(dāng)?shù)恼峡赡軐?dǎo)致性能下降。為了使模型能夠自適應(yīng)地選擇適當(dāng)?shù)睦碛?,我們?cè)O(shè)計(jì)了一個(gè)理由有用性評(píng)估過(guò)程,在這個(gè)過(guò)程中,我們?cè)u(píng)估不同理由的貢獻(xiàn)并調(diào)整它們的權(quán)重以進(jìn)行后續(xù)的真實(shí)性預(yù)測(cè)。這個(gè)過(guò)程包括兩個(gè)階段,即評(píng)估和重新加權(quán)。在評(píng)估階段,我們將新聞感知的rationale向量\mathrm{f}_{\mathrm{x} \rightarrow \mathrm{t}}輸入到rationale usefulness evaluator(由MLP參數(shù)化)中,以預(yù)測(cè)其usefulness {u}_{t}。根據(jù)假設(shè): "rationales leading to correct judgments are more useful", 我們使用 judgment correctness 作為
rationale usefulness的標(biāo)簽。
\hat{u}_{t}=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\mathbf{f}_{\mathbf{x} \rightarrow \mathbf{t}}\right)\right)
L_{e t}=\mathrm{CE}\left(\hat{u}_{t}, u_{t}\right)

??在重新加權(quán)階段,我們將向量\mathbf{f}_{\mathrm{x} \rightarrow \mathrm{t}}輸入到一個(gè)MLP中,以獲得權(quán)重值{w}_{t},然后使用它來(lái)重新加權(quán)具有理由感知的新聞向量\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}。具體過(guò)程如下:
\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}{ }^{\prime}=w_{t} \cdot \mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}
??我們還使用注意力池化將表示矩陣X轉(zhuǎn)換為向量x

Prediction

??根據(jù)上一步的輸出,我們現(xiàn)在聚合新聞向量x和具有理由感知的新聞向量\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}^{\prime}\mathbf{f}_{\mathbf{c} \rightarrow \mathbf{x}}^{\prime}以進(jìn)行最終的判斷。對(duì)于具有標(biāo)簽y \in\{0,1\}的新聞項(xiàng)目x,我們使用不同的權(quán)重來(lái)聚合這些向量:
\mathbf{f}_{\mathbf{c l s}}=w_{x}^{c l s} \cdot \mathbf{x}+w_{t}^{c l s} \cdot \mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}^{\prime}+w_{c}^{c l s} \cdot \mathbf{f}_{\mathbf{c} \rightarrow \mathbf{x}}^{\prime}

其中w_{x}^{c l s},w_{t}^{c l s}w_{c}^{c l s}是可學(xué)習(xí)的參數(shù),范圍從0到1。\mathbf{f}_{\mathrm{cls}}是融合向量,然后輸入到MLP分類器中,用于最終預(yù)測(cè)新聞?wù)鎸?shí)性:
L_{c e}=\operatorname{CE}\left(\operatorname{MLP}\left(f_{c l s}\right), y\right)
??總損失函數(shù)是上述損失項(xiàng)的加權(quán)和:
L=L_{c e}+\beta_{1}\left(L_{e t}+L_{e c}\right)+\beta_{2}\left(L_{p t}+L_{p c}\right)

Distillation for Rationale-Free Model

ARG需要為每個(gè)預(yù)測(cè)發(fā)送請(qǐng)求到LLM,這對(duì)于成本敏感的場(chǎng)景可能是不可承受的。因此,我們嘗試構(gòu)建一個(gè)rationale-free的模型,即ARG-D?;舅枷胧菍⒗碛芍械闹R(shí)模擬和內(nèi)化到一個(gè)參數(shù)模塊中。如圖3(d)所示,我們初始化新聞編碼器和分類器與ARG中的相應(yīng)模塊,并訓(xùn)練一個(gè)rationale-aware feature simulator(使用一個(gè)multi-head transformer block實(shí)現(xiàn))和一個(gè)注意力模塊來(lái)內(nèi)化知識(shí)。除了交叉熵?fù)p失{L}_{ce}之外,我們還使用均方估計(jì)損失讓特征\mathrm{f}_{\mathrm{cls}}^{\mathrmu0z1t8os}模擬ARG中的\mathbf{f}_{\mathrm{cls}},如下:
L_{k d}=\operatorname{MSE}\left(\mathbf{f}_{\mathbf{c l s}}, \mathbf{f}_{\mathbf{c l s}}^{\mathbfu0z1t8os}\right)

實(shí)驗(yàn)部分

Baselines

比較了三組方法:

  • G1(僅LLM):我們?cè)诒?中列出了每個(gè)數(shù)據(jù)集上的最佳設(shè)置的性能,即在中文中是few-shot,在英文中是few-shot CoT。
  • G2(僅SLM):1) Baseline:使用與第2節(jié)中相一致的設(shè)置的vanilla BERT-base模型。2) EANN-T(Wang et al., 2018[4]):通過(guò)輔助對(duì)抗訓(xùn)練學(xué)習(xí)有效信號(hào)的模型,旨在盡量消除與事件相關(guān)的特征。我們將出版年作為輔助任務(wù)的標(biāo)簽。3) Publisher-Emo(Zhang et al., 2021[5]):將一系列情感特征與文本特征融合以進(jìn)行假新聞檢測(cè)的模型。4) ENDEF(Zhu et al., 2022[6]):通過(guò)因果學(xué)習(xí)消除實(shí)體偏見(jiàn),以更好地推廣到分布移位的假新聞數(shù)據(jù)。這個(gè)組中的所有方法都使用相同的BERT作為文本編碼器。
  • G3(LLM+SLM):1) baseline+rationale:它將新聞編碼器和理由編碼器的特征連接起來(lái),并將它們輸入MLP進(jìn)行預(yù)測(cè)。2) SuperICL(Xu et al., 2023[7]):它將SLM作為L(zhǎng)LM的上下文學(xué)習(xí)的插件,通過(guò)將每個(gè)測(cè)試樣本的預(yù)測(cè)和置信度注入到提示中。

實(shí)驗(yàn)結(jié)果

表5

結(jié)果分析

??為了調(diào)查ARG(-D)的額外收益應(yīng)歸因于哪一部分,我們對(duì)ARG(-D)相對(duì)于vanilla BERT的額外正確判斷的樣本進(jìn)行了統(tǒng)計(jì)分析。從圖4中,我們觀察到:1) ARG(-D)和LLM之間重疊樣本的比例超過(guò)77%,表明ARG(-D)可以利用(并吸收)LLM中有價(jià)值的判斷知識(shí),即使其性能不盡如人意。2) LLM從兩個(gè)角度正確判斷的樣本貢獻(xiàn)最大,表明更多的多樣化理由可能會(huì)增強(qiáng)ARG(-D)的訓(xùn)練。3) 20.4%和22.1%的正確判斷應(yīng)歸因于模型本身。我們推測(cè)它根據(jù)給定知識(shí)的錯(cuò)誤判斷產(chǎn)生了一些種類的“新知識(shí)”。

圖4

實(shí)際成本分析

??我們展示了一種可能的在實(shí)際系統(tǒng)中平衡性能和成本的模型遷移策略。我們模擬了默認(rèn)情況下使用更經(jīng)濟(jì)的ARG-D,但查詢更強(qiáng)大的ARG來(lái)處理部分?jǐn)?shù)據(jù)的情況。如圖5所示,通過(guò)僅向ARG發(fā)送23%的數(shù)據(jù)(根據(jù)ARG-D的置信度),我們可以實(shí)現(xiàn)macro-F1為0.784,這與完全使用ARG的性能相同。

圖5

結(jié)論

??我們調(diào)查了大型語(yǔ)言模型是否有助于假新聞檢測(cè),以及如何正確利用它們的優(yōu)勢(shì)來(lái)提高性能。結(jié)果顯示,大型語(yǔ)言模型(GPT-3.5)性能低于任務(wù)特定的小型語(yǔ)言模型(BERT),但能夠提供信息豐富的理由,并在新聞理解方面補(bǔ)充小型語(yǔ)言模型?;谶@些發(fā)現(xiàn),我們?cè)O(shè)計(jì)了ARG網(wǎng)絡(luò),以靈活地結(jié)合小型和大型語(yǔ)言模型的各自優(yōu)勢(shì),并開(kāi)發(fā)了其rationale-free版本ARG-D,用于成本敏感的場(chǎng)景。實(shí)驗(yàn)證明了ARG和ARG-D的優(yōu)越性。


  1. https://github.com/ICTMCG/ARG ?

  2. Qiong Nan, Juan Cao, Yongchun Zhu, Yanyan Wang, and Jintao Li. 2021. MDFEND: Multi-domain fake news detection. In Proceedings of the 30th ACM International Conference on Information and Knowledge Management. ?

  3. Kai Shu, Deepak Mahudeswaran, Suhang Wang, Dongwon Lee, and Huan Liu. 2020. FakeNewsNet: A
    data repository with news content, social context and spatiotemporal information for studying fake news on social media. Big data, 8:171–188. ?

  4. Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. 2018. EANN: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ?

  5. Xueyao Zhang, Juan Cao, Xirong Li, Qiang Sheng, Lei Zhong, and Kai Shu. 2021. Mining dual emotion
    for fake news detection. In Proceedings of the web conference 2021, pages 3465–3476. ?

  6. Yongchun Zhu, Qiang Sheng, Juan Cao, Shuokai Li, Danding Wang, and Fuzhen Zhuang. 2022. Generalizing to the future: Mitigating entity bias in fake news detection. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 2120–2125. ?

  7. Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, and Julian McAuley. 2023. Small models are valuable plug-ins for large language models. arXiv preprint arXiv:2305.08848. ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容