論文標(biāo)題：Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
論文鏈接：https://arxiv.org/abs/2309.12247
論文來(lái)源：AAAI2024
作者單位：中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院大學(xué)、新加坡國(guó)立大學(xué)

摘要

??檢測(cè)假新聞需要對(duì)多種線索有著敏銳的洞察力和對(duì)真實(shí)世界背景有著深刻的理解，這對(duì)于基于小語(yǔ)言模型（SLMs）的檢測(cè)器來(lái)說(shuō)仍然是一個(gè)挑戰(zhàn)，因?yàn)樗鼈冊(cè)谥R(shí)和能力方面存在局限性。最近大語(yǔ)言模型（LLMs）的進(jìn)展在各種任務(wù)中表現(xiàn)出色，但LLMs是否以及如何在假新聞檢測(cè)中發(fā)揮作用仍然是未被深入探討的問(wèn)題。

??在本文中，我們調(diào)查了LLMs在假新聞檢測(cè)中的潛力。首先，我們進(jìn)行了實(shí)證研究，發(fā)現(xiàn)像GPT 3.5這樣的復(fù)雜LLM通常能夠揭露假新聞并提供令人滿意的多重理由，但仍然不如SLM，即經(jīng)過(guò)微調(diào)的BERT。我們的后續(xù)分析將這樣的差距歸因于LLM無(wú)法適當(dāng)選擇和整合理由以做出結(jié)論。基于這些發(fā)現(xiàn)，我們提出當(dāng)前的LLMs可能不能替代在假新聞檢測(cè)中經(jīng)過(guò)微調(diào)的SLMs，但可以通過(guò)提供multi-perspective instructive rationales而成為SLMs的良好顧問(wèn)。

??為了實(shí)現(xiàn)這一提議，我們?cè)O(shè)計(jì)了一種 adaptive rationale guidance network for fake news detection (ARG)，其中SLMs選擇性地從LLMs的理由中獲取新聞分析的見(jiàn)解。我們通過(guò)蒸餾進(jìn)一步推導(dǎo)出ARG的無(wú)理由版本，即ARGD，該版本在不查詢LLMs的情況下服務(wù)于成本敏感的場(chǎng)景。在兩個(gè)真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)證明，ARG和ARGD均優(yōu)于三種baseline methods，包括基于SLM、基于LLM和小型和大型語(yǔ)言模型的組合。

概述

??盡管已經(jīng)取得了很多進(jìn)展，但對(duì)于當(dāng)前的模型來(lái)說(shuō)，理解和描述假新聞仍然是一個(gè)挑戰(zhàn)。這是由于新聞制造過(guò)程的復(fù)雜性所致：假新聞制作者可能操縱新聞的任何部分，使用多種寫作策略，并受到難以捉摸的潛在目標(biāo)的驅(qū)使。因此，為了保持對(duì)假新聞檢測(cè)的有效性和普適性，理想的方法需要具備以下特點(diǎn)：1）對(duì)于多樣線索（例如，風(fēng)格、事實(shí)、常識(shí)）有著敏銳的洞察力；2）對(duì)于真實(shí)世界背景有著深刻的理解。
??近期的方法通常利用預(yù)訓(xùn)練的小語(yǔ)言模型（SLMs），如BERT和RoBERTa，以理解新聞內(nèi)容并提供基本的表示，再加上可選的社會(huì)背景、知識(shí)庫(kù)或新聞環(huán)境等輔助信息。SLMs確實(shí)帶來(lái)了改進(jìn)，但它們的知識(shí)和能力限制也妨礙了對(duì)假新聞檢測(cè)器的進(jìn)一步增強(qiáng)。例如，BERT是在文本語(yǔ)料庫(kù)（如維基百科）上進(jìn)行預(yù)訓(xùn)練的，因此在處理需要不包含的知識(shí)的新聞時(shí)表現(xiàn)較差。

??作為對(duì)SLMs的新替代方案，大語(yǔ)言模型（LLMs）通常在規(guī)模更大的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練，并與人類偏好保持一致，已展現(xiàn)出在各種任務(wù)上的令人印象深刻的新興能力，被認(rèn)為有望成為通用任務(wù)解決者。然而，LLMs在假新聞檢測(cè)中的潛力仍未得到充分挖掘：
-LLMs是否能夠利用其內(nèi)部知識(shí)和能力來(lái)幫助檢測(cè)假新聞？
-我們應(yīng)該采用什么解決方案以更好地利用LLMs獲得更好的性能？

??為了回答這兩個(gè)問(wèn)題，我們首先對(duì)LLMs在假新聞檢測(cè)中的有效作用進(jìn)行了深入調(diào)查，并試圖提供一個(gè)實(shí)用的LLM-involved解決方案。與現(xiàn)有工作只是簡(jiǎn)單地提示LLMs根據(jù)任務(wù)指示提供預(yù)測(cè)不同，我們進(jìn)行了詳細(xì)的實(shí)證研究來(lái)挖掘LLMs的潛力。具體而言，我們使用了四種典型的提示方法（zeroshot/few-shot/vanilla/chain-of-thought prompting），要求LLM對(duì)給定的新聞項(xiàng)進(jìn)行真實(shí)性判斷（圖1(a)），并發(fā)現(xiàn)即使表現(xiàn)最好的基于LLM的方法仍然不如任務(wù)特定的經(jīng)過(guò)微調(diào)的SLMs。然后，我們對(duì)由LLM生成的解釋性理由進(jìn)行分析，并發(fā)現(xiàn)LLM能夠從多個(gè)角度提供合理且信息豐富的理由。通過(guò)隨后使用perspective-specific prompts誘導(dǎo)LLM，并執(zhí)行基于規(guī)則的判斷集成，我們發(fā)現(xiàn)理由確實(shí)有益于假新聞檢測(cè)，并將性能不佳歸因于LLM無(wú)法適當(dāng)選擇和整合理由以得出結(jié)論。

圖1 大語(yǔ)言模型在虛假新聞檢測(cè)中的作用

??基于這些發(fā)現(xiàn)，我們提出目前的LLM可能不是對(duì)fine-tuned SLM的良好替代品，但可以通過(guò)提供有指導(dǎo)性的理由作為良好的顧問(wèn)，如圖1(b)所示。為了實(shí)例化我們的提議，我們?cè)O(shè)計(jì)了adaptive rationale guidance (ARG) network，用于假新聞檢測(cè)，通過(guò)從大型LM的理由中選擇性地注入有關(guān)新聞分析的新見(jiàn)解，將小型LM和大型LM連接起來(lái)。 ARG通過(guò)蒸餾進(jìn)一步推導(dǎo)出無(wú)理由的ARG-D，適用于在無(wú)需查詢LLMs的成本敏感場(chǎng)景中。對(duì)兩個(gè)真實(shí)世界數(shù)據(jù)集的實(shí)驗(yàn)證明ARG和ARG-D優(yōu)于現(xiàn)有的SLM/LLM-only和組合方法。我們的貢獻(xiàn)如下：

詳細(xì)調(diào)查：我們對(duì)LLMs在假新聞檢測(cè)中的有效作用進(jìn)行了調(diào)查，發(fā)現(xiàn)LLM在真實(shí)性判斷方面表現(xiàn)不佳，但在分析內(nèi)容方面表現(xiàn)良好；
新穎而實(shí)用的解決方案：我們?cè)O(shè)計(jì)了一種新穎的ARG網(wǎng)絡(luò)及其經(jīng)過(guò)蒸餾的版本ARG-D，通過(guò)從LLM生成的理由中選擇性地獲取對(duì)SLMs有啟發(fā)作用的見(jiàn)解，從而補(bǔ)充了小型和大型LMs，該方案在廣泛實(shí)驗(yàn)中表現(xiàn)出優(yōu)越性；
有用的資源：我們從GPT-3.5構(gòu)建了一份關(guān)于假新聞檢測(cè)的理由收集，涵蓋兩種語(yǔ)言（中文和英文），并將其公開(kāi)提供^[1]，以促進(jìn)進(jìn)一步的研究。

Is the LLM a Good Detector?

??在這一部分，我們?cè)u(píng)估代表性的LLM，即GPT-3.5，在假新聞檢測(cè)中的性能，以揭示其判斷能力。我們利用四種典型的提示方法，并與在該任務(wù)上經(jīng)過(guò)微調(diào)的SLM（這里是BERT）進(jìn)行比較。

實(shí)驗(yàn)設(shè)置

??數(shù)據(jù)集：我們使用了中文數(shù)據(jù)集Weibo21（Nan等，2021^[2]）和英文數(shù)據(jù)集GossipCop（Shu等，2020^[3]）進(jìn)行評(píng)估。按照現(xiàn)有的研究（Zhu等，2022；Mu等，2023），我們對(duì)數(shù)據(jù)集進(jìn)行了去重和時(shí)間分割的預(yù)處理，以避免由于數(shù)據(jù)泄漏導(dǎo)致可能的性能過(guò)高評(píng)估。表1呈現(xiàn)了數(shù)據(jù)集的統(tǒng)計(jì)信息。

表1 虛假新聞檢測(cè)數(shù)據(jù)集統(tǒng)計(jì)情況

??大型語(yǔ)言模型：我們?cè)u(píng)估了由OpenAI開(kāi)發(fā)的GPT-3.5-turbo，這是支持流行聊天機(jī)器人ChatGPT（OpenAI，2022）的LLM。由于LLMs的參數(shù)規(guī)模較大，使得對(duì)其進(jìn)行任務(wù)特定的微調(diào)幾乎不可能，因此我們使用提示學(xué)習(xí)范式，即LLM通過(guò)包含指導(dǎo)或少量演示的提示學(xué)習(xí)任務(wù)。具體而言，我們利用以下四種典型的提示方法來(lái)引出LLM在假新聞檢測(cè)中的潛力（圖2）：

圖2 對(duì)大模型的提示方法

??小語(yǔ)言模型：我們采用預(yù)訓(xùn)練的小語(yǔ)言模型BERT（Devlin等，2019）作為代表。具體而言，我們將文本的最大長(zhǎng)度限制為170個(gè)標(biāo)記，并分別使用Transformers包中的chinese-bert-wwm-ext和bert-base-uncased來(lái)進(jìn)行中文和英文的評(píng)估。

大模型和小模型的實(shí)驗(yàn)對(duì)比

表2 大語(yǔ)言模型和小語(yǔ)言模型的表現(xiàn)

??表2呈現(xiàn)了GPT-3.5-turbo在四種提示方法和經(jīng)過(guò)微調(diào)的BERT上的性能，涉及兩個(gè)數(shù)據(jù)集。我們觀察到：

盡管LLM通常被認(rèn)為是強(qiáng)大的，但在所有四種提示方法中，LLM的性能都不如經(jīng)過(guò)微調(diào)的SLM。在中文數(shù)據(jù)集中，SLM相對(duì)于LLM有3.8%～11.3%的增加，在英文數(shù)據(jù)集中為9.0%～34.6%，表明LLM缺乏任務(wù)特定的知識(shí)，而SLM在微調(diào)過(guò)程中學(xué)習(xí)到了相關(guān)知識(shí)。
Few-shot版本勝過(guò)Zero-shot版本，表明任務(wù)樣本的重要性。然而，引入一些樣本僅僅減小了與SLM的差距，而沒(méi)有達(dá)到或超過(guò)SLM的性能。
思維鏈提示通常帶來(lái)額外的性能提升，特別是在英文數(shù)據(jù)集的Zero-shot設(shè)置下（+17.3%）。然而，我們也觀察到一些情況下鏈狀思維提示導(dǎo)致性能下降。這表明有效利用理由可能需要更謹(jǐn)慎的設(shè)計(jì)。
??總體而言，考慮到LLM的不理想性能和相對(duì)于SLM更高的推理成本，目前的LLM并不是在假新聞檢測(cè)中替代任務(wù)特定SLMs的“足夠好”的檢測(cè)器。

對(duì)LLM理由的分析

??盡管LLM在新聞?wù)鎸?shí)性判斷方面表現(xiàn)不佳，我們還注意到通過(guò)Zero-shot思維鏈提示生成的理由展示了一種獨(dú)特的多角度分析能力，這對(duì)于SLM來(lái)說(shuō)是具有挑戰(zhàn)性且罕見(jiàn)的。為了進(jìn)一步探索，我們從每個(gè)數(shù)據(jù)集中隨機(jī)抽取了500個(gè)樣本，并根據(jù)LLM執(zhí)行新聞分析的角度對(duì)它們進(jìn)行手動(dòng)分類。表3呈現(xiàn)了按角度和案例統(tǒng)計(jì)的結(jié)果。我們觀察到：

LLM能夠從各種角度生成類似人類的理由，如文本描述、常識(shí)和事實(shí)性，這符合在假新聞檢測(cè)中對(duì)多樣線索的敏感洞察力和對(duì)真實(shí)世界背景的深刻理解的要求。
在使用特定角度的子集上的檢測(cè)性能高于在整個(gè)測(cè)試集上的Zero-shot思維鏈提示的結(jié)果。
從事實(shí)性角度進(jìn)行的分析導(dǎo)致性能低于平均水平，表明使用LLM進(jìn)行基于其內(nèi)部記憶的事實(shí)性分析是不可靠的。
??

對(duì)大模型給出的不同角度理由的分析

??我們進(jìn)一步調(diào)查了LLM在被要求從特定角度對(duì)整個(gè)測(cè)試集進(jìn)行分析時(shí)的性能。從表4的第一組中，我們可以看到，通過(guò)單一角度分析引發(fā)的LLM的判斷仍然是有希望的。與全面的Zero-shot思維鏈提示設(shè)置相比，基于單一角度的LLM在中文數(shù)據(jù)集上表現(xiàn)相當(dāng)，并在英文數(shù)據(jù)集上表現(xiàn)更好（對(duì)于常識(shí)角度的情況）。這些結(jié)果表明，LLM整合來(lái)自不同角度的理由的內(nèi)部機(jī)制對(duì)于假新聞檢測(cè)并不是有效的，它限制了理由的充分利用。在這種情況下，將小型和大型LMs結(jié)合起來(lái)相輔相成是一個(gè)有前景的解決方案：前者可以從后者的分析能力中受益，而后者可以通過(guò)前者獲得的任務(wù)特定知識(shí)得到增強(qiáng)。

LLM使用特定角度理由的零樣本思維鏈的表現(xiàn)

??為了展示這種解決方案的優(yōu)勢(shì)，我們?cè)趦蓚€(gè)基于單一角度的LLMs和BERT之間應(yīng)用了多數(shù)投票和Oracle投票。結(jié)果表明，如果我們能夠適應(yīng)性地結(jié)合它們的優(yōu)勢(shì)，那么我們可能會(huì)獲得比之前提到的任何LLM-/SLM-only方法更好的性能。也就是說(shuō)，通過(guò)提供理由，LLM可能成為SLM的良好顧問(wèn)，最終提高假新聞檢測(cè)的性能。

ARG: Adaptive Rationale Guidance Network for Fake News Detection

??圖3概述了ARG及其適用于成本敏感場(chǎng)景的rationale-free版本ARG-D。ARG的目標(biāo)是賦予小型假新聞檢測(cè)器以能夠自適應(yīng)地選擇有用的理由作為最終判斷的參考。給定一條新聞 $x$ 及其相應(yīng)的LLM生成的理由 ${r}_{t}$ （文本描述）和 ${r}_{c}$ （常識(shí)），ARG首先使用SLM對(duì)輸入進(jìn)行編碼（圖3(a)）。隨后，通過(guò)預(yù)測(cè)LLM的判斷，ARG建立新聞-理由協(xié)作，豐富新聞-理由特征交互，并評(píng)估理由的有用性（圖3(b)）。最后，交互特征與新聞特征 $x$ 一起聚合，用于最終判斷 $x$ 是否為假新聞（圖3(c)）。ARG-D是通過(guò)對(duì)在LLM不可用的情況下進(jìn)行的ARG進(jìn)行蒸餾派生的（圖3(d)）。

Representation

??我們分別使用兩個(gè)BERT模型作為新聞和理由的編碼器，以獲取語(yǔ)義表示。對(duì)于給定的新聞項(xiàng)目 $x$ 和兩個(gè)相應(yīng)的理由 ${r}_{t}$ 和 ${r}_{c}$ ，它們的表示分別為 $X$ 、 ${R}_{t}$ 和 ${R}_{c}$ 。

News-Rationale Collaboration

??新聞-理由協(xié)作的步驟旨在在新聞和理由之間提供豐富的交互，并學(xué)會(huì)自適應(yīng)地選擇有用的理由作為參考，這是我們?cè)O(shè)計(jì)的核心。為了實(shí)現(xiàn)這一目標(biāo)，ARG包括三個(gè)模塊，下面詳細(xì)說(shuō)明并以文本描述理由分支為例說(shuō)明：

News-Rationale Interaction

??為了實(shí)現(xiàn)新聞和理由之間的全面信息交流，我們引入了一個(gè)具有雙交叉注意力機(jī)制的新聞-理由交互器，以促進(jìn)特征的交互。交叉注意力可以描述為：
$\mathrm{CA}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\mathbf{Q}^{\prime} \cdot \mathbf{K}^{\prime} / \sqrtu0z1t8os\right) \mathbf{V}^{\prime}$

其中 $\mathbf{Q}^{\prime}=\mathbf{W}_{\mathrm{Q}} \mathbf{Q}$ , $\mathbf{K}^{\prime}=\mathbf{W}_{\mathrm{K}} \mathbf{K}$ , $\mathbf{V}^{\prime}=\mathbf{W}_{\mathrm{V}} \mathbf{V}$ 。在給定新聞 $X$ 和理由 ${R}_{t}$ 的表示的情況下，該過(guò)程如下：
$\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}=\operatorname{AvgPool}\left(\mathrm{CA}\left(\mathbf{R}_{\mathbf{t}}, \mathbf{X}, \mathbf{X}\right)\right)$
$\mathbf{f}_{\mathbf{x} \rightarrow \mathbf{t}}=\operatorname{AvgPool}\left(\mathrm{CA}\left(\mathbf{X}, \mathbf{R}_{\mathbf{t}}, \mathbf{R}_{\mathbf{t}}\right)\right)$

其中，AvgPool(·)是對(duì)通過(guò)交叉注意力輸出的表示進(jìn)行平均池化，以獲取一個(gè)文本表示 $f$ 的過(guò)程。

LLM Judgement Prediction

??理解給定rationale所暗示的判斷是充分利用理由背后信息的先決條件。為此，我們構(gòu)建了LLM判斷預(yù)測(cè)任務(wù)，其要求是根據(jù)給定的rationale預(yù)測(cè)新聞?wù)鎸?shí)性的LLM判斷。我們期望這能夠加深對(duì)rationale文本的理解。對(duì)于文本描述rationale分支，我們將其表示 ${R}_{t}$ 輸入到LLM判斷預(yù)測(cè)器中，該預(yù)測(cè)器使用多層感知機(jī)（MLP）進(jìn)行參數(shù)化：
$\hat{m}_{t}=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\mathbf{R}_{\mathbf{t}}\right)\right)$
$L_{p t}=\mathrm{CE}\left(\hat{m}_{t}, m_{t}\right)$

其中， $m_{t}$ 和 $\hat{m}_{t}$ 分別是LLM的實(shí)際判斷和其預(yù)測(cè)。損失 ${L}_{pt}$ 是交叉熵?fù)p失 $\mathrm{CE}(\hat{y}, y)=-y \log \hat{y}-(1-y) \log (1-\hat{y})$ 。對(duì)于常識(shí)rationale ${R}_{c}$ 的情況也是類似的。

Rationale Usefulness Evaluation

??不同角度的理由（rationale）的有效性在不同的新聞項(xiàng)目中有所不同，不適當(dāng)?shù)恼峡赡軐?dǎo)致性能下降。為了使模型能夠自適應(yīng)地選擇適當(dāng)?shù)睦碛?，我們?cè)O(shè)計(jì)了一個(gè)理由有用性評(píng)估過(guò)程，在這個(gè)過(guò)程中，我們?cè)u(píng)估不同理由的貢獻(xiàn)并調(diào)整它們的權(quán)重以進(jìn)行后續(xù)的真實(shí)性預(yù)測(cè)。這個(gè)過(guò)程包括兩個(gè)階段，即評(píng)估和重新加權(quán)。在評(píng)估階段，我們將新聞感知的rationale向量 $\mathrm{f}_{\mathrm{x} \rightarrow \mathrm{t}}$ 輸入到rationale usefulness evaluator（由MLP參數(shù)化）中，以預(yù)測(cè)其usefulness ${u}_{t}$ 。根據(jù)假設(shè)： "rationales leading to correct judgments are more useful", 我們使用 judgment correctness 作為
rationale usefulness的標(biāo)簽。
$\hat{u}_{t}=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\mathbf{f}_{\mathbf{x} \rightarrow \mathbf{t}}\right)\right)$
$L_{e t}=\mathrm{CE}\left(\hat{u}_{t}, u_{t}\right)$

??在重新加權(quán)階段，我們將向量 $\mathbf{f}_{\mathrm{x} \rightarrow \mathrm{t}}$ 輸入到一個(gè)MLP中，以獲得權(quán)重值 ${w}_{t}$ ，然后使用它來(lái)重新加權(quán)具有理由感知的新聞向量 $\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}$ 。具體過(guò)程如下：
$\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}{ }^{\prime}=w_{t} \cdot \mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}$
??我們還使用注意力池化將表示矩陣 $X$ 轉(zhuǎn)換為向量 $x$ 。

Prediction

??根據(jù)上一步的輸出，我們現(xiàn)在聚合新聞向量 $x$ 和具有理由感知的新聞向量 $\mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}^{\prime}$ 、 $\mathbf{f}_{\mathbf{c} \rightarrow \mathbf{x}}^{\prime}$ 以進(jìn)行最終的判斷。對(duì)于具有標(biāo)簽 $y \in\{0,1\}$ 的新聞項(xiàng)目 $x$ ，我們使用不同的權(quán)重來(lái)聚合這些向量：
$\mathbf{f}_{\mathbf{c l s}}=w_{x}^{c l s} \cdot \mathbf{x}+w_{t}^{c l s} \cdot \mathbf{f}_{\mathbf{t} \rightarrow \mathbf{x}}^{\prime}+w_{c}^{c l s} \cdot \mathbf{f}_{\mathbf{c} \rightarrow \mathbf{x}}^{\prime}$

其中 $w_{x}^{c l s}$ ， $w_{t}^{c l s}$ 和 $w_{c}^{c l s}$ 是可學(xué)習(xí)的參數(shù)，范圍從0到1。 $\mathbf{f}_{\mathrm{cls}}$ 是融合向量，然后輸入到MLP分類器中，用于最終預(yù)測(cè)新聞?wù)鎸?shí)性：
$L_{c e}=\operatorname{CE}\left(\operatorname{MLP}\left(f_{c l s}\right), y\right)$
??總損失函數(shù)是上述損失項(xiàng)的加權(quán)和：
$L=L_{c e}+\beta_{1}\left(L_{e t}+L_{e c}\right)+\beta_{2}\left(L_{p t}+L_{p c}\right)$

Distillation for Rationale-Free Model

ARG需要為每個(gè)預(yù)測(cè)發(fā)送請(qǐng)求到LLM，這對(duì)于成本敏感的場(chǎng)景可能是不可承受的。因此，我們嘗試構(gòu)建一個(gè)rationale-free的模型，即ARG-D?；舅枷胧菍⒗碛芍械闹R(shí)模擬和內(nèi)化到一個(gè)參數(shù)模塊中。如圖3(d)所示，我們初始化新聞編碼器和分類器與ARG中的相應(yīng)模塊，并訓(xùn)練一個(gè)rationale-aware feature simulator（使用一個(gè)multi-head transformer block實(shí)現(xiàn)）和一個(gè)注意力模塊來(lái)內(nèi)化知識(shí)。除了交叉熵?fù)p失 ${L}_{ce}$ 之外，我們還使用均方估計(jì)損失讓特征 $\mathrm{f}_{\mathrm{cls}}^{\mathrmu0z1t8os}$ 模擬ARG中的 $\mathbf{f}_{\mathrm{cls}}$ ，如下：
$L_{k d}=\operatorname{MSE}\left(\mathbf{f}_{\mathbf{c l s}}, \mathbf{f}_{\mathbf{c l s}}^{\mathbfu0z1t8os}\right)$

實(shí)驗(yàn)部分

Baselines

比較了三組方法：

G1（僅LLM）：我們?cè)诒?中列出了每個(gè)數(shù)據(jù)集上的最佳設(shè)置的性能，即在中文中是few-shot，在英文中是few-shot CoT。
G2（僅SLM）：1) Baseline：使用與第2節(jié)中相一致的設(shè)置的vanilla BERT-base模型。2) EANN-T（Wang et al., 2018^[4]）：通過(guò)輔助對(duì)抗訓(xùn)練學(xué)習(xí)有效信號(hào)的模型，旨在盡量消除與事件相關(guān)的特征。我們將出版年作為輔助任務(wù)的標(biāo)簽。3) Publisher-Emo（Zhang et al., 2021^[5]）：將一系列情感特征與文本特征融合以進(jìn)行假新聞檢測(cè)的模型。4) ENDEF（Zhu et al., 2022^[6]）：通過(guò)因果學(xué)習(xí)消除實(shí)體偏見(jiàn)，以更好地推廣到分布移位的假新聞數(shù)據(jù)。這個(gè)組中的所有方法都使用相同的BERT作為文本編碼器。
G3（LLM+SLM）：1) baseline+rationale：它將新聞編碼器和理由編碼器的特征連接起來(lái)，并將它們輸入MLP進(jìn)行預(yù)測(cè)。2) SuperICL（Xu et al., 2023^[7]）：它將SLM作為L(zhǎng)LM的上下文學(xué)習(xí)的插件，通過(guò)將每個(gè)測(cè)試樣本的預(yù)測(cè)和置信度注入到提示中。

實(shí)驗(yàn)結(jié)果

表5

結(jié)果分析

??為了調(diào)查ARG(-D)的額外收益應(yīng)歸因于哪一部分，我們對(duì)ARG(-D)相對(duì)于vanilla BERT的額外正確判斷的樣本進(jìn)行了統(tǒng)計(jì)分析。從圖4中，我們觀察到：1) ARG(-D)和LLM之間重疊樣本的比例超過(guò)77%，表明ARG(-D)可以利用（并吸收）LLM中有價(jià)值的判斷知識(shí)，即使其性能不盡如人意。2) LLM從兩個(gè)角度正確判斷的樣本貢獻(xiàn)最大，表明更多的多樣化理由可能會(huì)增強(qiáng)ARG(-D)的訓(xùn)練。3) 20.4%和22.1%的正確判斷應(yīng)歸因于模型本身。我們推測(cè)它根據(jù)給定知識(shí)的錯(cuò)誤判斷產(chǎn)生了一些種類的“新知識(shí)”。

圖4

實(shí)際成本分析

??我們展示了一種可能的在實(shí)際系統(tǒng)中平衡性能和成本的模型遷移策略。我們模擬了默認(rèn)情況下使用更經(jīng)濟(jì)的ARG-D，但查詢更強(qiáng)大的ARG來(lái)處理部分?jǐn)?shù)據(jù)的情況。如圖5所示，通過(guò)僅向ARG發(fā)送23%的數(shù)據(jù)（根據(jù)ARG-D的置信度），我們可以實(shí)現(xiàn)macro-F1為0.784，這與完全使用ARG的性能相同。

圖5

結(jié)論

??我們調(diào)查了大型語(yǔ)言模型是否有助于假新聞檢測(cè)，以及如何正確利用它們的優(yōu)勢(shì)來(lái)提高性能。結(jié)果顯示，大型語(yǔ)言模型（GPT-3.5）性能低于任務(wù)特定的小型語(yǔ)言模型（BERT），但能夠提供信息豐富的理由，并在新聞理解方面補(bǔ)充小型語(yǔ)言模型?；谶@些發(fā)現(xiàn)，我們?cè)O(shè)計(jì)了ARG網(wǎng)絡(luò)，以靈活地結(jié)合小型和大型語(yǔ)言模型的各自優(yōu)勢(shì)，并開(kāi)發(fā)了其rationale-free版本ARG-D，用于成本敏感的場(chǎng)景。實(shí)驗(yàn)證明了ARG和ARG-D的優(yōu)越性。

https://github.com/ICTMCG/ARG ?
Qiong Nan, Juan Cao, Yongchun Zhu, Yanyan Wang, and Jintao Li. 2021. MDFEND: Multi-domain fake news detection. In Proceedings of the 30th ACM International Conference on Information and Knowledge Management. ?
Kai Shu, Deepak Mahudeswaran, Suhang Wang, Dongwon Lee, and Huan Liu. 2020. FakeNewsNet: A
data repository with news content, social context and spatiotemporal information for studying fake news on social media. Big data, 8:171–188. ?
Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. 2018. EANN: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ?
Xueyao Zhang, Juan Cao, Xirong Li, Qiang Sheng, Lei Zhong, and Kai Shu. 2021. Mining dual emotion
for fake news detection. In Proceedings of the web conference 2021, pages 3465–3476. ?
Yongchun Zhu, Qiang Sheng, Juan Cao, Shuokai Li, Danding Wang, and Fuzhen Zhuang. 2022. Generalizing to the future: Mitigating entity bias in fake news detection. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 2120–2125. ?
Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu, and Julian McAuley. 2023. Small models are valuable plug-ins for large language models. arXiv preprint arXiv:2305.08848. ?

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文筆記| AAAI'24 大語(yǔ)言模型在虛假新聞檢測(cè)中的作用