用Inseq庫(kù)來深入解析一下AI自然語(yǔ)言的生成吧

ChatGPT實(shí)在是太火了,以至于帶動(dòng)了整個(gè)NLP(Natural Language Processing 自然語(yǔ)言生成)的研究和認(rèn)知度大受關(guān)注。在整個(gè)NLP的研究和應(yīng)用中,除了最上層的僅僅是應(yīng)用這些類似GPT工具的普通用戶,和最底層的模型算法開發(fā)研究人員,還有很多像我這樣中間層的,喜歡基于機(jī)器學(xué)習(xí)的模型做一些應(yīng)用開發(fā),在需要的場(chǎng)景里為自己定制服務(wù)。

在這個(gè)過程中,了解所用模型的內(nèi)在機(jī)理會(huì)大大幫助我們理解語(yǔ)句形成預(yù)測(cè)上的原因,還能在早期發(fā)現(xiàn)模型的缺陷或潛在的一些偏見及固化思維。過去在自然語(yǔ)言處理可解釋性(Interpretability)方面的工作主要集中在分類(Classification)上,而在很大程度上忽視了生成(generation)方向的解析,主要原因還是缺乏專用工具。 最近看了幾篇論文,分享一下Inseq,這是一個(gè) Python 庫(kù),用于對(duì)序列生成模型(Sequence Generation Models)的進(jìn)行解釋并提供直觀的顯示。 Inseq 支持對(duì)流行的Transformers 架構(gòu)的模型內(nèi)部信息和特征重要性進(jìn)行直觀的打分和提取。

本文中,除了介紹Inseq基本用法,我還將舉一個(gè)利用Inseq的解釋能力來檢測(cè)AI的性別偏見的demo。

Inseq

Inseq作為一種比較新的開源Python 庫(kù),它提供了序列生成模型的可解釋性分析(interpretability analysis)。


下圖展示了 Inseq 在某個(gè)AI文本補(bǔ)全的過程中(任務(wù)為“To innovate one should”, AI生成“think outside the box”.),每個(gè)特征(這里可以理解為詞語(yǔ))為整個(gè)生成語(yǔ)句中的每個(gè)元素的重要性貢獻(xiàn)程度,以及該詞出現(xiàn)的概率,以熱圖形式展現(xiàn)給用戶。


Inseq庫(kù)安裝

安裝Inseq的pip命令如下:

!pip install inseq
# install extras for visualization in Jupyter Notebooks
!pip install inseq[notebook,datasets] 

Inseq需要在Jupyter Notebook環(huán)境下運(yùn)行其可視化組件,因此請(qǐng)務(wù)必安裝該環(huán)境,可以通過直接安裝Anaconda Navigator完成,在此下載:Anaconda | The World's Most Popular Data Science Platform

如果可以訪問谷歌,也可以使用免費(fèi)的Google Colab Notebook進(jìn)行開發(fā),省去了對(duì)本地環(huán)境的影響。

AI語(yǔ)句翻譯分析

用幾行 Python 生成快速分析圖非常簡(jiǎn)單。 導(dǎo)入Inseq模塊后,加載模型,并為后續(xù)的輸入選擇合適的歸因(Attribution method)。 在此示例中,我們使用英語(yǔ)到西班牙語(yǔ)的翻譯模型 Helsinki-NLP/opus-mt-en-es,并選擇 integrated_gradients 作為我們的Attribution method。

import inseq

model = inseq.load_model("Helsinki-NLP/opus-mt-en-es", "integrated_gradients")

接下來我們提供一段英語(yǔ)句子,讓其生成翻譯結(jié)果和解析出來的熱圖。

out = model.attribute(
  "It's not surprising that bias is always a more serious issue in NLP than wrong information provided.",
  n_steps=100
)
out.show()

輸出的熱圖如下所示:


X軸方向是輸入的英語(yǔ)句子,Y軸方向是生成的西班牙語(yǔ)句子,可以看到每個(gè)輸入的單詞對(duì)于生成的單詞都有對(duì)應(yīng)的分?jǐn)?shù),代表了其對(duì)生成的具體內(nèi)容的重要性。

AI文本補(bǔ)全的分析

我們展示的下一個(gè)示例是使用 GPT-2 模型和 gradient_shap 歸因法的文本補(bǔ)全。
這次我提供開頭詞“To introduce my”,讓 GPT-2 用 9 個(gè)Token(可以大致理解為單詞)完成句子:

import inseq

model = inseq.load_model("gpt2", "gradient_shap")
model.attribute(
    "To introduce my",
    generation_args={"max_new_tokens": 9},
    n_steps=150,
    internal_batch_size=50
).show()

輸出的熱圖如下所示:


從結(jié)果中,我們可以看到 Inseq 為我們提供了每個(gè)有助于AI生成語(yǔ)句“new book, The Art of The Deal,”的屬性標(biāo)記(我的輸入詞和生成的詞)的分?jǐn)?shù),通過這些分?jǐn)?shù),我們可以大致對(duì)該NLP 模型的邏輯有了了解。

AI模型的偏見分析

知道了Inseq如何使用后,我們就可以用它來做一下關(guān)于AI偏見的驗(yàn)證。這個(gè)是近期發(fā)布在HuggingFace平臺(tái)上的叫做Bias in MT的有趣應(yīng)用:

https://huggingface.co/spaces/oskarvanderwal/MT-bias-demo

這個(gè)應(yīng)用的目的是評(píng)估當(dāng)輸入標(biāo)記不包含對(duì)性別的明確定義的時(shí)候,AI如何生成與性別相關(guān)的句子。這其實(shí)是我們?nèi)粘I钪衅毡榇嬖诘囊环N性別偏見,請(qǐng)?jiān)谀X海中快速想象他們是男是女:

  • 護(hù)士

  • 科學(xué)家

  • 工程師

  • 大廚

  • 幼兒園老師

  • 公司CEO

要從腦子里去掉這些固有思維其實(shí)是很難的,同樣地,AI也有這個(gè)問題,因?yàn)樗麄冇?xùn)練的大量語(yǔ)料難免包含我們?nèi)祟悇?chuàng)造的那些偏見思維。

該Demo巧妙地選擇匈牙利語(yǔ)作為源標(biāo)記,而英語(yǔ)作為目標(biāo)翻譯標(biāo)記,因?yàn)樾傺览Z(yǔ)沒有像“he”和“she”這樣的性別詞,兩者都為“?”。 這樣的話,我們就可以嘗試輸入“?”+職業(yè),看看AI是如何將這些職業(yè)解讀為男性或女性的。

從Simple translation的demo頁(yè)面,你可以選擇Occupation in Hungarian和Target language,這里我選擇“vezérigazgató”意思是CEO,“en”代表Target Language為英語(yǔ),然后點(diǎn)擊Translate & Attribute按鈕:


我們觀察到:
該模型自然地將匈牙利語(yǔ)句子翻譯成“他是CEO”。顯著性熱圖顯示,當(dāng)“?”不那么重要,因?yàn)樗荒鼙硎拘詣e時(shí),屬性標(biāo)記“CEO”在翻譯中生成“He”詞的重要性非常高,也就是AI很自然地認(rèn)為CEO應(yīng)該是男的。

當(dāng)你在使用該模型進(jìn)行翻譯工作時(shí),很可能需要在正式發(fā)布文本之前,手動(dòng)介入修改以避免這種偏見產(chǎn)生。

下面是這個(gè)Demo的處理邏輯代碼:

import inseq
from inseq.data.aggregator import AggregatorPipeline, SubwordAggregator, SequenceAttributionAggregator, PairAggregator
model = inseq.load_model("Helsinki-NLP/opus-mt-hu-en", "integrated_gradients")
out = model.attribute(
"? vezérigazgató",
  n_steps=150
)
squeezesum = AggregatorPipeline([SubwordAggregator, SequenceAttributionAggregator])
out.show(return_html=True, display=True, aggregator=squeezesum)

然后,如果你對(duì)偏見或其他方面的評(píng)估有更多想法時(shí),可以將 Helsinki-NLP/opus-mt-hu-en 替換為你要評(píng)估的模型,將 integrated_gradients 替換為其他支持的歸因方法。

該應(yīng)用程序還提供了一個(gè)稱為Contrastive Pair(對(duì)比法)的功能塊。 這是為了評(píng)估如果手動(dòng)將目標(biāo)翻譯“?”從“He”更改為“She”,概率有多大(或多?。?。 該功能是基于Inseq 中稱為“對(duì)比特征歸因”的高級(jí)技術(shù)。


從“He's”到“She's”的結(jié)果為負(fù)數(shù),說明該模型為“CEO”場(chǎng)景選擇“男性”而不是“女性”是非常自然地。

與第一個(gè)Demo一樣,你也可以嘗試更改下面的 Python 代碼,通過替換模型、歸因方法、源詞和目標(biāo)詞對(duì),來評(píng)估自己感興趣的其他對(duì)比標(biāo)記。

import inseq
from inseq.data.aggregator import AggregatorPipeline, SubwordAggregator, SequenceAttributionAggregator, PairAggregator

model = inseq.load_model("Helsinki-NLP/opus-mt-hu-en", "integrated_gradients")
source = "? vezérigazgató"
target = model.generate(source)[0]

out = model.attribute(
[
    source,
    source,
],
[
    target.replace("She", "He"),
    target.replace("He", "She"),
],
n_steps=150,
return_convergence_delta=False,
attribute_target=False,
step_scores=["probability"],
internal_batch_size=100,
include_eos_baseline=False,
)
 
squeezesum = AggregatorPipeline([SubwordAggregator, SequenceAttributionAggregator])
masculine = out.sequence_attributions[0].aggregate(aggregator=squeezesum)
feminine = out.sequence_attributions[1].aggregate(aggregator=squeezesum)

html = masculine.show(aggregator=PairAggregator, paired_attr=feminine, return_html=True, display=True)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容