來源: AINLPer
微信公眾號(每日更新...)
編輯: ShuYini
校稿: ShuYini
時間: 2020-08-11
引言
????信息抽取(information extraction),簡稱IE,即從自然語言文本中,抽取出特定的事件或事實信息,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。這些信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。例如從新聞中抽取時間、地點、關(guān)鍵人物,或者從技術(shù)文檔中抽取產(chǎn)品名稱、開發(fā)時間、性能指標(biāo)等。能從自然語言中抽取用戶感興趣的事實信息,無論是在知識圖譜、信息檢索、問答系統(tǒng)還是在情感分析、文本挖掘中,信息抽取都有廣泛應(yīng)用。
????信息抽取主要包括三個子任務(wù):
????關(guān)系抽取:通常我們說的三元組(triple)抽取,主要用于抽取實體間的關(guān)系。
????實體抽取與鏈指:也就是命名實體識別。
????事件抽取:相當(dāng)于一種多元關(guān)系的抽取。
????關(guān)系抽?。≧E)是為了抽取文本中包含的關(guān)系,是信息抽?。↖E)的重要組成部分。主要負(fù)責(zé)從無結(jié)構(gòu)文本中識別出實體,并抽取實體之間的語義關(guān)系,被廣泛用在信息檢索、問答系統(tǒng)中。本文從關(guān)系抽取的基本概念出發(fā),依據(jù)不同的視角對關(guān)系抽取方法進(jìn)行了類別劃分;最后分享了基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集,并總結(jié)出基于深度學(xué)習(xí)的關(guān)系抽取框架。
關(guān)系抽取基本概念
????完整的關(guān)系抽取包括實體抽取和關(guān)系分類兩個子過程。實體抽取子過程也就是命名實體識別,對句子中的實體進(jìn)行檢測和分類;關(guān)系分類子過程對給定句子中兩個實體之間的語義關(guān)系進(jìn)行判斷,屬于多類別分類問題。
????例如,對于句子“青島坐落于山東省的東部”,實體抽取子過程檢測出這句話具有“青島”和“山東”兩個實體。關(guān)系分類子過程檢測出這句話中“青島”和“山東”兩個實體具有“坐落于”關(guān)系而不是“出生于”關(guān)系。在關(guān)系抽取過程中,多數(shù)方法默認(rèn)實體信息是給定的,那么關(guān)系抽取就可以看作是分類問題。
關(guān)系抽取方法分類(基于深度學(xué)習(xí)方法)
????目前,常用的關(guān)系抽取方法有5類,分別是基于模式匹配、基于詞典驅(qū)動、基于機(jī)器學(xué)習(xí)、基于本體和混合的方法?;谀J狡ヅ浜驮~典驅(qū)動的方法依靠人工制定規(guī)則,耗時耗力,而且可移植性較差,基于本體的方法構(gòu)造比較復(fù)雜,理論尚不成熟。基于機(jī)器學(xué)習(xí)的方法以自然語言處理技術(shù)為基礎(chǔ),結(jié)合統(tǒng)計語言模型進(jìn)行關(guān)系抽取,方法相對簡單,并具有不錯的性能,成為當(dāng)下關(guān)系抽取的主流方法,下文提到的關(guān)系抽取方法均為機(jī)器學(xué)習(xí)的方法。
????關(guān)于信息關(guān)系抽取,可以從訓(xùn)練數(shù)據(jù)的標(biāo)記程度、使用的機(jī)器學(xué)習(xí)方法、是否同時進(jìn)行實體抽取和關(guān)系分類子過程以及是否限定關(guān)系抽取領(lǐng)域和關(guān)系專制四個角度對機(jī)器學(xué)習(xí)的關(guān)系抽取方法進(jìn)行分類。
根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類
????根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度可以將關(guān)系抽取方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類。
????有監(jiān)督學(xué)習(xí),處理的基本單位是包含特定實體對的句子,每一個句子都有類別標(biāo)注。優(yōu)點:取能夠有效利用樣本的標(biāo)記信息,準(zhǔn)確率和召回率都比較高。缺點:需要大量的人工標(biāo)記訓(xùn)練語料,代價較高。
????半監(jiān)督學(xué)習(xí),句子作為訓(xùn)練數(shù)據(jù)的基本單位,只有部分是有類別標(biāo)注的。此類方法讓學(xué)習(xí)器不依賴外界交互,自動地利用未標(biāo)記樣本來提升學(xué)習(xí)性能。
????無監(jiān)督學(xué)習(xí),完全不需要對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,此類方法包含實體對標(biāo)記、關(guān)系聚類和關(guān)系詞選擇三個過程。
根據(jù)使用的機(jī)器學(xué)習(xí)方法分類
????根據(jù)使用機(jī)器學(xué)習(xí)方法不同,可以將關(guān)系抽取劃分為三類:基于特征向量的方法、基于核函數(shù)的方法以及基于神經(jīng)網(wǎng)絡(luò)的方法。
????基于特征向量的方法,通過從包含特定實體對的句子中提取出語義特征,構(gòu)造特征向量,然后通過使用支持向量機(jī)、最大熵、條件隨機(jī)場等模型進(jìn)行關(guān)系抽取。
????基于核函數(shù)的方法,其重點是巧妙地設(shè)計核函數(shù)來計算不同關(guān)系實例特定表示之間的相似度。缺點:而如何設(shè)計核函數(shù)需要大量的人類工作,不適用于大規(guī)模語料上的關(guān)系抽取任務(wù)。
????基于神經(jīng)網(wǎng)絡(luò)的方法,通過構(gòu)造不同的神經(jīng)網(wǎng)絡(luò)模型來自動學(xué)習(xí)句子的特征,減少了復(fù)雜的特征工程以及領(lǐng)域?qū)<抑R,具有很強(qiáng)的泛化能力。
根據(jù)是否同時進(jìn)行實體抽取和關(guān)系分類子過程進(jìn)行分類
????根據(jù)是否在同一個模型里開展實體抽取和關(guān)系分類,可以將關(guān)系抽取方法分為流水線(pipeline)學(xué)習(xí)和聯(lián)合(joint)學(xué)習(xí)兩種。
????流水線學(xué)習(xí)是指先對輸入的句子進(jìn)行實體抽取,將識別出的實體分別組合,然后再進(jìn)行關(guān)系分類,這兩個子過程是前后串聯(lián)的,完全分離。
????聯(lián)合學(xué)習(xí)是指在一個模型中實現(xiàn)實體抽取和關(guān)系分類子過程。該方法通過使兩個子過程共享網(wǎng)絡(luò)底層參數(shù)以及設(shè)計特定的標(biāo)記策略來解決上述問題,其中使用特定的標(biāo)記策略可以看作是一種序列標(biāo)注問題。
根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類
????根據(jù)是否限定抽取領(lǐng)域和關(guān)系類別,關(guān)系抽取方法可以劃分為預(yù)定義抽取和開放域抽取兩類。
????預(yù)定義關(guān)系抽取是指在一個或者多個固定領(lǐng)域內(nèi)對實體間關(guān)系進(jìn)行抽取,語料結(jié)構(gòu)單一,這些領(lǐng)域內(nèi)的目標(biāo)關(guān)系類型也是預(yù)先定義的。
????開放域關(guān)系抽取不限定領(lǐng)域的范圍和關(guān)系的類別?,F(xiàn)階段,基于深度學(xué)習(xí)的關(guān)系抽取研究集中于預(yù)定義關(guān)系抽取。
關(guān)系信息抽取常用數(shù)據(jù)集
????基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集有ACE關(guān)系抽取任務(wù)數(shù)據(jù)集、SemEval2010 Task 8數(shù)據(jù)集、NYT2010數(shù)據(jù)集等.
????ACE關(guān)系抽取任務(wù)數(shù)據(jù)集:ACE2005關(guān)系抽取數(shù)據(jù)集包含599篇與新聞和郵件相關(guān)的文檔,其數(shù)據(jù)集內(nèi)包含7大類25小類關(guān)系。
????SemEval2010 Task 8數(shù)據(jù)集:該數(shù)據(jù)集包含9種關(guān)系類型,分別是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。 考慮到實體之間關(guān)系的方向以及不屬于前面9種關(guān)系的“Other”關(guān)系,共生成19類實體關(guān)系。其中訓(xùn)練數(shù)據(jù) 8000個,測試數(shù)據(jù)2717個。
????NYT2010數(shù)據(jù)集是Riedel等人在2010年將Freebase知識庫中的知識“三元組”對齊到“紐約時報”新聞中得到的訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集中,數(shù)據(jù)的單位是句包,一個句包由包含該實體對的若干句子構(gòu)成。其中,訓(xùn)練數(shù)據(jù)集從《紐約時報》2005—2006年語料庫中獲取,測試集從2007年語料庫中獲取。
面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建
????基于深度學(xué)習(xí)的關(guān)系抽取方法模型構(gòu)建的重點在于利用不同神經(jīng)網(wǎng)絡(luò)的特點來抽取樣本的特征,以學(xué)習(xí)樣本的向量表示。在學(xué)習(xí)過程中,根據(jù)所用的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的不同,可將基于深度學(xué)習(xí)的關(guān)系抽取方法分為基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,Rec-NN)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent net neural net-work,RNN)的方法和基于混合網(wǎng)絡(luò)模型的方法四類。
基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法首先利用自然語言處理工具對句子進(jìn)行處理,構(gòu)建特定的二叉樹,然后解析樹上所有的相鄰子節(jié)點,以特定的語義順序?qū)⑵浣M合成一個父節(jié)點,如下圖3所示。這個過程遞歸進(jìn)行,最終計算出整個句子的向量表示。向量計算過程可以看作是將句子進(jìn)行一個特征抽取過程,該方法對所有的鄰接點采用相同的操作。

基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法接受一個特定的向量矩陣作為輸入,通過卷積層和池化層的操作將輸入轉(zhuǎn)換成一個固定長度的向量,并使用其他特征進(jìn)行語義信息匯總,再進(jìn)行抽取?;诰矸e神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法框架如圖下5所示,除了輸入層、數(shù)據(jù)表示層之外,還有窗口層、卷積層、池化層、語義信息匯總層、分類層。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????由于句子含義跟單詞出現(xiàn)的順序是相關(guān)的,因此關(guān)系抽取可以看作是一個時序?qū)W習(xí)任務(wù),可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模。
????基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法在模型設(shè)計上使用不同的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取句子信息,然后對每個時刻的隱狀態(tài)輸出進(jìn)行組合,在句子層級學(xué)習(xí)有效特征。在關(guān)系抽取問題中,對每一個輸入,關(guān)系的標(biāo)記一般只在序列的最后得到。Zhang等首次使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系抽取,提出了BRNN模型。如下圖7 所示,在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中某一時刻的輸出不僅依賴序列中之前的輸入,也依賴于后續(xù)的輸入。

基于混合網(wǎng)絡(luò)模型的關(guān)系抽取
????為了更好地抽取句子中的特征,研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)3種網(wǎng)絡(luò)及其他機(jī)器學(xué)習(xí)方法進(jìn)行組合建模來進(jìn)行關(guān)系抽取。
????Vu等提 出 了 基 于 文 本 擴(kuò) 展 表 示 的ECNN和基于鏈接的UniBRNN模型,將每個神經(jīng)網(wǎng)絡(luò)得到的多個結(jié)果根據(jù)投票機(jī)制得到關(guān)系的最終抽取結(jié)果。
????Xiao等將注意力機(jī)制引入一個多級的循環(huán)神經(jīng)網(wǎng)絡(luò),該方法使用文本序列作為輸入,根據(jù)標(biāo)記實體的位置將句子分為5部分,使用同一個雙 向LSTM網(wǎng)絡(luò)在3個子序列上獨立學(xué)習(xí),然后引入詞層級的注意力機(jī)制關(guān)注重要的單詞表示,分別得到子序列的向量表示;隨后,使用雙向RNN網(wǎng)絡(luò)進(jìn)一步抽取子序列和實體的特征,并再次使用注意力機(jī)制將其轉(zhuǎn)換成句子的最終向量表示,并送入到分類器中。
????Nguyen等將傳統(tǒng)基于特征的方法(log-linear模型)、卷積神經(jīng)網(wǎng)絡(luò)方法和循環(huán)神經(jīng)網(wǎng)絡(luò)方法使用集成、投票等機(jī)制進(jìn)行組合。
????zhang等提出在雙向LSTM 的基礎(chǔ)上疊加注意力機(jī)制,以及使用卷積神經(jīng)網(wǎng)絡(luò)層獲取句子的表示,再送入到一個全連接層和softmax層進(jìn)行分類。
????在聯(lián)合學(xué)習(xí)問題上,Zheng等使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組合來進(jìn)行聯(lián)合學(xué)習(xí),也是一種共享底層網(wǎng)絡(luò)參數(shù)的方法。
參考文獻(xiàn)
[1]莊傳志,靳小龍,基于深度學(xué)習(xí)的關(guān)系抽取研究綜述[J].中文信息學(xué)報,2019,33(12):1-18.
Attention
更多自然語言處理相關(guān)知識,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)。