必讀!信息抽取(Information Extraction)【命名實體識別】

來源: AINLPer
微信公眾號(每日更新...
編輯: ShuYini
校稿: ShuYini
時間: 2020-08-12

本文涉及數(shù)據(jù)集資料,可以關(guān)注AINLPer 微信公眾號(每日更新...)直接回復(fù):NER001 獲取。

引言

?信息抽?。╥nformation extraction),簡稱IE,即從自然語言文本中,抽取出特定的事件或事實信息,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。這些信息通常包括實體(entity)、關(guān)系(relation)、事件(event)。信息抽取主要包括三個子任務(wù):關(guān)系抽取、命名實體識別、事件抽取。
?在上一篇文章一文了解信息抽取(Information Extraction)【關(guān)系抽取】中主要講解了關(guān)系抽取的相關(guān)內(nèi)容(基本概念、關(guān)系抽取算法分類、常用數(shù)據(jù)集、深度學(xué)習(xí)模型在該領(lǐng)域的應(yīng)用),感興趣的小伙伴可以讀一下。那么本文主要為大家介紹命名實體識別的相關(guān)內(nèi)容。

本文主要內(nèi)容

?命名實體識別是自然語言處理應(yīng)用中的重要步驟,它不僅檢測出實體邊界,還檢測出命名實體的類型,是文本意義理解的基礎(chǔ),本文關(guān)于命名實體識別的主要內(nèi)容包括命名實體識別研究的難點、命名實體識別的研究進(jìn)展、命名實體識別研究熱點、命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)四部分內(nèi)容。

命名實體識別研究的難點

1、領(lǐng)域命名實體識別局限性
?目前命令實體識別只是在有限的領(lǐng)域和有限的實體類型中取得了較好的成績,如針對新聞?wù)Z料中的人名、地名、組織機(jī)構(gòu)名的識別。但這些技術(shù)無法很好地遷移到其他特定領(lǐng)域中,如軍事、醫(yī)療、生物、小語種語言等。一方面,由于不同領(lǐng)域的數(shù)據(jù)往往具有領(lǐng)域獨特特征,如醫(yī)療領(lǐng)域中實體包括疾病、癥狀、藥品等,而新聞領(lǐng)域的模型并不適合; 另一方面,由于領(lǐng)域資源匱乏造成標(biāo)注數(shù)據(jù)集缺失,導(dǎo)致模型訓(xùn)練很難直接開展。因此,采用半監(jiān)督學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)方法實現(xiàn)資源的自動構(gòu)建和補(bǔ)足,以及遷移學(xué)習(xí)等技術(shù)的應(yīng)用都可作為解決該問題的核心研究方向。

2、命名實體表述多樣性和歧義性
?自然語言的多樣性和歧義性給自然語言理解帶來了很大挑戰(zhàn),在不同的文化、領(lǐng)域、背景下,命名實體的外延有差異,是命名實體識別技術(shù)需要解決的根本問題。獲取大量文本數(shù)據(jù)后,由于知識表示粒度不同、置信度相異、缺乏規(guī)范性約束等問題,出現(xiàn)命名實體表述多樣、指代不明確等現(xiàn)象。因此,需要充分理解上下文語義來深度挖掘?qū)嶓w語義進(jìn)行識別??梢酝ㄟ^實體鏈接、融合對齊等方法,挖掘更多有效信息和證據(jù),實現(xiàn)實體不同表示的對齊、消除歧義,從而克服命名實體表述多樣性和歧義性。

3、命名實體的復(fù)雜性和開放性
?傳統(tǒng)的實體類型只關(guān)注一小部分類型,例如“人名”“地名”“組織機(jī)構(gòu)名”,而命名實體的復(fù)雜性體現(xiàn)在實際數(shù)據(jù)中實體的類型復(fù)雜多樣,需要識別細(xì)粒度的實體類型,將命名實體分配到更具體的實體類型中。目前業(yè)界還沒有形成可遵循的嚴(yán)格的命名規(guī)范。命名實體的開放性是指命名實體內(nèi)容和類型并非永久不變,會隨著時間變化發(fā)生各種演變,甚至最終失效。命名實體的開放性和復(fù)雜性給實體分析帶來了巨大的挑戰(zhàn),也是亟待解決的核心關(guān)鍵問題。

命名實體識別的研究進(jìn)展

 命名實體識別從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機(jī)器學(xué)習(xí)的方法,后來采用基于深度學(xué)習(xí)的方法,一直到當(dāng)下熱門的注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等研究方法,命名實體識別技術(shù)路線隨著時間在不斷發(fā)展。

1、基于規(guī)則和詞典的方法
? 基于規(guī)則和字典的方法是最初代的命名實體識別使用的方法,這些方法多采用由語言學(xué)家通過人工方式,依據(jù)數(shù)據(jù)集特征構(gòu)建的特定規(guī)則模板或者特殊詞典。規(guī)則包括關(guān)鍵詞、位置詞、方位詞、中心詞、指示詞、統(tǒng)計信息、標(biāo)點符號等。詞典是由特征詞構(gòu)成的詞典和外部詞典共同組成,外部詞典指已有的常識詞典。制定好規(guī)則和詞典后,通常使用匹配的方式對文本進(jìn)行處理以實現(xiàn)命名實體識別。

2、傳統(tǒng)機(jī)器學(xué)習(xí)的方法
? 在基于機(jī)器學(xué)習(xí)的方法中,命名實體識別被當(dāng)作是序列標(biāo)注問題。與分類問題相比,序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標(biāo)簽相關(guān),即預(yù)測標(biāo)簽序列之間是有強(qiáng)相互依賴關(guān)系的。采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法主要包括: 隱馬爾可夫模型 ( Hidden Markov Model,HMM) 、最大熵( Maximum Entropy,ME)、最大熵馬爾可夫模型 ( Maximum Entropy Markov Model,MEMM)、支持向量機(jī)( Support Vector Machine,SVM) 、條件隨機(jī)場 ( Conditional Random Fields,CRF)等。

3、基于深度學(xué)習(xí)的方法
? 隨著深度學(xué)習(xí)的不斷發(fā)展,命名實體識別的研究重點已轉(zhuǎn)向深層神經(jīng)網(wǎng)絡(luò)(DNN) ,該技術(shù)幾乎不需要特征工程和領(lǐng)域知識。Chiu 和 Nichols提出了一種雙向 LSTM-CNNs 架構(gòu),該架構(gòu)可自動檢測單詞和字符級別的特征。Ma 和 Hovy進(jìn)一步將其擴(kuò)展到BiLSTM-CNNs-CRF體系結(jié)構(gòu),其中添加了CRF模塊以優(yōu)化輸出標(biāo)簽序列。Liu 等提出了一種稱為LM-LSTM-CRF的任務(wù)感知型神經(jīng)語言模型,將字符感知型神經(jīng)語言模型合并到一個多任務(wù)框架下,以提取字符級向量化表示。
?部分學(xué)者將輔助信息和深度學(xué)習(xí)方法混合使用進(jìn)行命名實體識別,在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)加入注意力機(jī)制圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等熱門研究技術(shù)也是目前的主流研究方向。

命名實體識別研究熱點

1、匱乏資源下的命名實體識別
?命名實體識別通常需要大規(guī)模的標(biāo)注數(shù)據(jù)集,例如標(biāo)記句子中的每個單詞,這樣才能很好地訓(xùn)練模型。然而這種方法很難應(yīng)用到標(biāo)注數(shù)據(jù)少的領(lǐng)域,如生物、醫(yī)學(xué)等領(lǐng)域。這是因為資源不足的情況下,模型無法充分學(xué)習(xí)隱藏的特征表示,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法的性能會大大降低。近來,越來越多的方法被提出用于解決低資源命名實體識別。
?因此,針對資源匱乏領(lǐng)域標(biāo)注數(shù)據(jù)的缺乏問題,基于遷移學(xué)習(xí)、對抗學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等方法被充分利用,解決資源匱乏領(lǐng)域的命名實體識別難題,降低人工標(biāo)注工作量,也是最近研究的重點。

2、細(xì)粒度命名實體識別
?為了智能地理解文本并提取大量信息,更精確地確定非結(jié)構(gòu)化文本中提到的實體類型很有意義。通常這些實體類型在知識庫的類型層次結(jié)構(gòu)中可以形成類型路徑,例如,牛頓可以按照如下類型的路徑歸類: 物 理 學(xué)家 /科 學(xué) 家 /人。知識庫中的類型通常為層次結(jié)構(gòu)的組織形式,即類型層次。
?實現(xiàn)知識庫中命名實體的細(xì)粒度劃分也是完善知識庫的重要任務(wù)之一。細(xì)粒度命名實體識別現(xiàn)有方法大多是通過利用實體的固有特征( 文本描述、屬性和類型) 或在文本中實體指代項來進(jìn)行類型推斷,最近有學(xué)者研究將知識庫中的實體轉(zhuǎn)換為實體圖,并應(yīng)用到基于圖神經(jīng)網(wǎng)絡(luò)的算法模型中。

3、嵌套命名實體識別
? 通常要處理的命名實體是非嵌套實體,但是在實際應(yīng)用中,嵌套實體非常多。大多數(shù)命名實體識別會忽略嵌套實體,無法在深層次文本理解中捕獲更細(xì)粒度的語義信息。

例如:”中國駐愛爾蘭使館提醒旅愛中國公民重視防控,穩(wěn)妥合理加強(qiáng)防范。”,句子中提到的中國駐愛爾蘭使館是一個嵌套實體,中國和愛爾蘭均為地名,而中國駐愛爾蘭使館為組織機(jī)構(gòu)名。普通的命名實體識別任務(wù)只會識別出其中的地名“中國”和“愛爾蘭”,而忽略了整體的組織機(jī)構(gòu)名。

4、命名實體鏈接
? 命名實體鏈接主要目標(biāo)是進(jìn)行實體消歧,從實體指代項對應(yīng)的多個候選實體中選擇意思最相近的一個實體。

例如:“今天晚上我要上B站”,這里B站是一個實體指代項,該實體指代項在知識庫中可能存在多種表示和含義,而此處要匹配的正確實體是:bilibil網(wǎng)站。

?實體鏈接的關(guān)鍵在于獲取語句中更多的語義,通常使用兩種方法。一種是通過外部語料庫獲取更多的輔助信息,另一種是對本地信息的深入了解以獲取更多與實體指代項相關(guān)的信息

命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)

1、常用的數(shù)據(jù)集

  • CoNLL 2003 數(shù)據(jù)集,包括 1 393 篇英語新聞文章和 909 篇德語新聞文章,數(shù)據(jù)集中標(biāo)注了 4 種實體類型: PER,LOC,ORG,MISC。

  • CoNLL 2002 數(shù)據(jù)集是從西班牙 EFE 新聞機(jī)構(gòu)收集的西班牙共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集標(biāo)注了 4 種實體類型: PER,LOC,ORG,MISC。

  • ACE 2004 多語種訓(xùn)練語料庫版權(quán)屬于語言 數(shù) 據(jù) 聯(lián) 盟 ( Linguistic Data Consortium,LDC ) ,ACE 2004多語言培訓(xùn)語料庫包含用于 2004 年自動內(nèi)容提取( ACE) 技術(shù)評估的全套英語、阿拉伯語和中文培訓(xùn)數(shù)據(jù)。語言集由為實體和關(guān)系標(biāo)注的各種類型的數(shù)據(jù)組成。

  • ACE 2005 多語種訓(xùn)練語料庫版權(quán)屬于LDC,包含完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù),數(shù)據(jù)來源包括: 微博、廣播新聞、新聞組、廣播對話等,可以用來做實體、關(guān)系、事件抽取等任務(wù)。

  • OntoNotes 5.0 數(shù)據(jù)集版權(quán)屬于 LDC,由1 745 K英語、900 K 中文和 300 K 阿拉伯語文本數(shù)據(jù)組成,OntoNotes 5.0 的數(shù)據(jù)來源也多種多樣,來自電話對話、新聞通訊社、廣播新聞、廣播對話和博客等。實體被標(biāo)注為 PERSON,ORGANIZATION,LO-CATION 等 18 個類型。

  • MUC 7 數(shù)據(jù)集是發(fā)布的可以用于命名實體識別任務(wù),版權(quán)屬于 LDC,下載需要支付一定費用。數(shù)據(jù)取自北美新聞文本語料庫的新聞標(biāo)題,其中包含 190 K 訓(xùn)練集、64 K 測試集。

  • Twitter 數(shù)據(jù)集是由 Zhang 等提供,數(shù)據(jù)收集于 Twitter,訓(xùn)練集包含了 4 000 推特文章,3 257 條推特用戶測試。該數(shù)據(jù)集不僅包含文本信息還包含了圖片信息。因為該數(shù)據(jù)集找不到官方鏈接,所以只能網(wǎng)盤分享給大家,具體該數(shù)據(jù)集獲取方式:關(guān)注AINLPer 回復(fù):IE001

2、常見標(biāo)注方法

  • IOB 標(biāo)注法,是 CoNLL 2003 采用的標(biāo)注法,I 表示內(nèi)部,O 表示外部,B 表示開始。如若語料中某個詞標(biāo)注 B /I-XXX,B /I 表示這個詞屬于命名實體的開始或內(nèi)部,即該詞是命名實體的一部分,XXX表示命名實體的類型。當(dāng)詞標(biāo)注 O 則表示屬于命名實體的外部,即它不是一個命名實體。

  • BIOES 標(biāo)注法,是在 IOB 方法上的擴(kuò)展,具有更完備的標(biāo)注規(guī)則。其中 B 表示這個詞處于一個命名實體的開始,I 表示內(nèi)部,O 表示外部,E 表示這個詞處于一個實體的結(jié)束,S 表示這個詞是單獨形成一個命名實體。BIOES 是目前最通用的命名實體標(biāo)注方法。

  • Markup 標(biāo)注法,是 OntoNotes 數(shù)據(jù)集使用的標(biāo)注方法,方式較簡單。例如: ENAMEX TYPE = ”O(jiān)RG ” > LondonENAMEX > is an international metropolis,它直接用標(biāo)簽把命名實體標(biāo)注出來,然后通過 TYPE 字段設(shè)置相應(yīng)的類型。

3、評價指標(biāo)
?命名實體識別任務(wù)常采用的評價指標(biāo)有精確率 ( Precision) 、召回率 ( Recall) 、F1 值 ( F1 -Measure) 等??梢詤⒖嘉恼拢?「深度學(xué)習(xí)」最基本的四大評價指標(biāo)!!

Attention

更多自然語言處理相關(guān)知識,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容