透女人板机机二区三区,中文字幕在线中,性爱精品在线一区

來源: AINLPer
微信公眾號（每日更新...）
編輯: ShuYini
校稿: ShuYini
時間: 2020-08-12

本文涉及數(shù)據(jù)集資料，可以關(guān)注AINLPer 微信公眾號（每日更新...）直接回復(fù)：NER001 獲取。

引言

?信息抽?。╥nformation extraction），簡稱IE，即從自然語言文本中，抽取出特定的事件或事實信息，幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。這些信息通常包括實體（entity）、關(guān)系（relation）、事件（event）。信息抽取主要包括三個子任務(wù)：關(guān)系抽取、命名實體識別、事件抽取。
?在上一篇文章一文了解信息抽取(Information Extraction)【關(guān)系抽取】中主要講解了關(guān)系抽取的相關(guān)內(nèi)容（基本概念、關(guān)系抽取算法分類、常用數(shù)據(jù)集、深度學(xué)習(xí)模型在該領(lǐng)域的應(yīng)用），感興趣的小伙伴可以讀一下。那么本文主要為大家介紹命名實體識別的相關(guān)內(nèi)容。

本文主要內(nèi)容

?命名實體識別是自然語言處理應(yīng)用中的重要步驟，它不僅檢測出實體邊界，還檢測出命名實體的類型，是文本意義理解的基礎(chǔ)，本文關(guān)于命名實體識別的主要內(nèi)容包括命名實體識別研究的難點、命名實體識別的研究進(jìn)展、命名實體識別研究熱點、命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)四部分內(nèi)容。

命名實體識別研究的難點

1、領(lǐng)域命名實體識別局限性
?目前命令實體識別只是在有限的領(lǐng)域和有限的實體類型中取得了較好的成績，如針對新聞?wù)Z料中的人名、地名、組織機(jī)構(gòu)名的識別。但這些技術(shù)無法很好地遷移到其他特定領(lǐng)域中，如軍事、醫(yī)療、生物、小語種語言等。一方面，由于不同領(lǐng)域的數(shù)據(jù)往往具有領(lǐng)域獨特特征，如醫(yī)療領(lǐng)域中實體包括疾病、癥狀、藥品等，而新聞領(lǐng)域的模型并不適合; 另一方面，由于領(lǐng)域資源匱乏造成標(biāo)注數(shù)據(jù)集缺失，導(dǎo)致模型訓(xùn)練很難直接開展。因此，采用半監(jiān)督學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)方法實現(xiàn)資源的自動構(gòu)建和補(bǔ)足，以及遷移學(xué)習(xí)等技術(shù)的應(yīng)用都可作為解決該問題的核心研究方向。

2、命名實體表述多樣性和歧義性
?自然語言的多樣性和歧義性給自然語言理解帶來了很大挑戰(zhàn)，在不同的文化、領(lǐng)域、背景下，命名實體的外延有差異，是命名實體識別技術(shù)需要解決的根本問題。獲取大量文本數(shù)據(jù)后，由于知識表示粒度不同、置信度相異、缺乏規(guī)范性約束等問題，出現(xiàn)命名實體表述多樣、指代不明確等現(xiàn)象。因此，需要充分理解上下文語義來深度挖掘?qū)嶓w語義進(jìn)行識別?？梢酝ㄟ^實體鏈接、融合對齊等方法，挖掘更多有效信息和證據(jù)，實現(xiàn)實體不同表示的對齊、消除歧義，從而克服命名實體表述多樣性和歧義性。

3、命名實體的復(fù)雜性和開放性
?傳統(tǒng)的實體類型只關(guān)注一小部分類型，例如“人名”“地名”“組織機(jī)構(gòu)名”，而命名實體的復(fù)雜性體現(xiàn)在實際數(shù)據(jù)中實體的類型復(fù)雜多樣，需要識別細(xì)粒度的實體類型，將命名實體分配到更具體的實體類型中。目前業(yè)界還沒有形成可遵循的嚴(yán)格的命名規(guī)范。命名實體的開放性是指命名實體內(nèi)容和類型并非永久不變，會隨著時間變化發(fā)生各種演變，甚至最終失效。命名實體的開放性和復(fù)雜性給實體分析帶來了巨大的挑戰(zhàn)，也是亟待解決的核心關(guān)鍵問題。

命名實體識別的研究進(jìn)展

&emsp；命名實體識別從早期基于詞典和規(guī)則的方法，到傳統(tǒng)機(jī)器學(xué)習(xí)的方法，后來采用基于深度學(xué)習(xí)的方法，一直到當(dāng)下熱門的注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)等研究方法，命名實體識別技術(shù)路線隨著時間在不斷發(fā)展。

1、基于規(guī)則和詞典的方法
? 基于規(guī)則和字典的方法是最初代的命名實體識別使用的方法，這些方法多采用由語言學(xué)家通過人工方式，依據(jù)數(shù)據(jù)集特征構(gòu)建的特定規(guī)則模板或者特殊詞典。規(guī)則包括關(guān)鍵詞、位置詞、方位詞、中心詞、指示詞、統(tǒng)計信息、標(biāo)點符號等。詞典是由特征詞構(gòu)成的詞典和外部詞典共同組成，外部詞典指已有的常識詞典。制定好規(guī)則和詞典后，通常使用匹配的方式對文本進(jìn)行處理以實現(xiàn)命名實體識別。

2、傳統(tǒng)機(jī)器學(xué)習(xí)的方法
? 在基于機(jī)器學(xué)習(xí)的方法中，命名實體識別被當(dāng)作是序列標(biāo)注問題。與分類問題相比，序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān)，還與之前的預(yù)測標(biāo)簽相關(guān)，即預(yù)測標(biāo)簽序列之間是有強(qiáng)相互依賴關(guān)系的。采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法主要包括: 隱馬爾可夫模型 ( Hidden Markov Model，HMM) 、最大熵( Maximum Entropy，ME)、最大熵馬爾可夫模型 ( Maximum Entropy Markov Model，MEMM)、支持向量機(jī)( Support Vector Machine，SVM) 、條件隨機(jī)場 ( Conditional Ｒandom Fields，CＲF)等。

3、基于深度學(xué)習(xí)的方法
? 隨著深度學(xué)習(xí)的不斷發(fā)展，命名實體識別的研究重點已轉(zhuǎn)向深層神經(jīng)網(wǎng)絡(luò)(DNN) ，該技術(shù)幾乎不需要特征工程和領(lǐng)域知識。Chiu 和 Nichols提出了一種雙向 LSTM－CNNs 架構(gòu)，該架構(gòu)可自動檢測單詞和字符級別的特征。Ma 和 Hovy進(jìn)一步將其擴(kuò)展到BiLSTM－CNNs－CＲF體系結(jié)構(gòu)，其中添加了CＲF模塊以優(yōu)化輸出標(biāo)簽序列。Liu 等提出了一種稱為LM－LSTM－CＲF的任務(wù)感知型神經(jīng)語言模型，將字符感知型神經(jīng)語言模型合并到一個多任務(wù)框架下，以提取字符級向量化表示。
?部分學(xué)者將輔助信息和深度學(xué)習(xí)方法混合使用進(jìn)行命名實體識別,在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)加入注意力機(jī)制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等熱門研究技術(shù)也是目前的主流研究方向。

命名實體識別研究熱點

1、匱乏資源下的命名實體識別
?命名實體識別通常需要大規(guī)模的標(biāo)注數(shù)據(jù)集，例如標(biāo)記句子中的每個單詞，這樣才能很好地訓(xùn)練模型。然而這種方法很難應(yīng)用到標(biāo)注數(shù)據(jù)少的領(lǐng)域，如生物、醫(yī)學(xué)等領(lǐng)域。這是因為資源不足的情況下，模型無法充分學(xué)習(xí)隱藏的特征表示，傳統(tǒng)的監(jiān)督學(xué)習(xí)方法的性能會大大降低。近來，越來越多的方法被提出用于解決低資源命名實體識別。
?因此，針對資源匱乏領(lǐng)域標(biāo)注數(shù)據(jù)的缺乏問題，基于遷移學(xué)習(xí)、對抗學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等方法被充分利用，解決資源匱乏領(lǐng)域的命名實體識別難題，降低人工標(biāo)注工作量，也是最近研究的重點。

2、細(xì)粒度命名實體識別
?為了智能地理解文本并提取大量信息，更精確地確定非結(jié)構(gòu)化文本中提到的實體類型很有意義。通常這些實體類型在知識庫的類型層次結(jié)構(gòu)中可以形成類型路徑，例如，牛頓可以按照如下類型的路徑歸類: 物理學(xué)家 /科學(xué) 家 /人。知識庫中的類型通常為層次結(jié)構(gòu)的組織形式，即類型層次。
?實現(xiàn)知識庫中命名實體的細(xì)粒度劃分也是完善知識庫的重要任務(wù)之一。細(xì)粒度命名實體識別現(xiàn)有方法大多是通過利用實體的固有特征( 文本描述、屬性和類型) 或在文本中實體指代項來進(jìn)行類型推斷，最近有學(xué)者研究將知識庫中的實體轉(zhuǎn)換為實體圖，并應(yīng)用到基于圖神經(jīng)網(wǎng)絡(luò)的算法模型中。

3、嵌套命名實體識別
? 通常要處理的命名實體是非嵌套實體，但是在實際應(yīng)用中，嵌套實體非常多。大多數(shù)命名實體識別會忽略嵌套實體，無法在深層次文本理解中捕獲更細(xì)粒度的語義信息。

例如：”中國駐愛爾蘭使館提醒旅愛中國公民重視防控，穩(wěn)妥合理加強(qiáng)防范。”，句子中提到的中國駐愛爾蘭使館是一個嵌套實體，中國和愛爾蘭均為地名，而中國駐愛爾蘭使館為組織機(jī)構(gòu)名。普通的命名實體識別任務(wù)只會識別出其中的地名“中國”和“愛爾蘭”，而忽略了整體的組織機(jī)構(gòu)名。

4、命名實體鏈接
? 命名實體鏈接主要目標(biāo)是進(jìn)行實體消歧，從實體指代項對應(yīng)的多個候選實體中選擇意思最相近的一個實體。

例如：“今天晚上我要上B站”，這里B站是一個實體指代項，該實體指代項在知識庫中可能存在多種表示和含義，而此處要匹配的正確實體是：bilibil網(wǎng)站。

?實體鏈接的關(guān)鍵在于獲取語句中更多的語義，通常使用兩種方法。一種是通過外部語料庫獲取更多的輔助信息，另一種是對本地信息的深入了解以獲取更多與實體指代項相關(guān)的信息。

命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)

1、常用的數(shù)據(jù)集

CoNLL 2003 數(shù)據(jù)集，包括 1 393 篇英語新聞文章和 909 篇德語新聞文章，數(shù)據(jù)集中標(biāo)注了 4 種實體類型: PEＲ，LOC，OＲG，MISC。
CoNLL 2002 數(shù)據(jù)集是從西班牙 EFE 新聞機(jī)構(gòu)收集的西班牙共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集標(biāo)注了 4 種實體類型: PEＲ，LOC，OＲG，MISC。
ACE 2004 多語種訓(xùn)練語料庫版權(quán)屬于語言數(shù) 據(jù) 聯(lián) 盟 ( Linguistic Data Consortium，LDC ) ，ACE 2004多語言培訓(xùn)語料庫包含用于 2004 年自動內(nèi)容提取( ACE) 技術(shù)評估的全套英語、阿拉伯語和中文培訓(xùn)數(shù)據(jù)。語言集由為實體和關(guān)系標(biāo)注的各種類型的數(shù)據(jù)組成。
ACE 2005 多語種訓(xùn)練語料庫版權(quán)屬于LDC，包含完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù)，數(shù)據(jù)來源包括: 微博、廣播新聞、新聞組、廣播對話等，可以用來做實體、關(guān)系、事件抽取等任務(wù)。
OntoNotes 5.0 數(shù)據(jù)集版權(quán)屬于 LDC，由1 745 K英語、900 K 中文和 300 K 阿拉伯語文本數(shù)據(jù)組成，OntoNotes 5．0 的數(shù)據(jù)來源也多種多樣，來自電話對話、新聞通訊社、廣播新聞、廣播對話和博客等。實體被標(biāo)注為 PEＲSON，OＲGANIZATION，LO-CATION 等 18 個類型。
MUC 7 數(shù)據(jù)集是發(fā)布的可以用于命名實體識別任務(wù)，版權(quán)屬于 LDC，下載需要支付一定費用。數(shù)據(jù)取自北美新聞文本語料庫的新聞標(biāo)題，其中包含 190 K 訓(xùn)練集、64 K 測試集。
Twitter 數(shù)據(jù)集是由 Zhang 等提供，數(shù)據(jù)收集于 Twitter，訓(xùn)練集包含了 4 000 推特文章，3 257 條推特用戶測試。該數(shù)據(jù)集不僅包含文本信息還包含了圖片信息。因為該數(shù)據(jù)集找不到官方鏈接，所以只能網(wǎng)盤分享給大家，具體該數(shù)據(jù)集獲取方式：關(guān)注AINLPer 回復(fù)：IE001

2、常見標(biāo)注方法

IOB 標(biāo)注法，是 CoNLL 2003 采用的標(biāo)注法，I 表示內(nèi)部，O 表示外部，B 表示開始。如若語料中某個詞標(biāo)注 B /I－XXX，B /I 表示這個詞屬于命名實體的開始或內(nèi)部，即該詞是命名實體的一部分，XXX表示命名實體的類型。當(dāng)詞標(biāo)注 O 則表示屬于命名實體的外部，即它不是一個命名實體。
BIOES 標(biāo)注法，是在 IOB 方法上的擴(kuò)展，具有更完備的標(biāo)注規(guī)則。其中 B 表示這個詞處于一個命名實體的開始，I 表示內(nèi)部，O 表示外部，E 表示這個詞處于一個實體的結(jié)束，S 表示這個詞是單獨形成一個命名實體。BIOES 是目前最通用的命名實體標(biāo)注方法。
Markup 標(biāo)注法，是 OntoNotes 數(shù)據(jù)集使用的標(biāo)注方法，方式較簡單。例如: ENAMEX TYPE = ”O(jiān)ＲG ” ＞ LondonENAMEX ＞ is an international metropolis，它直接用標(biāo)簽把命名實體標(biāo)注出來，然后通過 TYPE 字段設(shè)置相應(yīng)的類型。

3、評價指標(biāo)
?命名實體識別任務(wù)常采用的評價指標(biāo)有精確率 ( Precision) 、召回率 ( Ｒecall) 、F1 值 ( F1 －Measure) 等?？梢詤⒖嘉恼拢?「深度學(xué)習(xí)」最基本的四大評價指標(biāo)！！

Attention

更多自然語言處理相關(guān)知識，還請關(guān)注AINLPer公眾號，極品干貨即刻送達(dá)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

必讀！信息抽取(Information Extraction)【命名實體識別】

必讀！信息抽取(Information Extraction)【命名實體識別】

引言

本文主要內(nèi)容

命名實體識別研究的難點

命名實體識別的研究進(jìn)展

命名實體識別研究熱點

命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)

Attention

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

必讀！信息抽取(Information Extraction)【命名實體識別】

引言

本文主要內(nèi)容

命名實體識別研究的難點

命名實體識別的研究進(jìn)展

命名實體識別研究熱點

命名實體識別常用的數(shù)據(jù)集及評價指標(biāo)

Attention

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av