特色精品毛片,草的爽网站,www.热av

來源: AINLPer
微信公眾號（每日更新...）
編輯: ShuYini
校稿: ShuYini
時間: 2020-08-11

引言

????信息抽取（information extraction），簡稱IE，即從自然語言文本中，抽取出特定的事件或事實信息，幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。這些信息通常包括實體（entity）、關(guān)系（relation）、事件（event）。例如從新聞中抽取時間、地點、關(guān)鍵人物，或者從技術(shù)文檔中抽取產(chǎn)品名稱、開發(fā)時間、性能指標(biāo)等。能從自然語言中抽取用戶感興趣的事實信息，無論是在知識圖譜、信息檢索、問答系統(tǒng)還是在情感分析、文本挖掘中，信息抽取都有廣泛應(yīng)用。

????信息抽取主要包括三個子任務(wù)：
????關(guān)系抽取：通常我們說的三元組(triple)抽取，主要用于抽取實體間的關(guān)系。
????實體抽取與鏈指：也就是命名實體識別。
????事件抽取：相當(dāng)于一種多元關(guān)系的抽取。

????關(guān)系抽?。≧E）是為了抽取文本中包含的關(guān)系，是信息抽?。↖E）的重要組成部分。主要負(fù)責(zé)從無結(jié)構(gòu)文本中識別出實體，并抽取實體之間的語義關(guān)系，被廣泛用在信息檢索、問答系統(tǒng)中。本文從關(guān)系抽取的基本概念出發(fā)，依據(jù)不同的視角對關(guān)系抽取方法進(jìn)行了類別劃分；最后分享了基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集，并總結(jié)出基于深度學(xué)習(xí)的關(guān)系抽取框架。

關(guān)系抽取基本概念

????完整的關(guān)系抽取包括實體抽取和關(guān)系分類兩個子過程。實體抽取子過程也就是命名實體識別，對句子中的實體進(jìn)行檢測和分類；關(guān)系分類子過程對給定句子中兩個實體之間的語義關(guān)系進(jìn)行判斷，屬于多類別分類問題。
????例如，對于句子“青島坐落于山東省的東部”，實體抽取子過程檢測出這句話具有“青島”和“山東”兩個實體。關(guān)系分類子過程檢測出這句話中“青島”和“山東”兩個實體具有“坐落于”關(guān)系而不是“出生于”關(guān)系。在關(guān)系抽取過程中，多數(shù)方法默認(rèn)實體信息是給定的，那么關(guān)系抽取就可以看作是分類問題。

關(guān)系抽取方法分類（基于深度學(xué)習(xí)方法）

????目前，常用的關(guān)系抽取方法有５類，分別是基于模式匹配、基于詞典驅(qū)動、基于機(jī)器學(xué)習(xí)、基于本體和混合的方法?；谀Ｊ狡ヅ浜驮~典驅(qū)動的方法依靠人工制定規(guī)則，耗時耗力，而且可移植性較差，基于本體的方法構(gòu)造比較復(fù)雜，理論尚不成熟。基于機(jī)器學(xué)習(xí)的方法以自然語言處理技術(shù)為基礎(chǔ)，結(jié)合統(tǒng)計語言模型進(jìn)行關(guān)系抽取，方法相對簡單，并具有不錯的性能，成為當(dāng)下關(guān)系抽取的主流方法，下文提到的關(guān)系抽取方法均為機(jī)器學(xué)習(xí)的方法。
????關(guān)于信息關(guān)系抽取，可以從訓(xùn)練數(shù)據(jù)的標(biāo)記程度、使用的機(jī)器學(xué)習(xí)方法、是否同時進(jìn)行實體抽取和關(guān)系分類子過程以及是否限定關(guān)系抽取領(lǐng)域和關(guān)系專制四個角度對機(jī)器學(xué)習(xí)的關(guān)系抽取方法進(jìn)行分類。

根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類

????根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度可以將關(guān)系抽取方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類。

????有監(jiān)督學(xué)習(xí)，處理的基本單位是包含特定實體對的句子，每一個句子都有類別標(biāo)注。優(yōu)點：取能夠有效利用樣本的標(biāo)記信息，準(zhǔn)確率和召回率都比較高。缺點：需要大量的人工標(biāo)記訓(xùn)練語料，代價較高。

????半監(jiān)督學(xué)習(xí)，句子作為訓(xùn)練數(shù)據(jù)的基本單位，只有部分是有類別標(biāo)注的。此類方法讓學(xué)習(xí)器不依賴外界交互，自動地利用未標(biāo)記樣本來提升學(xué)習(xí)性能。

????無監(jiān)督學(xué)習(xí)，完全不需要對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注，此類方法包含實體對標(biāo)記、關(guān)系聚類和關(guān)系詞選擇三個過程。

根據(jù)使用的機(jī)器學(xué)習(xí)方法分類

????根據(jù)使用機(jī)器學(xué)習(xí)方法不同，可以將關(guān)系抽取劃分為三類：基于特征向量的方法、基于核函數(shù)的方法以及基于神經(jīng)網(wǎng)絡(luò)的方法。

????基于特征向量的方法，通過從包含特定實體對的句子中提取出語義特征，構(gòu)造特征向量，然后通過使用支持向量機(jī)、最大熵、條件隨機(jī)場等模型進(jìn)行關(guān)系抽取。

????基于核函數(shù)的方法，其重點是巧妙地設(shè)計核函數(shù)來計算不同關(guān)系實例特定表示之間的相似度。缺點：而如何設(shè)計核函數(shù)需要大量的人類工作，不適用于大規(guī)模語料上的關(guān)系抽取任務(wù)。

????基于神經(jīng)網(wǎng)絡(luò)的方法，通過構(gòu)造不同的神經(jīng)網(wǎng)絡(luò)模型來自動學(xué)習(xí)句子的特征，減少了復(fù)雜的特征工程以及領(lǐng)域?qū)＜抑R，具有很強(qiáng)的泛化能力。

根據(jù)是否同時進(jìn)行實體抽取和關(guān)系分類子過程進(jìn)行分類

????根據(jù)是否在同一個模型里開展實體抽取和關(guān)系分類，可以將關(guān)系抽取方法分為流水線（pipeline）學(xué)習(xí)和聯(lián)合（joint）學(xué)習(xí)兩種。

????流水線學(xué)習(xí)是指先對輸入的句子進(jìn)行實體抽取，將識別出的實體分別組合，然后再進(jìn)行關(guān)系分類，這兩個子過程是前后串聯(lián)的，完全分離。

????聯(lián)合學(xué)習(xí)是指在一個模型中實現(xiàn)實體抽取和關(guān)系分類子過程。該方法通過使兩個子過程共享網(wǎng)絡(luò)底層參數(shù)以及設(shè)計特定的標(biāo)記策略來解決上述問題，其中使用特定的標(biāo)記策略可以看作是一種序列標(biāo)注問題。

根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類

????根據(jù)是否限定抽取領(lǐng)域和關(guān)系類別，關(guān)系抽取方法可以劃分為預(yù)定義抽取和開放域抽取兩類。

????預(yù)定義關(guān)系抽取是指在一個或者多個固定領(lǐng)域內(nèi)對實體間關(guān)系進(jìn)行抽取，語料結(jié)構(gòu)單一，這些領(lǐng)域內(nèi)的目標(biāo)關(guān)系類型也是預(yù)先定義的。

????開放域關(guān)系抽取不限定領(lǐng)域的范圍和關(guān)系的類別?，F(xiàn)階段，基于深度學(xué)習(xí)的關(guān)系抽取研究集中于預(yù)定義關(guān)系抽取。

關(guān)系信息抽取常用數(shù)據(jù)集

????基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集有ACE關(guān)系抽取任務(wù)數(shù)據(jù)集、SemEval2010 Task 8數(shù)據(jù)集、NYT2010數(shù)據(jù)集等.

????ACE關(guān)系抽取任務(wù)數(shù)據(jù)集：ACE2005關(guān)系抽取數(shù)據(jù)集包含599篇與新聞和郵件相關(guān)的文檔，其數(shù)據(jù)集內(nèi)包含7大類25小類關(guān)系。

????SemEval2010 Task 8數(shù)據(jù)集：該數(shù)據(jù)集包含９種關(guān)系類型，分別是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。考慮到實體之間關(guān)系的方向以及不屬于前面９種關(guān)系的“Other”關(guān)系，共生成19類實體關(guān)系。其中訓(xùn)練數(shù)據(jù) 8000個，測試數(shù)據(jù)2717個。

????NYT2010數(shù)據(jù)集是Riedel等人在2010年將Freebase知識庫中的知識“三元組”對齊到“紐約時報”新聞中得到的訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集中，數(shù)據(jù)的單位是句包，一個句包由包含該實體對的若干句子構(gòu)成。其中，訓(xùn)練數(shù)據(jù)集從《紐約時報》2005—2006年語料庫中獲取，測試集從2007年語料庫中獲取。

面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建

????基于深度學(xué)習(xí)的關(guān)系抽取方法模型構(gòu)建的重點在于利用不同神經(jīng)網(wǎng)絡(luò)的特點來抽取樣本的特征，以學(xué)習(xí)樣本的向量表示。在學(xué)習(xí)過程中，根據(jù)所用的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的不同，可將基于深度學(xué)習(xí)的關(guān)系抽取方法分為基于遞歸神經(jīng)網(wǎng)絡(luò)（recursive neural network,Rec-NN）的方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent net neural net-work,RNN）的方法和基于混合網(wǎng)絡(luò)模型的方法四類。

基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

????基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法首先利用自然語言處理工具對句子進(jìn)行處理，構(gòu)建特定的二叉樹，然后解析樹上所有的相鄰子節(jié)點，以特定的語義順序?qū)⑵浣M合成一個父節(jié)點，如下圖３所示。這個過程遞歸進(jìn)行，最終計算出整個句子的向量表示。向量計算過程可以看作是將句子進(jìn)行一個特征抽取過程，該方法對所有的鄰接點采用相同的操作。

基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

????基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法接受一個特定的向量矩陣作為輸入，通過卷積層和池化層的操作將輸入轉(zhuǎn)換成一個固定長度的向量，并使用其他特征進(jìn)行語義信息匯總，再進(jìn)行抽取?；诰矸e神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法框架如圖下５所示，除了輸入層、數(shù)據(jù)表示層之外，還有窗口層、卷積層、池化層、語義信息匯總層、分類層。

圖5

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

????由于句子含義跟單詞出現(xiàn)的順序是相關(guān)的，因此關(guān)系抽取可以看作是一個時序?qū)W習(xí)任務(wù)，可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模。
????基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法在模型設(shè)計上使用不同的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取句子信息，然后對每個時刻的隱狀態(tài)輸出進(jìn)行組合，在句子層級學(xué)習(xí)有效特征。在關(guān)系抽取問題中，對每一個輸入，關(guān)系的標(biāo)記一般只在序列的最后得到。Zhang等首次使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系抽取，提出了BRNN模型。如下圖７所示，在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中某一時刻的輸出不僅依賴序列中之前的輸入，也依賴于后續(xù)的輸入。

圖7

基于混合網(wǎng)絡(luò)模型的關(guān)系抽取

????為了更好地抽取句子中的特征，研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)３種網(wǎng)絡(luò)及其他機(jī)器學(xué)習(xí)方法進(jìn)行組合建模來進(jìn)行關(guān)系抽取。
????Vu等提出了 基于文本擴(kuò) 展表示的ECNN和基于鏈接的UniBRNN模型，將每個神經(jīng)網(wǎng)絡(luò)得到的多個結(jié)果根據(jù)投票機(jī)制得到關(guān)系的最終抽取結(jié)果。
????Xiao等將注意力機(jī)制引入一個多級的循環(huán)神經(jīng)網(wǎng)絡(luò)，該方法使用文本序列作為輸入，根據(jù)標(biāo)記實體的位置將句子分為５部分，使用同一個雙向LSTM網(wǎng)絡(luò)在３個子序列上獨立學(xué)習(xí)，然后引入詞層級的注意力機(jī)制關(guān)注重要的單詞表示，分別得到子序列的向量表示；隨后，使用雙向RNN網(wǎng)絡(luò)進(jìn)一步抽取子序列和實體的特征，并再次使用注意力機(jī)制將其轉(zhuǎn)換成句子的最終向量表示，并送入到分類器中。
????Nguyen等將傳統(tǒng)基于特征的方法（log-linear模型）、卷積神經(jīng)網(wǎng)絡(luò)方法和循環(huán)神經(jīng)網(wǎng)絡(luò)方法使用集成、投票等機(jī)制進(jìn)行組合。
????zhang等提出在雙向LSTM 的基礎(chǔ)上疊加注意力機(jī)制，以及使用卷積神經(jīng)網(wǎng)絡(luò)層獲取句子的表示，再送入到一個全連接層和softmax層進(jìn)行分類。
????在聯(lián)合學(xué)習(xí)問題上，Zheng等使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組合來進(jìn)行聯(lián)合學(xué)習(xí)，也是一種共享底層網(wǎng)絡(luò)參數(shù)的方法。

參考文獻(xiàn)

[1]莊傳志,靳小龍，基于深度學(xué)習(xí)的關(guān)系抽取研究綜述[J].中文信息學(xué)報,2019,33(12):1-18.

Attention

更多自然語言處理相關(guān)知識，還請關(guān)注AINLPer公眾號，極品干貨即刻送達(dá)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

必讀！信息抽取(Information Extraction)【關(guān)系抽取】

必讀！信息抽取(Information Extraction)【關(guān)系抽取】

引言

關(guān)系抽取基本概念

關(guān)系抽取方法分類（基于深度學(xué)習(xí)方法）

根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類

根據(jù)使用的機(jī)器學(xué)習(xí)方法分類

根據(jù)是否同時進(jìn)行實體抽取和關(guān)系分類子過程進(jìn)行分類

根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類

關(guān)系信息抽取常用數(shù)據(jù)集

面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建

基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于混合網(wǎng)絡(luò)模型的關(guān)系抽取

參考文獻(xiàn)

Attention

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

必讀！信息抽取(Information Extraction)【關(guān)系抽取】

引言

關(guān)系抽取基本概念

關(guān)系抽取方法分類（基于深度學(xué)習(xí)方法）

根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類

根據(jù)使用的機(jī)器學(xué)習(xí)方法分類

根據(jù)是否同時進(jìn)行實體抽取和關(guān)系分類子過程進(jìn)行分類

根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類

關(guān)系信息抽取常用數(shù)據(jù)集

面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建

基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

基于混合網(wǎng)絡(luò)模型的關(guān)系抽取

參考文獻(xiàn)

Attention

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

必讀！信息抽取(Information Extraction)【關(guān)系抽取】