標(biāo)簽: paper LSTM
摘要
之前的工作在相關(guān)抽取主要關(guān)注二分類相關(guān)性在一個(gè)句子中。最近NLP進(jìn)展在高值域有很大興趣在更多一般設(shè)置抽取n-ary相關(guān)性在擴(kuò)展多句子。在這個(gè)paper,我們探索一個(gè)一般相關(guān)抽取記憶網(wǎng)絡(luò)(graph LSTMs)可以簡單的擴(kuò)展cross-sentence n-ary關(guān)系抽取。這個(gè)graph公式提供一個(gè)統(tǒng)一方法探索不同LSTM方法并合并不同intra-sentential and inter-sentential依賴,例如序列同步和論述關(guān)系。一個(gè)魯棒的內(nèi)容表示被學(xué)習(xí)到實(shí)體,作為輸入到關(guān)系分類器。這個(gè)簡化處理關(guān)系伴隨隨機(jī)數(shù)量,可以多重任務(wù)學(xué)習(xí)伴隨相關(guān)關(guān)系。我們?cè)u(píng)估這個(gè)框架在兩個(gè)重要的精準(zhǔn)醫(yī)學(xué)設(shè)置,表明它的效率伴隨傳統(tǒng)監(jiān)督學(xué)習(xí)和遠(yuǎn)方監(jiān)督。Cross-sentence抽取產(chǎn)生更大知識(shí)基礎(chǔ)和多任務(wù)學(xué)習(xí)重大的改進(jìn)抽取準(zhǔn)確率。一個(gè)徹底分析各種LSTM方法產(chǎn)生有用洞悉語言分析在抽取準(zhǔn)確率的影響。
1 介紹
相關(guān)抽取已有很大步在新聞專線和網(wǎng)絡(luò)領(lǐng)域。最近,有增進(jìn)的興趣在應(yīng)用相關(guān)抽取在高值領(lǐng)域例如生物醫(yī)學(xué)。價(jià)值1000美元的人類基因發(fā)布精準(zhǔn)醫(yī)學(xué)的黎明的出現(xiàn),但是個(gè)性化癌癥治療的進(jìn)展已經(jīng)妨礙通過繁雜任務(wù)在解釋基因數(shù)據(jù)用在先知知識(shí)。例如,給出一個(gè)瘤序列,一個(gè)分子腫瘤模板需要決定哪個(gè)基因和轉(zhuǎn)換是重要的,什么藥是可用的在治療它們。已經(jīng)這個(gè)研究文學(xué)有一個(gè)富有的相關(guān)知識(shí),并生長在一個(gè)極大的速率。PubMed,在線生物醫(yī)學(xué)文章信息庫,加上兩個(gè)新paper每分鐘,或者一百萬每年。因此迫切的去增進(jìn)相關(guān)抽取對(duì)于機(jī)器閱讀。
在大量文學(xué)在相關(guān)抽取,之前的工作關(guān)注于只要在二元相關(guān)在一個(gè)句子,限制信息可用性??紤]下列例子:“The deletion mutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21 was noted in 10. All patients were treated with gefitinib and showed a partial response.”。集體的,這兩個(gè)句子傳達(dá)了這里有三元交互在三個(gè)實(shí)體用黑體,不是在每個(gè)句子單獨(dú)表達(dá)的。也就是,腫瘤伴隨L858E變異在EGFR基因中可以被gefitinib治療。抽取這些知識(shí)顯然需要轉(zhuǎn)移超過二元關(guān)系和單個(gè)句子。

N-ary關(guān)系和cross-sentence抽取收到了相當(dāng)小的關(guān)注在之前。之前的工作在n-ary關(guān)系抽取關(guān)注在單個(gè)句子或者實(shí)體中心的貢獻(xiàn)可被抽取大量依賴的。先前的工作在cross-sentence抽取經(jīng)常使用coreference去獲得參數(shù)在不同句子不帶真實(shí)模型inter-sentence關(guān)系模式。一個(gè)值得注意的是應(yīng)用遠(yuǎn)方監(jiān)督到cross-sentence關(guān)系抽取,但是限制到二元關(guān)系。
在這個(gè)paper,我們探索一個(gè)一般框架對(duì)于交叉句子n元關(guān)系抽取,基于graphLSTMs。通過采用graph公式,我們的框架歸入先前方法基于鏈或樹LSTMs,可以合作一個(gè)重組的語言分析集去幫助關(guān)系抽取。關(guān)系分類輸入實(shí)體表示學(xué)習(xí)于整個(gè)文本,可以簡單的擴(kuò)展用于隨機(jī)關(guān)系數(shù)量n。這個(gè)方法還促進(jìn)加入學(xué)習(xí)伴隨相似關(guān)系其中監(jiān)督信號(hào)更充足。
我們執(zhí)行擴(kuò)展實(shí)驗(yàn)在兩個(gè)重要領(lǐng)域在精準(zhǔn)醫(yī)學(xué)。同時(shí)在弱監(jiān)督和監(jiān)督學(xué)習(xí)設(shè)置,graph LSTMs編碼富語言知識(shí)好于其他神經(jīng)網(wǎng)絡(luò)變量,也是一個(gè)設(shè)計(jì)好的基于特征的分類器。多任務(wù)學(xué)習(xí)伴隨副關(guān)系導(dǎo)向更遠(yuǎn)改進(jìn)。句法分析授予一個(gè)重大的利益到graph LSTMs的表現(xiàn),特別是當(dāng)句法準(zhǔn)確性很高時(shí)。
在分子腫瘤版領(lǐng)域,PubMedscale抽取使用弱監(jiān)督從一個(gè)小的已知的交互產(chǎn)生的巨大更多知識(shí)序列集,和cross-sentence抽取三倍這個(gè)結(jié)果對(duì)比到單個(gè)句子抽取。人工評(píng)估證實(shí)準(zhǔn)確性是高的盡管缺乏樣例標(biāo)注。
2 交叉句子n元關(guān)系抽取
使$e_1,···,e_m$是實(shí)體標(biāo)記在文本$T$。關(guān)系抽取可以構(gòu)想為分類問題決定是否一個(gè)關(guān)系$R$持有$e_1,···,e_m$在$T$。例如,給出一個(gè)腫瘤病人伴隨變異$v$在基因$g$,一個(gè)分子腫瘤板發(fā)現(xiàn)是否這個(gè)種類的腫瘤可以對(duì)藥$d$反映。文學(xué)伴隨這種知識(shí)已經(jīng)增長迅速;我們可以幫助腫瘤板通過檢查是否反映關(guān)系持有$(d,g,v)$三元。
傳統(tǒng)關(guān)系抽取方法關(guān)注二元關(guān)系其中所有試題出現(xiàn)在相同句子(也就是$m=2$且$T$是一個(gè)句子),且不可以解決上述的 三元關(guān)系。更多的,正如我們關(guān)注的更復(fù)雜的關(guān)系和n增長,它變得漸漸稀有在關(guān)系實(shí)體將會(huì)被包括整個(gè)的在一個(gè)句子中。在這篇paper,我們一般化抽取到交叉句子,n元關(guān)系,其中$m>2$且$T$可以包括多重句子。正如將被展示在我們的實(shí)驗(yàn)部分,n元關(guān)系是關(guān)鍵的對(duì)于高價(jià)值領(lǐng)域例如生物醫(yī)學(xué),和擴(kuò)展于句子便捷使得抽取更多知識(shí)。
在二元關(guān)系設(shè)置的標(biāo)準(zhǔn),主導(dǎo)方法是一般定義依據(jù)最短依賴路徑在兩個(gè)問題實(shí)體之間,要么通過源于富特征來自路徑或者通過建模它使用深度神經(jīng)網(wǎng)絡(luò)。
更多的,詞匯和句法模式放大關(guān)系將會(huì)匱乏。解決匱乏性,傳統(tǒng)基于特征的方法需要擴(kuò)展工程和大量數(shù)據(jù)。不幸的是,這個(gè)挑戰(zhàn)變得更嚴(yán)重在交叉句子抽取當(dāng)文本跨越多重句子。
為了克服這個(gè)挑戰(zhàn),我們探索一個(gè)一般關(guān)系抽取框架基于graph LSTMs。通過學(xué)習(xí)一個(gè)連續(xù)表示用于詞和實(shí)體,LSTMs可以解決虧發(fā)行有效的不帶需求強(qiáng)烈的特征工程。這個(gè)graph構(gòu)想歸入先驗(yàn)LSTM方法基于鏈或樹,可以合并富語言分析。
這個(gè)方法還可以有機(jī)會(huì)共同學(xué)習(xí)伴隨相關(guān)關(guān)系。例如,Response關(guān)系基于$d,g,v$還暗示一個(gè)二元副關(guān)系在藥$d$和變異$v$,伴隨基因指定。甚至伴隨弱監(jiān)督,監(jiān)督信號(hào)對(duì)于n元關(guān)系將會(huì)很可能更稀少相比它們的二元副關(guān)系。我們的方法使得它非常容易的使用多任務(wù)學(xué)習(xí)對(duì)于n原關(guān)系和它們的副關(guān)系。

3 Graph LSTMs
學(xué)習(xí)一個(gè)連續(xù)表示可以有效的解決詞匯和句法稀少。對(duì)于序列數(shù)據(jù)例如文本,循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs是相當(dāng)流行。它們類似隱藏馬爾科夫模型HMMs,除了分離隱藏狀態(tài)被替代為連續(xù)向量,排放物和轉(zhuǎn)換概率伴隨神經(jīng)網(wǎng)絡(luò)。常規(guī)RNNs伴隨sigmoid單元經(jīng)歷梯度擴(kuò)散或者爆炸,使得訓(xùn)練非常難。LSTMs對(duì)付這些問題通過使用一系列門去避免放大或者阻止梯度在反向傳播時(shí)。因此,LSTMs更有效在捕獲長距離依賴,且已經(jīng)被采用到這種NLP任務(wù)。然而,大多方法是基于線性鏈且僅僅明確的模型這個(gè)線性文本,從而忽略一些列語言分析,例如語義和辯論依賴。
在這個(gè)部分,我們提出一個(gè)一般框架一般貨LSTMs到graph。同時(shí)這里有一些先驗(yàn)工作在學(xué)習(xí)樹LSTMs,to the best of our knowledge,graph LSTMs還沒有被用到任何NLP任務(wù)。Figure 2顯示了這個(gè)方法的結(jié)構(gòu)。輸入層是輸入文本的詞embedding。下一個(gè)graph LSTM學(xué)習(xí)一個(gè)上下文表示對(duì)于每個(gè)詞。對(duì)于問題中的實(shí)體,它們的上下文表示是聯(lián)結(jié)的且變得輸入到關(guān)系分類器。對(duì)于一個(gè)多詞實(shí)體,我們簡單使用它的詞表示的平均并使得探索更多復(fù)雜的聚集方法作為未來工作。這個(gè)層被訓(xùn)練共同的伴隨反向傳播。這個(gè)框架是不可知論的分類器的選擇。共同的設(shè)計(jì)分類器伴隨graph LSTMs將會(huì)利于將來工作。
在graph LSTM的核實(shí)一個(gè)文檔graph捕獲各種依賴在輸入詞中間。通過選擇依賴去包括這個(gè)文檔graph,graph LSTMs自然地歸入線性鏈或樹LSTMs。
對(duì)比傳統(tǒng)LSTMs,graph變異呈現(xiàn)新的挑戰(zhàn)。由于潛在循環(huán)在graph中,一個(gè)簡單的反向傳播設(shè)置可能需要許多迭代去達(dá)到固定點(diǎn)。更多的,在潛在的大量邊緣種類(鄰近詞,句法依賴等等)的數(shù)量的呈現(xiàn),參數(shù)化變成一個(gè)關(guān)鍵問題。
在這個(gè)部分的剩余,我們首先介紹文檔graph且展示如何執(zhí)行反向傳播在graph LSTMs。我們之后討論兩個(gè)策略用于參數(shù)化循環(huán)單元。最后,我們展示如何執(zhí)行多任務(wù)學(xué)習(xí)伴隨這個(gè)框架。
3.1 文檔graph
去建模各種依賴從語言分析在我們的處理中,我們跟隨Quirk and Poon (2017)且介紹一個(gè)文檔graph去捕獲intra- and inter-sentential依賴。一個(gè)文檔graph包括節(jié)點(diǎn)辨識(shí)詞和邊表示各種依賴?yán)缇€性上下文(鄰近詞),句法依賴,和語篇關(guān)系。Figure 1顯示文檔graph對(duì)于我們的訓(xùn)練樣例,這個(gè)實(shí)例顯示腫瘤伴隨L858E變異在EGFR基因反應(yīng)到這個(gè)藥gefitinib。
這個(gè)文檔graph表現(xiàn)為基于graph LSTM的支柱被構(gòu)造。如果它包含僅僅邊在鄰近詞之間,我們恢復(fù)線性鏈LSTMs。簡單的,其他先驗(yàn)LSTM方法可以捕獲在這個(gè)框架通過約束邊對(duì)那些最短依賴路徑或者句法分析樹。
3.2 反向傳播在graph LSTMs
常規(guī)LSTMs本質(zhì)上是深度前向神經(jīng)網(wǎng)絡(luò)。例如,一個(gè)左到右線性LSTM有一個(gè)隱藏向量對(duì)每個(gè)詞。這個(gè)向量通過神經(jīng)網(wǎng)絡(luò)(循環(huán)單元)產(chǎn)生,詞的embedding和之前詞的隱藏向量作為輸入。在判別學(xué)習(xí)中,這些隱藏向量作為輸入對(duì)于最后分類器,從梯度是反向傳播通過整個(gè)網(wǎng)絡(luò)。
歸納這個(gè)策略到graph伴隨循環(huán)特別是需要展開再現(xiàn)對(duì)于一個(gè)步驟的數(shù)字。本質(zhì)上,graph的復(fù)制被創(chuàng)造對(duì)于每步作為文本的輸入。這個(gè)結(jié)果是feed-forward神經(jīng)網(wǎng)絡(luò)通過時(shí)間,且反向傳播被執(zhí)行依據(jù)的。
原則上,我們可以采用同樣的策略。有效的,梯度是反向傳播在相似于loopy belief propagation (LBP)方法。然而,這使得學(xué)習(xí)更昂貴由于每個(gè)更新步驟需要多重迭代反向傳播。更多的,loopy backpropagation面臨LBP中同樣問題,例如擺動(dòng)或者不能相聚。
我們觀測(cè)到依賴?yán)缁⒑驼Z篇關(guān)系一般是稀有的,所以文檔graph的脊柱包括線性鏈和句法依賴樹。例如belief propagation,如此結(jié)構(gòu)可以更多有效的杠桿去反向傳播通過替換同步更新,正如在展開的策略中,伴隨同步更新,作為線性鏈LSTMs。這打開了許多機(jī)會(huì)對(duì)于各種策略對(duì)于排序反向傳播更新。

在這個(gè)paper,我們采用相似策略呈現(xiàn)相當(dāng)好的在初步試驗(yàn),留下更多探索在之后的工作。特別的,我們分割這個(gè)文檔graph到兩個(gè)directed acyclic graphs (DAGs)。一個(gè)DAG包括從左到右線性鏈,同時(shí)其他前向指針依賴。另一個(gè)DAG覆蓋從右到左線性鏈且反向指針依賴。Figure 3展示這個(gè)策略。有效的,我們分離原始graph到前向(從左到右),隨著通過反向(從右到左),構(gòu)造LSTMs依據(jù)的。當(dāng)文檔graph僅僅包括線性鏈邊,graph LSTMs確切的是一個(gè)雙向LSTMs。
3.3 基本循環(huán)傳播單元
一個(gè)標(biāo)準(zhǔn)LSTM單元包括輸入向量(詞embedding),一個(gè)記憶單元和一個(gè)輸出向量(文本表示),以及一些門。這個(gè)輸入門和輸出門控制信息流入和流出cell,然而遺忘門可以選擇的除去信息來自循環(huán)鏈接前一個(gè)單元。
在線性鏈LSTMs,每個(gè)單元包括僅僅一個(gè)遺忘門,它僅僅一個(gè)前向(鄰近詞邊指向之前的詞)。在graph LSTMs,然而,一個(gè)單元可能有幾個(gè)前向,包括鏈接同樣的詞通過不同邊。我們因此介紹一個(gè)遺忘門對(duì)每個(gè)前例,相似的方法用于樹LSTMs。
編碼富語言分析介紹許多明顯邊類別除了詞鄰近,例如句法依賴,打開許多可能對(duì)于參數(shù)化。這不是之前被認(rèn)為的syntax-aware LSTM方法。在這個(gè)paper,我們探索兩個(gè)計(jì)劃介紹了更多fined-grained參數(shù)基于邊類別。
全參數(shù)
我們的第一個(gè)提議簡單的介紹一個(gè)不同的參數(shù)集對(duì)于每個(gè)邊類別,伴隨特別的計(jì)算如下。

正如標(biāo)準(zhǔn)鏈LSTMs,$x_t$是輸入詞向量對(duì)于點(diǎn)$t$,$h_t$是隱藏層狀態(tài)向量對(duì)于點(diǎn)$t$,$W$等是輸入權(quán)重矩陣,$b$等是偏執(zhí)向量。$\sigma \tanh$和$⊙$表示sigmoid函數(shù),雙曲正切函數(shù)和Hadamard積。主要的區(qū)別在循環(huán)期間。在graph LSTMs,一個(gè)單元可能有多重前向($P(t)$),對(duì)每個(gè)$j$有一個(gè)遺忘門$f_{tj}$,一個(gè)類別權(quán)重矩陣$U^{m(t,j)}$,其中$m(t,j)$表明類型$t,j$之間的關(guān)系。輸入輸出門$(i_t,o_t)$依賴所有先驅(qū),然而遺忘門$(f_{tj})$僅僅依賴相關(guān)門的先驅(qū)。$c_t$和$\tilde{c}_t$表示中間計(jì)算結(jié)果在記憶單元,考慮到輸入和遺忘門,將會(huì)合并輸出門產(chǎn)生隱藏表示$h_t$。
完全參數(shù)化是簡單的,但是它需要大量參數(shù)當(dāng)有許多邊種類。例如,許多句法邊類型,每個(gè)對(duì)應(yīng)Stanford依賴標(biāo)記。作為結(jié)果,我們的實(shí)驗(yàn)使用僅僅粗粒度種類:詞鄰近,句法依賴等等。接下來,我們將會(huì)考慮更細(xì)粒度的方法通過學(xué)習(xí)邊類型embedding。
邊類別embedding
去減少參數(shù)數(shù)量且杠桿潛在相關(guān)性在細(xì)粒度邊類型之間,我們學(xué)習(xí)低緯度邊類型embedding,執(zhí)行一個(gè)先驅(qū)隱藏向量的外積和邊類型embedding去產(chǎn)生類型隱藏表示,是一個(gè)向量。新的計(jì)算如下:

其中$U$等是$l×l×d$張量($l$是隱藏向量的維度,$d$是邊類型embedding的維度),$h_j?e_j$是張量積產(chǎn)生$l×d$矩陣。$×T$表示張量點(diǎn)乘積定義為$T×TA=\sum_d(T{:,:,d} \cdot A{:,d})$,產(chǎn)生l維度向量。邊類型embedding$e_j$共同訓(xùn)練伴隨其他參數(shù)。
3.4 先驅(qū)LSTM方法對(duì)比
主要的優(yōu)勢(shì)對(duì)于graph公式是它的一般性和靈活性。如在部分3.1線性鏈LSTMs是一個(gè)特別的例子當(dāng)文檔graph是鄰近詞的線性鏈。相似的,樹LSTM是特別的例子當(dāng)文檔graph是分析樹。
在graph LSTMs,元知識(shí)的編碼受影響來自于反向傳播策略,使得它更靈活,包括引入循環(huán)。例如,Miwa和Bansal執(zhí)行共同的實(shí)體和二院關(guān)系抽取通過聚集LSTM關(guān)系抽取在其他LSTM的最上方對(duì)于實(shí)體辨識(shí)。在graph LSTMs,這兩個(gè)可以合并通過一個(gè)文檔graph組合詞近鄰鏈和依賴路徑在兩個(gè)實(shí)體之間。
文檔graph可以合并其他語言信息。例如,互參和語篇分析直覺的相關(guān)于交叉句子關(guān)系抽取。盡管現(xiàn)存系統(tǒng)還沒有展示改進(jìn)交叉句子關(guān)系抽泣,它保留一個(gè)重要的未來方向去探索合并分析,特別的采用這些之后到生物醫(yī)學(xué)領(lǐng)域。
3.5 多任務(wù)學(xué)習(xí)伴隨副關(guān)系
多任務(wù)學(xué)習(xí)已經(jīng)展示有用的在馴良神經(jīng)網(wǎng)絡(luò)中。通過學(xué)習(xí)文本實(shí)體表示,我們的框架使得它簡單的執(zhí)行多任務(wù)學(xué)習(xí)。唯一的改變是增加分別得分類器對(duì)每個(gè)相關(guān)的輔助關(guān)系。所有分類器共享相同的graph LSTMs表示學(xué)習(xí)器和詞embedding,可以潛在的不想幫助通過池化他們的監(jiān)督信號(hào)。
在分子腫瘤板領(lǐng)域,我們應(yīng)用這個(gè)范例共同的學(xué)習(xí)三元關(guān)系(藥-基因-變異)和二院副關(guān)系(藥物-變異)。實(shí)驗(yàn)結(jié)果展示這提供重大的獲得在兩個(gè)任務(wù)。
4 實(shí)驗(yàn)細(xì)節(jié)
我們實(shí)施我們的方法使用Theano library。我們使用了邏輯回歸對(duì)于我們的關(guān)系分類器。超參數(shù)被設(shè)置基于初步實(shí)驗(yàn)在小的Dev數(shù)據(jù)集。訓(xùn)練被完成使用mini-batch隨機(jī)梯度下降SGD伴隨batch大小8。我們使用學(xué)習(xí)率0.02訓(xùn)練最多30次,提早結(jié)束基于Dev數(shù)據(jù)。隱藏向量維度在LSTM單元設(shè)置為150,edge-type embedding的維度設(shè)置為3。詞embedding初始化伴隨公開的可用的100維度GloVe詞向量訓(xùn)練在6百萬詞來自維基百科和網(wǎng)絡(luò)。其他模型參數(shù)初始化隨機(jī)樣例選取均勻的在范圍$[-1,1]$。
在多任務(wù)訓(xùn)練,我們交替在所有任務(wù),每個(gè)時(shí)間通過所有數(shù)據(jù)對(duì)于一個(gè)任務(wù),更新參數(shù)依據(jù)的。重復(fù)30詞。
5 領(lǐng)域:分子腫瘤板
我們的主要實(shí)驗(yàn)關(guān)注在抽取三元交互作用在藥物,基因,變異,對(duì)于分子腫瘤板是重要的。一個(gè)藥物基因變異交互關(guān)系是大體的構(gòu)建為一個(gè)聯(lián)系在藥物功效和變異和給出的基因之間。這里有標(biāo)書數(shù)據(jù)集對(duì)這個(gè)問題。然而,由于這種知識(shí)的重要性,腫瘤學(xué)家已經(jīng)細(xì)心地宗閱讀paper中curating已知關(guān)系。如此人工方法不能趕上急速增長研究文學(xué),覆蓋是一般稀少的且沒有更新。然而,curated知識(shí)可被用在若監(jiān)督。
5.1 數(shù)據(jù)集
我們獲得生物醫(yī)學(xué)文學(xué)來自PubMed Central,構(gòu)成大約一百萬全文本標(biāo)題在2015。注意到僅僅一部分paper包括知識(shí)關(guān)于藥物-基因-變異交互關(guān)系。抽取如此知識(shí)來自大量生物醫(yī)學(xué)paper的內(nèi)容確切的是個(gè)挑戰(zhàn)。就如我們將會(huì)看到的在接下啦的部分,若監(jiān)督使得我們產(chǎn)生一個(gè)相當(dāng)?shù)挠?xùn)練集來自小量的人工curated因素,學(xué)習(xí)模型可以抽取大量因素的序列。在將來的工作,我們將會(huì)探索合并更多因素對(duì)于若監(jiān)督和抽取來自更多全文本標(biāo)題。
我們執(zhí)行標(biāo)記化,部分語音標(biāo)記,和句法分析使用SPLAT,獲得Stanford依賴使用Stanford CoreNLP。我們使用實(shí)體標(biāo)記器來自Literome'去表人藥物,基因,變異。
我們使用 Gene Drug Knowledge Database (GDKD) 和Clini- cal Interpretations of Variants In Cancer (CIVIC)用于弱監(jiān)督。我們?cè)谶@個(gè)paper中不使用基于細(xì)粒度交互類別知識(shí)。
5.2 弱監(jiān)督
在文本中辨認(rèn)了藥物,基因和變異之后,共同發(fā)生三倍伴隨已知交互被選擇為正向例子。然而,不像單個(gè)句子設(shè)置在標(biāo)準(zhǔn)托監(jiān)督,選擇候選是必須小心。由于三倍可以屬于在不同句子中,一個(gè)不受限制的文本范圍選擇會(huì)影響引入許多顯然的錯(cuò)誤例子。我們因此跟隨Quirk和Poon在限制候選到那些存在在最小范圍的,也就是,我們保留一個(gè)候選僅僅如果沒有其他共同發(fā)生的同樣實(shí)體在重復(fù)文本范圍伴隨小數(shù)量連續(xù)句子。更多,我們避免選擇不可能的候選其中三元分的很遠(yuǎn)在文檔中。特別的,我們考慮實(shí)體三元在K個(gè)連續(xù)句子中,忽略段落邊界。K=1對(duì)應(yīng)基準(zhǔn)抽取在單個(gè)句子。我們探索$K \le 3$,捕獲大部分候選不帶引入許多不可能的。
僅僅59個(gè)分別的藥-基因-變異三元來自知識(shí)基準(zhǔn)配對(duì)到文本。甚至來自如此小的獨(dú)特三元集,我們獲得3462三元關(guān)系實(shí)例可以作為正向例子。對(duì)于多任務(wù)學(xué)習(xí),我們還考慮藥-基因和藥變異副關(guān)系,產(chǎn)生137469藥-基因和3192藥-變異關(guān)系實(shí)例作為正向樣例。
我們產(chǎn)生負(fù)向樣例通過隨機(jī)采樣共同發(fā)生的實(shí)體三元不帶已知交互,取決于和上面相同限制。我們采樣同樣數(shù)字作為正向樣例去獲得平衡的數(shù)據(jù)集。
5.3 自動(dòng)評(píng)估
對(duì)比各種模型在我們提出的框架中,我們執(zhí)行five-fold cross-validation,對(duì)待正向和負(fù)向樣例從弱監(jiān)督作為金標(biāo)注。為了避免訓(xùn)練測(cè)試集污染,所有樣例來自一個(gè)文檔被賦予相同的fold。由于我們的數(shù)據(jù)集通過構(gòu)建平衡了,我們簡單報(bào)告平均測(cè)試準(zhǔn)確率在held-out fold。顯然,這個(gè)結(jié)果可以有噪音(也就是實(shí)體三元不被認(rèn)為一個(gè)交互可能擁有一個(gè)),但是這個(gè)評(píng)估是自動(dòng)且快速評(píng)估各種設(shè)計(jì)選擇的影響。


我們?cè)u(píng)估兩個(gè)各種各樣的graph LSTMs:“Graph LSTM-FULL” 有全參數(shù)化和 “Graph LSTM-EMBED” 伴隨邊類型embedding。我們對(duì)比graph LSTMs伴隨三個(gè)強(qiáng)基準(zhǔn)系統(tǒng):一個(gè)設(shè)計(jì)好的基于特征的分類器,一個(gè)CNN,一個(gè)BiLSTM。隨著Wang等,我們使用輸入attention對(duì)于CNN和一個(gè)輸入窗口大小5。Quirk和Poon僅僅抽取二院關(guān)系。我們擴(kuò)展到三元關(guān)系通過剝離特征到每個(gè)實(shí)體對(duì)(伴隨增加標(biāo)注去增大兩個(gè)實(shí)體類別),池化所有對(duì)的特征。
對(duì)于二元關(guān)系抽取,先驗(yàn)syntax-aware方法直接適當(dāng)?shù)摹K晕覀冞€對(duì)比當(dāng)前的樹LSTM系統(tǒng)和BiLSTM在最短依賴路徑在兩個(gè)實(shí)體之間。
Table 1展示交叉句子的結(jié)果,三元關(guān)系抽取。所有神經(jīng)網(wǎng)絡(luò)基于模型表現(xiàn)好于基于特征的分類器,表明它們?cè)谔幚硐∮姓Z言模型不帶需要的強(qiáng)度特征工程的優(yōu)勢(shì)。所有LSTMs顯著地好于CNN在交叉句子設(shè)置,正式捕獲長距離依賴的重要性。
兩個(gè)graph LSTMs的變種執(zhí)行在每個(gè),盡管Graph LSTM-FULL擁有一個(gè)小的優(yōu)勢(shì),認(rèn)為更多探索參數(shù)化策略可以有用。特別的,edge-type embedding可能增強(qiáng)通過預(yù)訓(xùn)練在未標(biāo)記文本伴隨句法分析。
兩個(gè)graph變種顯著的表現(xiàn)好于BiLSTMs($p < 0.05$通過McNemar's chi-square測(cè)試),盡管區(qū)別很小。結(jié)果令人振奮。在Quirk和Poon,最好的系統(tǒng)合并句法依賴且表現(xiàn)好于線性鏈變體通過一個(gè)大的margin。所以為什么graph LSTMs不能獲得一個(gè)相等的顯著結(jié)果通過建模句法依賴。
一個(gè)原因是線性鏈LSTMs可以已經(jīng)捕獲一些長距離依賴可用在句法分析。BiLSTMs顯著的表現(xiàn)好于基于特征的分類器,甚至不帶獨(dú)特的句法依賴建模。結(jié)果不能完全貢獻(xiàn)到詞embedding由于LSTMs表現(xiàn)好于CNNs。
另一個(gè)原因是句法分析比生物醫(yī)學(xué)領(lǐng)域少正確率。分析錯(cuò)誤使困難graph LSTM學(xué)習(xí),限制潛在的獲得。在部分6,我們展示支持的證據(jù)在金分析可用的領(lǐng)域。
我們還報(bào)告準(zhǔn)確率在單個(gè)句子的實(shí)例上,展示廣泛的相似的集的趨勢(shì)。注意到單個(gè)句子和交叉句子準(zhǔn)確率不是直接對(duì)比的,由于測(cè)試集不同(一個(gè)歸納入另一個(gè))。
我們執(zhí)行同樣的實(shí)驗(yàn)在二元副關(guān)系在藥物-變異對(duì)。Table 2展示結(jié)果,相似于三元例子:Graph LSTM-FULL一貫的表現(xiàn)的最好對(duì)于單個(gè)句子和價(jià)差句子實(shí)例。BiLSTMs在最短路徑顯著的表現(xiàn)差于BiLSTMs或者graph LSTMs,大約差了4-5點(diǎn)的準(zhǔn)確率,可以貢獻(xiàn)于低分析質(zhì)量的生物醫(yī)學(xué)領(lǐng)域。有趣的,現(xiàn)存的樹LSTMs也表現(xiàn)差于graph LSTMs,盡管他們編碼本質(zhì)的同樣的語言結(jié)構(gòu)(詞鄰近和句法依賴)。我們貢獻(xiàn)獲得的事實(shí)Miwa和Bansal使用的分離的LSTMs對(duì)于線性鏈和依賴樹,然而graph LSTMs學(xué)習(xí)單個(gè)表示對(duì)于兩個(gè)。

去評(píng)估是否共同學(xué)習(xí)伴隨副關(guān)系可以幫助,我們執(zhí)行多任務(wù)學(xué)習(xí)使用Graph LSTM-FULL共同訓(xùn)練抽取器對(duì)三元交互關(guān)系和藥物-變異,藥物-基因從屬關(guān)系。Table 3展示了結(jié)果。多任務(wù)學(xué)習(xí)結(jié)果重大的獲得對(duì)于三元交互關(guān)系和藥物-變異交互關(guān)系。有趣的,graph LSTMs對(duì)于BiLSTMs的優(yōu)勢(shì)是減少多任務(wù)學(xué)習(xí),揭示伴隨更多監(jiān)督信號(hào),甚至線性鏈LSTMs可以學(xué)習(xí)捕獲長范圍依賴,通過分析graph LSTMs的特征的證據(jù)。注意到有許多實(shí)例對(duì)于藥物-基因交互關(guān)系相比其他,所以我們僅僅采樣相當(dāng)大小的子集。因此,我們不評(píng)估藥物-基因交互關(guān)系的表現(xiàn),在實(shí)踐中,可以簡單學(xué)習(xí)所有可用數(shù)據(jù),子樣例結(jié)果不可比。
我們包括互參和語篇關(guān)系在我們的文檔graph。然而,我們沒有觀察任何重大的獲得,相似的觀察在Quirk和Poon。我們留在更多的探索在之后的工作。

5.4 PubMed-Scale抽取
我們最終的任務(wù)是抽取所有知識(shí)來自可用的文本。我們因此重新訓(xùn)練我們的模型使用最好的系統(tǒng)來自自動(dòng)評(píng)估(也就是Graph LSTM-FULL)在所有可用的數(shù)據(jù)。結(jié)果模型用來抽取關(guān)系來自所有PubMed Central文章。
Table 4展示候選數(shù)量和抽取的交互關(guān)系。59個(gè)獨(dú)立基因-藥物-變異三元來自兩個(gè)數(shù)據(jù)集,我們學(xué)習(xí)到抽取巨大更多獨(dú)一無二交互關(guān)系順序。結(jié)果還強(qiáng)調(diào)交叉句子抽取的有用性,產(chǎn)生3到5次更多關(guān)系相比單個(gè)句子抽取。
Table 5執(zhí)行相似對(duì)比在唯一的藥物,基因,變異的數(shù)量。再一次,機(jī)器閱讀覆蓋更多唯一實(shí)體,特別是伴隨句子抽取。
5.5 人工評(píng)估
我們自動(dòng)評(píng)估對(duì)比計(jì)算方法是有用的,但是可能不反應(yīng)真分類器精準(zhǔn)由于標(biāo)記有噪音。因此,我們隨機(jī)采樣抽取關(guān)系實(shí)例并找三個(gè)知識(shí)的研究員在精準(zhǔn)醫(yī)學(xué)去評(píng)估它們的正確性。對(duì)于實(shí)例,標(biāo)注被呈現(xiàn)伴隨起源:句子伴隨藥物?;蚝妥儺惐粡?qiáng)調(diào)。標(biāo)注著決定每個(gè)例子不管這個(gè)實(shí)例暗示給出的實(shí)體是相關(guān)的。注意到評(píng)估不試圖辨認(rèn)是否關(guān)系是真的或復(fù)制在接下來的paper;當(dāng)然,它關(guān)注在是否關(guān)系是需要的通過文本。


我們關(guān)注我們的評(píng)估成就在交叉句子三元關(guān)系設(shè)置。我們考慮三個(gè)可能threshold:0.9對(duì)于高precision但是可能的低recall設(shè)置,0.5,和隨機(jī)的所有候選的樣例。對(duì)每個(gè)例子,150樣例被選擇對(duì)于所有450個(gè)標(biāo)注。一個(gè)150實(shí)例的子集被兩個(gè)標(biāo)注者檢查,inter-annotator同意達(dá)88%。
Table 6展示分類器確實(shí)過濾掉大部分潛在候選,伴隨評(píng)估實(shí)例準(zhǔn)確率64%在threshold0.5,和75%在0.9。有趣的是,LSTMs是有效率的在篩選出許多實(shí)體提及錯(cuò)誤,可能因?yàn)樗麄儼◤V泛文本特征。

6 領(lǐng)域:基因途徑
我們還執(zhí)行實(shí)驗(yàn)在抽取基因途徑交互關(guān)系使用GENIA事件抽取數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括金句法分析對(duì)于句子,賦予一個(gè)唯一機(jī)會(huì)去調(diào)查句法分析的影響在graph LSTMs。它還允許我們測(cè)試我們的框架在監(jiān)督學(xué)習(xí)。
原始共享任務(wù)評(píng)估在復(fù)雜疊套的事件對(duì)九事件類別,許多是一元關(guān)系。跟隨Poon等,我們關(guān)注在基因標(biāo)準(zhǔn)化并減少它的二元關(guān)系分類對(duì)于head-to-head對(duì)比。我們跟隨他們的實(shí)驗(yàn)準(zhǔn)則通過sub采樣負(fù)向樣例到三次正向樣例。
由于數(shù)據(jù)集不是完全平衡的,我們報(bào)告precision, recall, and F1。我們使用我們最好的graph LSTM表現(xiàn)來自之前實(shí)驗(yàn)。默認(rèn)的,自動(dòng)分析被用在文檔graph,然而在Graph LSTM(GOLD),gold分析被使用。Table 7展示結(jié)果。再一次,盡管缺乏強(qiáng)度特征工程,線性鏈LSTMs呈現(xiàn)在對(duì)上伴隨基于特征分類器。Graph LSTMs展示更多優(yōu)勢(shì)在線性鏈LSTMs在這個(gè)領(lǐng)域,顯著的表現(xiàn)好于后者($p < 0.01$通過McNemar's chi-square測(cè)試)。最有趣的是,graph LSTMs使用gold分析顯著的表現(xiàn)好于使用的自動(dòng)分析,揭示編碼高度質(zhì)量分析是十分有用的。
7 相關(guān)工作
大多在關(guān)系抽取已經(jīng)應(yīng)用到單個(gè)句子的實(shí)體的二元關(guān)系。我們首先檢查相關(guān)工作在單個(gè)句子二元關(guān)系抽取任務(wù),接著檢查相關(guān)工作n元交叉句子關(guān)系抽取。
二元關(guān)系抽取 傳統(tǒng)基于特征的方法依賴仔細(xì)的設(shè)計(jì)特征學(xué)習(xí)好的模型,經(jīng)常融入多樣的證據(jù)來源例如詞序列和句法文本?;诤朔椒ㄔO(shè)計(jì)各種sub序列或者樹核去捕獲結(jié)構(gòu)信息。最近,模型基于神經(jīng)網(wǎng)絡(luò)增進(jìn)現(xiàn)存通過自動(dòng)學(xué)習(xí)有力的特征表示。
大多神經(jīng)結(jié)構(gòu)集結(jié)Figure 2,其中有核表示學(xué)習(xí)器(藍(lán)色)去詞embedding作為輸入并產(chǎn)生文本實(shí)體表示。如此表示取關(guān)系分類器產(chǎn)生最終預(yù)測(cè)。有效的表示詞序列,同時(shí)卷積和基于RNN的結(jié)構(gòu)都成功。大多關(guān)注模型既是表面詞序列或是等級(jí)句法結(jié)構(gòu)。Miwa和Bansal提出按個(gè)結(jié)構(gòu)利于兩種信息類型,使用表面序列層,跟隨依賴樹序列層。
n元關(guān)系抽取 早期工作在抽取關(guān)系,在多于兩個(gè)參數(shù)之間在MUC-7,重點(diǎn)關(guān)注事實(shí)/事件抽取來自新聞標(biāo)題。情感角色標(biāo)記在Propbank或者FrameNet風(fēng)格以及n元關(guān)系抽取實(shí)例,伴隨抽取事件表達(dá)在單個(gè)句子。McDonald等抽取n元關(guān)系在生物醫(yī)學(xué)領(lǐng)域,首先考慮n元關(guān)系配對(duì)關(guān)系在所有實(shí)體對(duì)之間,接著構(gòu)建最大相關(guān)的實(shí)體圈子。最近,神經(jīng)模型應(yīng)用情感角色標(biāo)記。這些工作學(xué)習(xí)神經(jīng)表示通過有效的分解n元關(guān)系到二元關(guān)系在謂語和每個(gè)主題之間,通過embedding這個(gè)依賴路徑在每個(gè)對(duì)之間,或者通過合并兩個(gè)使用前向網(wǎng)絡(luò)的特征。盡管一些再排序或者共同inference模型已經(jīng)被采用,個(gè)體主題的表示不會(huì)相互影響。對(duì)比的,我們提出一個(gè)神經(jīng)結(jié)果共同的表示n實(shí)體mention,考慮長距離依賴和inter句子信息。
交叉句子關(guān)系抽取 幾個(gè)關(guān)系抽取任務(wù)有利來自交叉句子抽取,包括MUC因素和事件抽取,記錄抽取來自web pages,生物醫(yī)學(xué)領(lǐng)域因素抽取,并語義角色標(biāo)記覆蓋含蓄inter句子主題擴(kuò)展。這些先前的工作要么依賴特別的共同reference標(biāo)注,或者假設(shè)全部文檔refer到單個(gè)coherent時(shí)間,去簡化問題并減少需求對(duì)強(qiáng)大的多句子文本實(shí)體mention的表示。最近,交叉句子關(guān)系抽取模型已經(jīng)被學(xué)習(xí)伴隨弱監(jiān)督,且使用整體的文本多重類型證據(jù)不帶依賴在這些假設(shè)上,但是工作關(guān)注在二院關(guān)系僅僅且特別的工程稀少指示器特征。
關(guān)系抽取使用弱監(jiān)督 弱監(jiān)督應(yīng)用到抽取二元和n元關(guān)系,傳統(tǒng)的使用手工工程特征。神經(jīng)結(jié)構(gòu)最近應(yīng)用弱監(jiān)督抽取二元關(guān)系。我們的工作是首先提出一個(gè)神經(jīng)結(jié)構(gòu)用于n元關(guān)系抽取,其中tuple個(gè)實(shí)體的表示不可分解到獨(dú)立表示的個(gè)體實(shí)體或?qū)嶓w對(duì),整體多樣信息來自多句子文本。為了利用訓(xùn)練數(shù)據(jù)更有效,我們展示如何多任務(wù)學(xué)習(xí)對(duì)組成的二元sub關(guān)系可以曾倩表現(xiàn)。我們學(xué)習(xí)的表示合并信息源帶著單個(gè)句子在一個(gè)更整體和一般化相比先前方法,可以增強(qiáng)單個(gè)句子二元關(guān)系抽取的表現(xiàn)。
8 結(jié)論
我們探索一個(gè)一般框架對(duì)交叉句子n元關(guān)系抽取基于graph LSTMs。graph公式化歸納線性鏈和樹LSTMs且使得它簡單合并富語言分析。實(shí)驗(yàn)在生物醫(yī)學(xué)領(lǐng)域展示抽取超過句子便捷產(chǎn)生更大知識(shí),并編碼富語言知識(shí)提供的連續(xù)增長。
當(dāng)有許多空間增強(qiáng)recall和precision,我們的結(jié)果表明極其閱讀