會議 ACL 2015 paper 的概述

寫了幾十篇 ACL 2015 paper 的概述,大部分看過,錯誤應(yīng)該不少,歡迎指正。首發(fā)于和朋友一起做的公眾號“程序媛的日?!鄙希滑F(xiàn)在匯總發(fā)成幾篇長微博:OACL 2015 selected paper 概述(1);OACL 2015 selected paper 概述(2);OACL 2015 selected paper 概述(3);OACL 2015 selected paper 概述(4)。

開完 ACL 2015 大會,選了自己感興趣的幾十篇論文,大部分是自己已經(jīng)讀過的,做了一些概述。相信里面有很多錯誤,歡迎指正。另外,圖文并茂版本在公眾號查看,長微博復(fù)制圖片也許有很多錯誤顯示不出來。

1. Text to 3D Scene Generation with Rich Lexical Grounding

Angel Chang, Will Monroe, Manolis Savva, Christopher Potts, Christopher D. Manning

這篇論文很 fancy,就是如何利用簡易的文本,建立 3D 圖形。比如如何根據(jù)文本,畫出一個房間里的角落后有一個冰箱,冰箱上面有一盆花。做的工作很細(xì)致。語料也很特別!

2. MultiGranCNN: An Architecture for General Matching of Text Chunks on Multiple Levels of Granularity

Wenpeng Yin and Hinrich Schütze

他這兩年的研究重點基本都放在 textchunks 的表達(dá)上,他的這系列工作(包括這篇)都強調(diào)他想 handle various granularity in the sentence reprentation,具體到他的模型中,就體現(xiàn)在了 unigram (word) feature, short ngram feature, long ngram feature 和 sentence feature 上。我理解他的 various granularity 要同時 model 兩種 advantage:1)different granularity should be compared (between two sentence representations) at corrosponding granular-level (do not compare single words with entire sentences);2) should model interactions among different granularities. 對于1)他們認(rèn)為這點比 Socher'11 的 RNN 工作要好;同時他們把這個工作 extend 到了 ACL'15 里;對于2)他們于是在他們的 model 中加入了一個 interaction NN。

這篇論文中有兩個 technique,一個是 unsupervised pretraining CNN scheme,這個東西他們說特有有用,大概就是把最上層的 sentence representation layer output,當(dāng)做 one unit,然后再加上整個 NN input 的原始的一個個 single word unit,去組成一個新的 sequence,然后結(jié)合 NCE(noise-contrastive estimation)技術(shù),改造成一種 sentence-enhanced word prediction 的玩意。他們這個 technique 的思想源自兩篇論文,一個很顯然就是 word2vec 那種 unsupervised 的 prediction central word 的思想,一個是 Baroni'14 的 Dont count, predict! 論文,認(rèn)為 predict-fashioned 的 LM 更好。

這是第一個 technique,這個 technique 被他用在了后面這一系列論文當(dāng)中。但有多大用處各位可以一起檢驗一下。

第二個 technique 就是另二種 dynamic pooling,追隨 Socher'11 的工作。

3. [TACL]* Improving Distributional Similarity with Lessons Learned from Word Embeddings

Omer Levy, Yoav Goldberg, Ido Dagan

據(jù)說 Levy 在 oral presentation 當(dāng)場戰(zhàn)斗力爆表,直接說自己做了 5600 組實驗都無法重復(fù)出某些模型的好的實驗結(jié)果。

4. Learning Word Representations by Jointly Modeling Syntagmatic and Paradigmatic Relations

Fei Sun, Jiafeng Guo, Yanyan Lan, Jun Xu, Xueqi Cheng

首先,這篇論文言辭樸素踏實。如果文如其人,可以透過論文看出這個作者對待研究的沉穩(wěn)態(tài)度。全文很少有 fancy 或者渲染的形容詞。踏實地描述工作,認(rèn)真地對比方方面面。有數(shù)學(xué),有分析,有 case study。再來補充推薦,這篇論文甚至可以當(dāng)做一篇簡要的 survey。Introduction, Related Work 和 后面的 Discussion 部分,對于 syntagmatic 和 paradigmatic models 的總結(jié)十分全面,評價客觀到位。推薦給想了解一下這邊內(nèi)容的童鞋。

以下進(jìn)入正題:

Motivation:我們都知道,一般去找 word similarity,會出現(xiàn)兩種,一種更像 word relatedness,一種才是 word similarity??梢岳斫鉃椤皺M向”和“縱向”的 similarity。文中用 The wolf is a fierce animal. The tiger is a fierce animal. 兩句話來解釋。(wolf, tiger) 是 paradigmatic relation,(wolf, fierce) 和 (tiger, fierce) 都分別是 syntagmatic relation。以前的許多 model 分別 capture 了這兩種 relation 中的某一種。本文想 jointly 學(xué)這兩種,并且認(rèn)為 jointly 的學(xué)習(xí)是可以互相 boost 整體結(jié)果的(并在最后 case study 中給出了分析)。

Concepts:關(guān)于 syntagmatic vs. paradigmatic,本文中其實有四對相似的概念。首先是 (syntagmatic, paradigmatic),對應(yīng)的是 (representations based on the text region, representations based on similar contexts),第三個對應(yīng)的是 (combinatorial relations, substitutional relations),第四個對應(yīng)的是 (words-by-documents co-occurrence matrix, words-by-words co-occurrence matrix).

Idea:jointly 的學(xué)習(xí)其實也算是一個 NLP 中比較有賣點的東西。進(jìn)攻的(Hanyang 愛用的詞)是 NLP 中經(jīng)常使用的 pipeline framework,jointly 的工作可以減少 error propagation 和 accumlation。雖然這篇文章中不涉及 pipeline 工作,但是 jointly 的學(xué)習(xí)確實可以互相 boost。

Models:基于 word2vec 的 CBOW 和 SkipGram,改造了兩個模型。雖然改造這倆模型的 paper 已經(jīng)太多,但是這篇的改造確實給人眼前一點點亮的感覺。而且給出了嚴(yán)格的數(shù)學(xué)推導(dǎo)(還有源碼呀)。表述清晰,數(shù)學(xué)不好的各位童鞋的福利(包括我)。簡單來說,兩者都是用 word2vec 的 contexts (neighboring words) 繼續(xù) capture paradigmatic,而用整個 documents capture syntagmatic。比改造 CBOW 的直接“并聯(lián)”更巧妙的是改造 SkipGram,變成了 “Hierarchical”的形式,用 documents 先 predict (conditioned)中心詞 w_0,再和 SkipGram 一樣去用 w_0 predict context words,一樣達(dá)到同時 capture 兩種 relation 的目的。

Experiments:在公開的大數(shù)據(jù)集上,橫縱向(多種 dim,多個 baseline model)比較了在 word similarity 和 word analogy 的表現(xiàn)。全部 beat baseline。

Case Study:這部分我覺得最認(rèn)真。我很喜歡。

5. Compositional Vector Space Models for Knowledge Base Completion

Arvind Neelakantan, Benjamin Roth, Andrew McCallum

思想很簡單,去彌補 knowledge path,然后就可以推導(dǎo)出一些 transitional & compositional 的 relation in KB。

開完 ACL 2015 大會,選了自己感興趣的幾十篇論文,大部分是自己已經(jīng)讀過的,做了一些概述。相信里面有很多錯誤,歡迎指正。另外,圖文并茂版本在公眾號查看,長微博復(fù)制圖片也許有很多錯誤顯示不出來。

1. Learning Answer-Entailing Structures for Machine Comprehension

Mrinmaya Sachan, Kumar Dubey, Eric Xing, Matthew Richardson

CMU 出品,Eric Xing 老師的組。本文不是 NN,數(shù)學(xué)上還算簡單。個人覺得有兩個亮點,一個就是假設(shè)了一個中間的 hypothesis,一個是在數(shù)學(xué)的地方結(jié)合了 multi-task,并使用了 feature map 的 technique 把 multi-task 給“退化”成了原始問題。

先說第一個,第一個就是說,他們先用 Question 和 Answer,學(xué)出一個 hypothesis,這個 hypothesis 就是一種 latent variable,也可以認(rèn)為是一種 embedding 后的 fact。如果我們認(rèn)為 question + answer 共同描述了一個 fact/truth/event 的話。基于這個 hypothesis,再去 match 原始 paragraph/text 里的 relevant words。具體可以看看 Figure 1.我覺得這個蠻有趣的。因為讓我想起編碼解碼。Question + Answer 的組合就是一種 對于這篇 doc 的一種表達(dá);而這篇 doc 本身是另一種表達(dá)。這兩種表達(dá)就是兩種 representation 的結(jié)果,那么中間真實的事情是什么?所謂的完整的 information 是什么?他這樣直接結(jié)合的 hypothesis 肯定也是 reduce 了信息的。實際我覺得現(xiàn)在 Machine Translation/Conversation 那邊也在做類似的事情。我們不要直接一對一,要有中間一個看不見的“hypothesis”。

第二個 multi-task,這個和他們用到的另一篇論文有關(guān),《Toward AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》。這里面定義了20種 AI 需要解決的問題。是種。就是上面說的問題是分類的,how/what/which/why/when/who 啥的。他們用了這20類,把任務(wù)細(xì)分,細(xì)分成 20個 subtask。這樣就變成了 multi-task 的問題。然后使用了 feature map(Evgeniou 2004)的技術(shù),把 multi-task 又給轉(zhuǎn)化成了原始問題。我覺得還蠻有趣的。當(dāng)然 multi-task 已經(jīng)有非常多的解決辦法了,這個只是一種適用于他的模型的有效簡單的辦法。

2. A Generalisation of Lexical Functions for Composition in Distributional Semantics

Antoine Bride, Tim Van de Cruys, Nicholas Asher

論文也是關(guān)注一個熱點,compositional。論文提出了一種比較 general 的框架去囊括 composition。同時還著重分析了形容詞(adj)和名詞(noun)的 composition 性質(zhì)。

3. Simple Learning and Compositional Application of Perceptually Grounded Word Meanings for Incremental Reference Resolution

Casey Kennington and David Schlangen

這篇論文的報告非常非常 cute!一直以右下角的三個俄羅斯方塊作為動畫主體。內(nèi)容也很 fancy!所謂 grounded word meaning 就是那種描述性的事實性的修飾詞。比如一個“十字”“紅色”“方塊”。這樣。數(shù)據(jù)集也是他們自制的,公開。很不錯很有趣的論文。

4. Learning to Adapt Credible Knowledge in Cross-lingual Sentiment Analysis

Qiang Chen, Wenjie Li, Yu Lei, Xule Liu, Yanxiang He

這篇工作中,作者使用情感信息去 supervise 雙語之間的翻譯——很直觀的假設(shè)就是,source language 和 target language 之間情感詞性應(yīng)該是不變的。一句話不可能翻譯前是正向情感,翻譯后就變成負(fù)向了。他們采用了 knowledge validation 進(jìn)行了多次驗證。

5. Event-Driven Headline Generation

Rui Sun, Yue Zhang, Meishan Zhang, Donghong Ji

文章非常自然地用event structure 和 information 去 tradeoff 了 extractive-based method 和 abstractive-based method 的優(yōu)缺點。關(guān)于這兩種方法,這篇論文的 related work 寫得很好,可以看一下(related wok 和 Background 都有)。

論文的思想是說,我們 event structure 就涵蓋了非常 informative 的有利于 summarization 的東西。一個 event 被定義為一個 tuple。我們先 extract 全部的 event tuple,再做 generation。無論是 event tuple 還是 generation,這個工作都很妙。妙就妙在,event 的 structure 幾乎涵蓋了上面那篇 ACL'15 的 NP 和 VP 的信息(見Section 3.1.1),并且,更好的地方在于,它可以利用 event tuples 中的第二個元素,predicate 進(jìn)行去重。這個就是利用了 event 這種 tuple 的數(shù)據(jù)結(jié)構(gòu),抓了 dependency parsing 的結(jié)果,用其中 NSUBJ 和 DOBJ relation 去處理 NP VP。

Section 3.1.3 就是很自然地 graph-based summarization 的常用思想,word event 不是一個 alignment pair 么,這種時候大招就是——A should be more important if it occurs in more important B. And verse visa. 所以我就把 event 和 words (in the lexical chains)聯(lián)系起來了。

所以直到這一步都可以看出,是 event 這種 tuple 結(jié)構(gòu)幫了大忙了。而作者也意識到了這點,他自己就認(rèn)為 tuple 這個結(jié)構(gòu)式一種很好的 tradeoff between extractive and abstractive,又比 abstractive 純 Phrase-based 的多一些 grammatical 的 information,又可以減輕 extracitve 的 sparse 問題(見 Introduction)。

1. How Far are We from Fully Automatic High Quality Grammatical Error Correction?

Christopher Bryant and Hwee Tou Ng

出發(fā)點很好,就是用 human evaluation 做了 agreement 的評價。發(fā)現(xiàn)人都做不到 90% 以上,所以我們不能要求機器翻譯應(yīng)該做到……

2. Efficient Methods for Inferring Large Sparse Topic Hierarchies

Doug Downey, Chandra Bhagavatula, Yi Yang

我覺得他的賣點就依然在于 hierarchy,并且看起來能解決 hierarchy model 的 efficiency 的問題。這篇文章即使也是 pre-defined topic/structure,但是它給出了一種 expansion,就是用已經(jīng)學(xué)好的一個他的 hierarchical 模型,去作為“seed”,學(xué)新的。提速。而且我認(rèn)為也是符合認(rèn)知的。

接下來說說這文章中,重點攻擊的倆模型,和他自己的區(qū)別。由區(qū)別就可以看出為啥他快。LDA 作為一種最廣泛應(yīng)用的 topic model,簡潔有效是不用說的。但是無論是 LDA 還是一些變種 LDA,他們最大的問題是,那個概率假設(shè)。要滿足 topic 和 topic 之間是獨立的(并不是合1的那個假設(shè)有問題)。這個 topic 和 topic 之間獨立,帶來的問題是,數(shù)據(jù)量不夠時,topic 定多的時候,就會學(xué)出很多非常 general,nonsensical 的 topic,

對應(yīng)于中文就是“我,的,我們,一個,一個人,生活”這類。這也是為啥 LDA 不 hierarchical 的原因(hierarchical LDA 也沒打破這個假設(shè))。所以,第一個重點區(qū)別就是,PAM 和這個論文里的 SBT 都是打破這個假設(shè)的,都是可以 modelling correlations between topics 的。那么 SBT 和 PAM 的區(qū)別是什么呢,就是它用的那個名字復(fù)雜和 fancy 的 tree prior 了。這種 prior 的 motivation 在我看來還是在 prior 的階段,就去假設(shè)這種 hierarchy,從而在 sampling 階段可以“recursive”。細(xì)節(jié)上來說,就是使得 sampling 的時候,topic 的 coherence 會更大。不會亂 sampling。會更傾向于 draw 相關(guān)的 topic。

3. Jointly optimizing word representations for lexical and sentential tasks with the C-PHRASE model

Nghia The Pham, Germán Kruszewski, Angeliki Lazaridou, Marco Baroni

基于 CBOW 的改造模型,作者的出發(fā)點是——既然 CBOW 可以基于 contexts 中的 words combination(ngram)來預(yù)測中心詞,我們應(yīng)該可以找出一種方法,使得 contexts 不再是簡單的自然 combination,而是符合 linguistic rule 符合 syntax 的 combination。

4. Co-training for Semi-supervised Sentiment Classification Based on Dual-view Bags-of-words Representation

Rui Xia, Cheng Wang, Xin-Yu Dai, Tao Li

這篇文章的出發(fā)點很有趣——自制反例!在 sentiment 相關(guān)的任務(wù)中,由于數(shù)據(jù)稀疏性,可能會使得正負(fù)向情感詞沒有出現(xiàn)在 training instances 中,這時候我們可以通過自制反例來減少這種稀疏性。具體時,用 lexical rules 來匹配出一些情感詞,然后把 sentiment 的 label 反轉(zhuǎn),0變1,1變0,從而得到對應(yīng)的負(fù)例。

然后,正例和負(fù)例分別進(jìn)入兩個 view,便是 cotraining。和作者聊,Rui Xia 老師認(rèn)為這種方法只能用在 sentiment 這種可以把 label 變負(fù)的問題上。

5. A Hierarchical Neural Autoencoder for Paragraphs and Documents

Jiwei Li, Thang Luong, Dan Jurafsky

作者驗證了 LSTM 變成 hierarchical 架構(gòu)的可行性,給出了幾種直觀的改造方案。第三種是基于 attention machenism 進(jìn)行的 partial part alignment 的 LSTM。經(jīng)過 hierarchical 改造的 LSTM 可以進(jìn)行 sentence - paraphrase - document 的多層次表達(dá)。

6. A Re-ranking Model for Dependency Parser with Recursive Convolutional Neural Network

Chenxi Zhu, Xipeng Qiu, Xinchi Chen, Xuanjing Huang

這個論文最大的貢獻(xiàn)是,他們把以前 Socher 提出的用原始 RNN 做 compositional 這種 relation 的 方法,給改良了??梢圆辉僦荒?model binary composition 了,可以 triple even more 了。具體可以見 Section 4 開始的那段寫的,就是一個 constituent parsing vs. dependency parsing 的問題。這個是他這個論文最大的貢獻(xiàn)。variant of RNN to handle more-than-two units of composition。

另外,distance embedding,in Section 3.1,用 [-2,2] 這種 relative position 直接作為 feature,然后直接 concatenate 到 embedding vector 里(見 Equ. 4)。方法取自The best paper in COLING 2014,《Relation Classification via Convolutional Deep Neural Network》。

7. Cross-lingual Dependency Parsing Based on Distributed Representations

Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, Ting Liu

作者利用雙語對應(yīng)信息,分別采用 alignment 和 CCA 的方法融合到了傳統(tǒng) NN-based dependency parsing 中去。其中 alignment 方法是允許 one-to-many relation 的 alignment 的,而 CCA 則只是 one-to-one。

8. A Unified Multilingual Semantic Representation of Concepts

José Camacho-Collados, Mohammad Taher Pilehvar, Roberto Navigli

作者簡直是在這個 word semantic representation/ word semantic disambiguation 上苦心修行多年:http://wwwusers.di.uniroma1.it/~navigli/pubs_by_cat.html。即使是在今年,也在 WWW/TACL/NAACL 上都分別發(fā)表了相關(guān)工作。2013 年的這個工作的前身還被提名為 ACL best paper 候選。

先說一下和這篇 paper 相關(guān)的幾個工作:

Socher 2013a, Bilingual Word Embeddings for Phrase-Based Machine Translation,

Guo 2014, Learning Sense-specific Word Embeddings By Exploiting Bilingual Resources

NAACL 2015, Deep Multilingual Correlation for Improved Word Embeddings

NAACL 2015 (與本文同一作者), Simple task-specific bilingual word embeddings

Socher 2013a 的工作應(yīng)該是第一個提出把雙語映射的(不敢肯定)到同一個空間的——去學(xué)一個共同的 word embedding space。這個思想后來也算是被發(fā)揚到 text/image pair,各種各種吧。這個工作的結(jié)果還是很不錯的,簡略的介紹可以看當(dāng)時神童的一篇博文:http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/

那么后來的工作其實分為了兩個 step,第一個 step 其實是,我們用 multi-lingual(multi-resource)去(1)增強 word representation 的表達(dá),和(2)我們?nèi)ピ鲞M(jìn)更細(xì)致的 concept 的表達(dá)(disambiguation)。

關(guān)于(1),除了 Socher 2013a 的工作, NAACL'15 的 Deep 那篇,也是用雙語增進(jìn)表達(dá)——這里他們是基于 CCA/DCCA 的假設(shè),把 MT pair 作為 CCA/DCCA 的輸入(CCA 就是之前講的那兩篇 model-based ACL'15 和 NIPS 的工作里的 CCA)。這篇主要認(rèn)為 DCCA 作為一種 nonlinear subspace 的 transformation,要更加優(yōu)于 CCA 這種 linear transformation。

關(guān)于(2),比如 Guo 2014 的工作,可以看他的 paper 里的 Table 1,一目了然?;?MT 的 alignment model,去一步步剔除/選擇想要的 cluster——把一詞多義分進(jìn)多個 cluster。

接下來來說本文這篇,A Unified Multilingual Semantic Representation of Concepts,它也是為了(2)服務(wù)的——去學(xué)一種 concept 的 embedding,其實就是把一詞多義的 word 的不同 sense 認(rèn)為是一個 concept。但是他不同的地方是什么呢,他不僅是用了 multilingual,還用了 external information——Wikipedia。而且它討巧的一點在于,它不是選擇 translation pair,而是用了一個“純天然”的 multilingual synset database:Babelnet——http://babelnet.org/ 這玩意號稱是整合了 WordNet 和 Wikipedia 等,直接使得每個它里面的 concept 有多種語言中的 synset word。這樣他們就有起點了!也就是說,他們用這些 synset words 和 concept,再去遵循一定規(guī)則,去爬 Wikipedia,去增進(jìn)他們的語義 corpus。

工作做的很 linguistic,但是有個東西挺有趣(除了那個 Babelnet),就是他們在 Section 3.1 中用到的 similarity metric。并不是大家常用的 consine or Haiming,而是 square-rooted Weighted Overlap(WO),孤陋寡聞的我還是第一次聽說 orz——他們工作里說這玩意已經(jīng)被證實比傳統(tǒng)的 cosine 好。基于這個 WO metric(for vector representations of words),兩個 word 之間的 similarity 還得再有個轉(zhuǎn)換(公式3)。

開完 ACL 2015 大會,選了自己感興趣的幾十篇論文,大部分是自己已經(jīng)讀過的,做了一些概述。相信里面有很多錯誤,歡迎指正。另外,圖文并茂版本在公眾號查看,長微博復(fù)制圖片也許有很多錯誤顯示不出來。

1. Dependency-based Convolutional Neural Networks for Sentence Embedding

Mingbo Ma, Liang Huang, Bowen Zhou, Bing Xiang

黃亮老師二作的論文,一作學(xué)生主講。講的非常非常清晰。語速快,擲地有聲,slides 的可視化輔助理解。思想非常 straightforward,不再是簡單的 sequential Convoluational NN,而是利用 dependency 的 relation,進(jìn)行 Convolutional。這樣的思想有點像改造 CBOW/Skip-Gram 時融入 dependency relation information。

2. A Unified Learning Framework of Skip-Grams and Global Vectors

Jun Suzuki and Masaaki Nagata

一篇思想上希望從數(shù)學(xué)(Machine Learning)角度把 SkipGram (with negative sampling,SGNS)和 GloVe 囊括在一個框架下的論文。但是論文比較有爭議的地方在一起,他們使用的兩個模型的公式少了 bias 項。從某種程度上并不能算一個完全精確的囊括。

3. Distributional Neural Networks for Automatic Resolution of Crossword Puzzles

Aliaksei Severyn, Massimo Nicosia, Gianni Barlacchi, Alessandro Moschitti

很有趣的一個任務(wù),拼字游戲。作者同時公開了數(shù)據(jù)集。在 presentation 的時候做了一個小游戲,給出了四個 information,讓大家猜一個詞——最后猜出來是 Tux 小企鵝。事實上拼字游戲并沒有想得那么簡單。他們的模型中比較特殊的一點是,把兩個 input unit 的 similarity 算出來后,會繼續(xù)把 input unit x,input unit y,similarity 和其他 feature 一起 embedding 在同一層里。

4. A Dependency-Based Neural Network for Relation Classification

Yang Liu, Furu Wei, Sujian Li, Heng Ji, Ming Zhou, Houfeng WANG

本文有兩個貢獻(xiàn),首先提出了一種新的 dependency relation 相關(guān)的 path——ADP,Augmented dependency path。ADP 不僅包含了經(jīng)典 relation classification 中的 dependency shortest paths,還包括了 path 相關(guān)的 subtrees。第二個貢獻(xiàn)便是基于 ADP,改造了一種 Recursive NN 的模型,叫 DepNN。

1. Machine Comprehension with Discourse Relations

Karthik Narasimhan and Regina Barzilay

MIT CSAIL 出品。開源。是一篇很 neat 的論文,而且不是 NN。這篇文章的賣點是:discourse information + less human annotation所以他們的 model,可以使用 discourse relation(relations between sentences, learned, not annotated) 去增強 machine comprehension 的 performance。具體的,他們先使用 parsing 等方法,去選出和 question 最 relevant 的一個句子(Model 1)或者多個句子(Model 2 和 Model 3),并在這個過程中建立 relation,最后預(yù)測。思想都是 discriminative model 的最簡單的思想,找 hidden variable,概率連乘。如果對本文有興趣,推薦看 Section 3.1,討論了一下他們認(rèn)為這個 task 上可能相關(guān)的四【類】feature。

2. Model-based Word Embeddings from Decompositions of Count Matrices

Karl Stratos, Michael Collins, Daniel Hsu

首先推薦所有對 word embeddings 或者 low-dimensional lexical representation 有興趣的童鞋讀本文。本文主要是想從數(shù)學(xué)角度理解 word embedding,并想提出一種 template 去滿足我們的 embedding 目標(biāo)(其實只是降維)。

如果可以提出一種可以減少像 negative sampling derived word embeddings 中的 estimation error(即提高 estimation 準(zhǔn)確度,但依然是 estimation),就可以提高 word embedding 的 performance。

于是本文從 CCA (用來求解 word similarity evaluation 中 Pearson ranking 的)入手,強調(diào) CCA 是可以用來優(yōu)化兩個 vector,使得它們最大相關(guān)化(這不就是 context-based model 的假設(shè)么?the famous quote, You shall know a word by the company). 然后想把 corpus 中,central word 和它周圍的 context words 構(gòu)成這樣的兩個 vector(其實是 vector pairs,假設(shè)中心詞是 c, 窗口大小是 K,那么就會有 2K 個pair 的vectors),就弄成這個 CCA 的優(yōu)化里。但是這顯然很耗費計算量。又通過各種 lemma 加觀察,開始轉(zhuǎn)化近似求解(當(dāng)數(shù)據(jù)量大的時候)。近似求解之后的求解公式就聯(lián)系到了用 CCA 做 parameter estimation,spectral estimation。由此提出了 spectral template for word embeddings。并且還把已經(jīng)提出的對于 word embeddings 的拆解方式(如Levy 的 PPMI),都”歸“進(jìn)了它這個 template 里(Section 5,F(xiàn)igure 2)。然后做了實驗。所以我覺得它們是通過另一種數(shù)學(xué)角度,把 word embedding 整件事給從 estimation error 的角度做了優(yōu)化(直接把 negative sampling derived word embeddings 當(dāng)靶子,而不是試圖解釋這個東西),也算是做了更進(jìn)一步的事情。

鑒于 ACL'15 這篇,也引用了 NIPS'11 的。我先把它在引用時,自己的 comment 的貼出來:

Dhillon et al. (2011) and (2012) propose novel modifications of CCA (LRMVL and two-step CCA) to derive word embeddings, but do not establish any explicit connection to learning HMM parameters or justify the squareroot transformation.

看完論文的我,還是覺得這話說的很中肯的。下面我來對比一下這兩篇論文:

1. 首先 ACL'15 這篇不僅僅包括 NIPS'11,所以以下對比只強調(diào)它延續(xù) NIPS'11 的工作的內(nèi)容。

2. 在 NIPS'11 中,作者所謂的 Multi-View,其實是,左 contexts L,右 contexts R,當(dāng)前 target word W。三個 contexts。以及作者不是很強調(diào)的 previous and future view(HMM中的 hidden state)。用兩部分來理解,L、R、W,其實是綜合考慮上下文信息,這沒的說;而 previous 和 future view,則是利用 HMM 的 state 假設(shè)(在 learning 過程中,這個 state 大概迭代 5-7 次)。

3. NIPS'11 把 HMM 的假設(shè)搞到 word representation 里,其實也沒什么新鮮的。但是我認(rèn)為這個 HMM 中假設(shè)和學(xué)到的 hidden state 和我們的 word embedding 還是不同的,雖然都是 low-rank/dim 的表達(dá),但是 hidden state 可以進(jìn)一步被用來學(xué)習(xí) context-specific 的 word embedding。也就是說 word embedding 是一種結(jié)果,一種 projected result,hidden state 是一種 learning method,一種 projection。(這里只是我的理解)

4. NIPS'11 于是實際上,是用 CCA 先學(xué)出了 L,R 在 hidden state 假設(shè)下的一個降維后的 A,再用這個 A 去第二次使用 CCA,和 W 計算——所以是兩個步驟,兩次 CCA。作者有討論,如果當(dāng)我們是 infinite corpus 的情況,我們其實可以等價為一步到位的 CCA。但是當(dāng)我們的 corpus 符合 Zips' Law 的時候,我們這樣分兩步走,才是更準(zhǔn)確的。

5. 而 ACL'15 這篇,可以說,ACL'15 = NIPS'11 + Stratos (2014) + strict condition (squaredroot transformation)。就是說,它把在 strict condition 下,applied Stratos (2014) to NIPS'11。使得滿足了他所說的“establish any explicit connection to learning HMM parameters or justify the squareroot transformation”,這部分就是 ACL'15 中 Section 4 的內(nèi)容。

6. 當(dāng)然,為此,ACL'15 和 NIPS'11 的切入點/行文邏輯順序就不一樣,NIPS'11 就是告訴大家, CCA 可以學(xué) low-rank,為了達(dá)到這個目的,我們需要滿足什么假設(shè),運用什么技巧;ACL'15 則是說,CCA 可以做我們知道,but CCA 還可以理解為一種 parameter estimation for HMM(Section 4.1 開篇),啥叫 parameter estimation 呢,在這 estimation 角度來講,我們其實只是要找一個矩陣 O——可是這個矩陣 O 啊,最好要達(dá)到倆性質(zhì),這倆性質(zhì)我們就需要兩個額外的技巧才能滿足。

7. 具體舉個例子來講,NIPS'11 中 exponential smooth,是為了 low-rank 的 L,R 表達(dá)服務(wù)的,很自然地引入,以一種 smooth 的角度;ACL'15 中 exponential smooth 則是以一種為了滿足 O 的性質(zhì),我們要這樣做的 explicit proof 角度引入的。

8. NIPS'11 是 convex 的,直接求解,沒 local optimal 問題;ACL'15 是 non-convex 的(Stratos 2014 的工作是 non-convex 的因為),所以有點麻煩。

3. Entity Hierarchy Embedding

Zhiting Hu, Poyao Huang, Yuntian Deng, Yingkai Gao, Eric Xing

4. The Users Who Say 'Ni': Audience Identification in Chinese-language Restaurant Reviews

Rob Voigt and Dan Jurafsky

5. PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification

Ellie Pavlick, Pushpendre Rastogi, Juri Ganitkevitch, Benjamin Van Durme, Chris Callison-Burch

推薦只是因為 poster 做的太有個性……

6. Non-distributional Word Vector Representations

Manaal Faruqui and Chris Dyer

7. A Hierarchical Knowledge Representation for Expert Finding on Social Media

Yanran Li, Wenjie Li, Sujian Li

作者通過層次化模型,將新浪微博上的每個用戶的全部帖子表達(dá)成其層次化的知識結(jié)構(gòu)——并用來和不同領(lǐng)域的專家的知識結(jié)構(gòu)進(jìn)行對比,從而判斷這個用戶是否是某個領(lǐng)域的專家。具體上,建立知識結(jié)構(gòu)的過程使用了 Pachinko Allocation Model,不同于 LDA,這樣的 model 放寬了 LDA 的 topic 之間是獨立的假設(shè),從而可以進(jìn)行層次化建模。在進(jìn)行結(jié)構(gòu) matching 的過程,基于 edit-distance,tree 上的編輯距離,改造了 approximate tree matching 算法,融入了 word embedding 的 semantic matching——從而提升了效果。

8. Learning Summary Prior Representation for Extractive Summarization

Ziqiang Cao, Furu Wei, Sujian Li, Wenjie Li, Ming Zhou, Houfeng WANG

傳統(tǒng)的框架是,兩步走,先有一個 sentence ranking 的過程,再用 ranking score 去做第二步的 sentence selection。這兩步基本都是 feature-based。所以過去的工作多數(shù)是在 feature 上做文章,各顯身手。這篇論文在 ranking 的過程套用了一個 CNN,提升了效果。

開完 ACL 2015 大會,選了自己感興趣的幾十篇論文,大部分是自己已經(jīng)讀過的,做了一些概述。相信里面有很多錯誤,歡迎指正。另外,圖文并茂版本在公眾號查看,長微博復(fù)制圖片也許有很多錯誤顯示不出來。

1. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

Kai Sheng Tai, Richard Socher, Christopher D. Manning

思想很簡單,就跟昨天說的黃亮老師組把 sequential CNN 變成 基于 dependency relation 的 CNN 一樣,這篇就是把 sequential LSTM 變成了 Tree-Structured LSTM。

2. genCNN: A Convolutional Architecture for Word Sequence Prediction

Mingxuan Wang, Zhengdong Lu, Hang Li, Wenbin Jiang, Qun Liu

這篇論文基本是用好幾個 CNN 模擬 RNN,然后加上了 shared weight/ no shared weight (two feature maps), 做的工作,效果不錯。

3. Abstractive Multi-Document Summarization via Phrase Selection and Merging

Lidong Bing, Piji Li, Yi Liao, Wai Lam, Weiwei Guo, Rebecca Passonneau

他們的 main idea 是把 abstrative summarization 這件事,建立在對于 phrase 的 extract 和 combine 上。基本單元是 phrase。而且由于他們有兩個 observation,認(rèn)為 NP phrase 主要表示了 concept,VP phrase 主要表示了 fact。所以他們的工作只集中于抽取這兩種 phrase,并基于他們來做 abstractive summarization。所以他們的 framework 分為三個部分——phrase extraction,phrase salience scoring and sentence generation as an optimization problem (simultanously),postprocessing。我感覺還是很直觀的。所有的評價和選擇都是基于 phrase 這個 unit,然后把 sentence generation 作為一個 optimization 的問題來處理。三個部分都有許多 heuristic,但看起來并不覺得很 dirty。最后 evaluation 部分的第二個部分,用 DUC 那五個方面,grammaticality, non-redundancy, referential clarity, focus and coherence 來評價。不知道是否已經(jīng)是“標(biāo)配”。最后我感覺他的 introduction 寫的很好,但是把 extractive 中的 compression-based 單提出來當(dāng)?shù)诙惙椒?,可能有點另類。

4. Deep Unordered Composition Rivals Syntactic Methods for Text Classification

Mohit Iyyer, Varun Manjunatha, Jordan Boyd-Graber, Hal Daumé III

idea 很簡單很簡單很簡單(有點像 SIGIR'15 的 HRM 的架構(gòu)),就是deep averaging network——DAN。那用這個 DAN 做啥捏——他們是說,你們 ReNN(RecNN,作者是這么叫,但我記得我好像看到的 Socher 是叫 ReNN),就是 recursive NN,可以 handle 特別復(fù)雜的 syntactic + ordered 的 composition 關(guān)系——negation 啊 那些句法特征都可以 handle 進(jìn)來。然并卵呀,你太復(fù)雜啦,你為了能提高準(zhǔn)確性,在 ReNN 的每個 node 都要加個 classifier 來監(jiān)督,每個 node 還都有不同的計算——你訓(xùn)練太慢啦。有沒有可能你就是殺雞焉用宰牛刀???

于是乎作者就搞了這么個 simple but useful 的架構(gòu)。每個 sentence input 的時候,都是按詞為單位,并且 input unit 是每個詞的 word embedding。然后直接 average——作者表示,在以前的工作中大部分人認(rèn)為 average 比 sum 效果好。這是簡單的 neural bag of words——NBOW。然后再變 deep——反正 deep FFNN 的思想就是我每 deep 一層,就更 abstract 嘛。然后實驗證明,這樣的 deep averaging (DAN)真的幾乎和 ReNN 無差別噢,訓(xùn)練速度和 單層 NBOW 幾乎無差別呢。雖然任務(wù)很簡單,是 text classification。但是實驗后面的分析很不錯。有興趣的就直接看看那個 Figure 架構(gòu)和 Section 5 就好了。

今年的 Best Student Paper 得主是來自慕尼黑大學(xué)的 Sascha Rothe 和其老師 Hinrich Schutze 的工作,《AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes》。

論文看起來也不是很順暢。主要是概念有點多,重新組織一下:

論文想探究的是三種data type,word, synset, lexeme,這三種 data type 都常見于 Lexical Resources,比如 WordNet,F(xiàn)reebase, Wiktionary 等等。作者想通過他們在 這種 resources 中的關(guān)系,來作為 constraints,去把 word embedding,synset embedding, lexeme embedding 一起學(xué)在同一個空間里。同時,論文基于我們?nèi)魏我延械?word embedding,和任何已有的 resources,不需要額外的 training corpus,就可以得到 synset, lexeme embedding。

先來說三種 data type:

word,不用說了。synset,一組同義詞,由多個與不同 word 有關(guān)的 lexeme 組成;lexeme,不知道中文叫啥,反正既有一詞多義的意思,也有一詞多種形態(tài)的意思(syntactic)。具體舉例可以見 Section 2 的第二段。

基于三種 data type,作者給出了兩個 motivation 和 兩個 observation 和兩個 assumption(都是一個東西):

A word in WordNet can be viewed as a composition

of several lexemes. Lexemes from different

words together can form a synset. When a synset

is given, it can be decomposed into its lexemes.

And these lexemes then join to form words. These

observations are the basis for the formalization of

the constraints encoded in WordNet that will be

presented in the next section: we view words as

the sum of their lexemes and, analogously, synsets

as the sum of their lexemes.

然后這個東西就可以用來做 constraints 了,就是公式(1)(2),也是 Figure 1 架構(gòu)的主要順序。word->lexeme->synset->lexeme->word.

除了這倆 motivation 和 這倆 constraints,作者還有第三個 motivation 和 第三個 constraints:

Section 1 中的,認(rèn)為

The next thing to notice is that this does not only work for words that combine several properties, but also for words that combine several senses. The vector of suit can be seen as the sum of a vector representing lawsuit and a vector representing business suit. AutoExtend is designed to take word vectors as input and unravel the word vectors to the vectors of their lexemes. The lexeme vectors will then give us the synset vectors

而 constraints 第三個則是基于 resources 的性質(zhì),在 Section 2.4,用于解決的是當(dāng) word 沒有 synset 時的問題。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 看完今天晨讀內(nèi)容的第一故事,就能想到自己,自己懶真的不能怪別人。 你的生活狀態(tài)自己是否喜歡? 你的工作狀態(tài)自己...
    Miss墨菲閱讀 456評論 0 0
  • 我是貴州人,出生在農(nóng)村,小時候可以無憂無慮的去上學(xué),去玩,直到漸漸長大。 當(dāng)我知道了錢的重要性,那時候我16歲...
    帥氣的小梁閱讀 444評論 1 6
  • 行高值和垂直的方向的約束有關(guān),約束是 從上到下區(qū)定義的,自動計算行高的時候,要有一個底部的一個約束,可以理解為上下...
    吖幾角閱讀 633評論 2 3
  • 第二天,沈凡接到欣月,邊走邊聊。沈凡心里始終惦記那個問題。這時,他的電話響了。他拿出手機一看是沈非打來的。接起來叫...
    梁繼申閱讀 327評論 0 0

友情鏈接更多精彩內(nèi)容