劉兵《Entity and aspect extraction for opinion mining 》筆記

轉(zhuǎn)載請聲明出處。
到這里才發(fā)現(xiàn)簡書不支持Mathjax,真蛋疼,要看公式的話還是到我的博客上看,留言就在這里留吧,我的博客沒有弄留言。地址是http://chenyutong.win/2016/10/17/Entity-and-aspect-extration-for-opinion-mining/

這是一本書的一個(gè)章節(jié)(49頁),書名叫《Data mining and knowledge discovery for big data》2014年Springer出版。

Introduce

介紹了一些Opinion Mining的背景,這里不說。

survey book:

  1. Pang and Lee(2008)
  2. Liu(2012)

三種粒度:篇章級、句子級、方面級

篇章級:篇章級情感分類可能是最廣泛的研究問題。
句子級:對文檔的單個(gè)句子進(jìn)行情感分類,但不是每個(gè)句子都包含意見的。所以第一個(gè)任務(wù)就是判斷句子是否包含意見,被稱為『主觀性分類』。
方面級:篇章級和句子級雖然有許多應(yīng)用場景,但是一個(gè)被分為正向的句子中,并非所有aspect都是正向的。所以需要細(xì)化到aspect。

"Aspect-based opinion mining"第一次在Hu and Liu(2014)被提出,當(dāng)時(shí)叫"Feature-based opinion mining"。
它的基本任務(wù)是提取和概況人們表達(dá)的實(shí)體和方面的意見,包含三個(gè)核心子任務(wù):

  1. 識別和提取實(shí)體
  2. 識別和提取實(shí)體的方面
  3. 計(jì)算實(shí)體和實(shí)體方面的情感傾向

"I brought a Sony camera yesterday, and its picutre quality is great." 它的asepct為picture quality,實(shí)體為Sony camera。
本章節(jié)針對這兩個(gè)任務(wù)進(jìn)行展開。
一些研究者用feature和object表達(dá)aspect和entity,也有一些研究者不區(qū)分aspect和entity,直接看作opinion target。

Aspect-based Opinion Mining Model

Model Concepts

Defintion: entity

一個(gè)entity可以是產(chǎn)品、服務(wù)、事件、組織或者話題。它關(guān)聯(lián)著一個(gè)pair, e:(T,W): T為組件(components(or parts))的層級結(jié)構(gòu), W為e的屬性(attribute)。每個(gè)component或者sub-component也有它自己的屬性>

例子:entity iPhone 有一系列component(如battery和screen)和一系列attribute(如voice quality、size和weight)battery組件也有它自己的屬性(如bettery life和battery size)

該定義可以表達(dá)為一棵樹。

Definition: aspect and aspect expression

在實(shí)戰(zhàn)中,簡化該定義經(jīng)常是有效的,因?yàn)閚lp很難,學(xué)習(xí)層級結(jié)構(gòu)更難。所以,我們簡化和摧毀樹結(jié)構(gòu)到兩級結(jié)構(gòu),用aspects來表達(dá)components和attributes。在簡化的樹中,根節(jié)點(diǎn)為entity,二階節(jié)點(diǎn)為aspect。

aspect expression 是一個(gè)在文本中出現(xiàn)的實(shí)際單詞或短語。
它經(jīng)常為名詞或名詞短語,但也有動詞、動詞短語、形容詞、副詞。
我們把句子中的以名詞或名詞短語形式出現(xiàn)的aspect expression成為explicit aspect expression。其他形式就成為implicit aspect expressions。implicit較為復(fù)雜。

Definition: entity expression

entity expression是出現(xiàn)在文本中指示一個(gè)特定entity的實(shí)際單詞或短語。

Defintion: opinion holder

表達(dá)意見的人或組織,經(jīng)常被稱為opinion sources

Definition: opinion

opinion有兩個(gè)主要類型:regualr opinions和comparative opinions(Liu, 2010;Liu,2012)

五元組:
$(e_i,a_{ij},oo_{ijkl},h_k,t_l)$

當(dāng)一個(gè)意見描述entity整體,一般aspect用GENERAL表達(dá)。

Model of entity

entity $e_i$可以用整體和一個(gè)有限的aspect集合$A_i={a_{i1},a_{i2},…,a_{in}}$表達(dá)。
entity可以用一個(gè)entity expression集合來表示,$OE_i={oe_{i1},oe_{i2},…,oe_{is}}$
每個(gè)aspect $a_{ij} \in A_{id}$可以用一個(gè)aspect expression集合表示,$AE_{ij}={ae_{ij1},ae_{ij2},…,ae_{ijm}}$

Model of opinionated document

一篇包含意見的文檔d包含來自意見持有者集合${h_1,h_2,…,h_p}$的關(guān)于實(shí)體集合${e_1,e_2,…,e_r}$的意見。
每個(gè)實(shí)體$e_i$的意見可以用entity本身和aspects $A_{id}$表達(dá)。

Objective of opinion mining

目標(biāo)是挖掘Document中的五元組

Aspect-based Opinion Summary

Aspect Extration

aspect extaction和entity extration都?xì)w屬于信息抽取,目標(biāo)都是從無結(jié)構(gòu)文本中自動抽取結(jié)構(gòu)化信息。但是傳統(tǒng)的信息抽取技術(shù)經(jīng)常是應(yīng)用于正式文本(新聞、論文等),對于opinion mining application就有困難。我們目標(biāo)是從包含意見的文檔中抽取細(xì)粒度的信息(reviews, blogs and forum discussions),其中包含著大量的噪音和有著獨(dú)特的特征。所以,設(shè)計(jì)針對于opinion document的抽取算法是有必要的。

當(dāng)前的研究主要基于在線評論,通常有兩種格式:

  1. Pros, Cons and the detailed review,如某些手機(jī)網(wǎng)站
  2. Free format

本文主要針對格式2。

Extraction Approaches

這里只介紹近年(2014)aspect抽取的主要方法。
正如前面所說的,aspect有兩種類型:explicit和implicit。我們先討論explicit。
我們把現(xiàn)有的提取方法分類三個(gè)主要類型:

  1. language rule
  2. sequence models
  3. topic models

Exploiting Language Rules

基于語言規(guī)則的系統(tǒng)在信息抽取領(lǐng)域有著很長的使用歷史。這些規(guī)則基于上下文模式,獲取文本中一個(gè)或多個(gè)terms的不同特性或特性。在評論中,我們使用aspects和opinion word或其他詞語之間的語法關(guān)系來推導(dǎo)提取規(guī)則。

Hu and Liu(2014)第一個(gè)提取使用關(guān)聯(lián)規(guī)則來提取aspects,主要步驟:

  1. 找出頻繁名詞和名詞短語作為frequent aspects
  2. 使用aspects和opinion words的關(guān)系來識別非頻繁的aspect。

使用frequent名詞和名詞短語作為aspect簡單有效

Blair-Goldensohn et al.(2008)通過考慮有情感的句子中的名詞短語或指示情感的一些句法模式來改進(jìn)算法。幾個(gè)過濾方法被應(yīng)用來移除不像的aspect,例如,移除那些附近沒有已知情感詞的aspect。
基于frequency的思路后來也被應(yīng)用。(Popescu and Etzioni, 2005; Ku et al., 2006; Moghaddam and Ester, 2010; Zhu et al., 2009; Long et al., 2010).

用改進(jìn)的opinion word和aspect關(guān)系來提取aspect的思路可以被歸為使用依存關(guān)系。
Zhuang et al.(2006)使用依存關(guān)系來從影評中提取aspect-opinion pairs。
Wu et al.(2009)用了一個(gè)短語依存句法分析工具來提取名詞短語和動詞短語作為aspect候選。與一般的依存句法分析工具不同,短語依存句法分析工具識別短語的依存關(guān)系。Kessler and Nicolov(2009)也用了依存關(guān)系。

Wang and Wang(2008)提出了一個(gè)同時(shí)識別aspect和opinion word的方法。給定種子opinion words,用bootstrapping的方法來交替識別aspect和opinion word。互信息(mutual information)被應(yīng)用于衡量潛在aspect和opinion word的關(guān)聯(lián)程度。另外,語言規(guī)則被用于識別非頻繁的aspects和opinion words.類似的bootstrapping思路也在Hai et al.(2012)提出。

Double propagation(Qiu et al.,2011)進(jìn)一步發(fā)展了前面的思路。像Wang and Wang(2008),該方法只需要一個(gè)初始的種子opinion words。它觀察到意見幾乎都是有target的,而且句子中的aspect和opinion word有自然的關(guān)系,因?yàn)閛pinion word用來修飾target。此外,它發(fā)現(xiàn)opinion words之間有關(guān)系,aspects也是。所以,opinion words可以通過已識別的aspect來識別,aspect也可以通過已識別的opinion word來識別。已抽取的opinion word和aspect可以用來識別新的opinion word和aspect。這個(gè)傳播過程執(zhí)行到不在有新的opinion word和aspect被發(fā)現(xiàn)。因?yàn)檫@個(gè)過程包含opinion word和aspect,所以叫double propagation。抽取規(guī)則根據(jù)opinion word和aspect之間的不同關(guān)系來設(shè)計(jì)。

Double Propagation方法在中等大小的語料中有效,但是對于大的或者小的語料,它可能會造成低precision和低recall。原因是基于直接依存關(guān)系的規(guī)則在語料中有很大幾率引入噪音,而對于小語料來說,規(guī)則太局限。為了克服這些缺點(diǎn),Zhang et al.(2010)擴(kuò)展了double propagation。它包括兩步:aspect extraction和aspect ranking。對于aspect extraction,依然使用double propagation。但是,引入了一些新的語言模式(e.g.,part-whole關(guān)系規(guī)則)。提取之后,它將候選aspect根據(jù)重要性排序,考慮兩個(gè)主要因素:aspect candidate和aspect frequency。前者描述了一個(gè)候選aspect多像一個(gè)真實(shí)的aspect,有三個(gè)線索:第一個(gè)就是aspect經(jīng)常被多個(gè)opinion word修飾;第二個(gè)是aspect可以用多個(gè)part-whole規(guī)則提取,比如,在car領(lǐng)域,"the engine fo the car"和"the car has a big engine",我們推斷"engine"是car的一個(gè)aspect;第三個(gè)是aspect可以用opinion word修飾關(guān)系、part-whole關(guān)系和其他語言規(guī)則聯(lián)合提取。如果一個(gè)aspect不僅被opinion word修飾,而且通過part-whole提取,我們可以推斷他是一個(gè)有著high confidence的真實(shí)aspect,比如"there is a bad hole in the mattress",它強(qiáng)烈地指示了"hole"是mattress的一個(gè)aspect,因?yàn)樗?bad"修飾和在part-whole關(guān)系里。此外,在opinion words、linguistic pattern和aspect之間有一些互相加強(qiáng)的關(guān)系。如果一個(gè)形容詞修飾多個(gè)真實(shí)aspect,它就很可能是一個(gè)good opinion word。類似地,如果一個(gè)候選aspect通過許多opinion words和linguistic pattern提取出來,它就很可能是一個(gè)真實(shí)aspect。所以Zhang et al.用HITS算法(Klernberg, 1999)來衡量aspect relevance。Aspect Frequency是影響aspect ranking另一個(gè)重要因素。

Liu et al.(2012)也利用了opinion word和aspect的關(guān)系來提取。但是他們把a(bǔ)spect和opinion word之間的opinion relation identification看作是詞對齊任務(wù)(word alignment)。他們用基于詞的翻譯模型(Brown et al.,1993)來實(shí)現(xiàn)單語詞對齊。基本上,aspect和opinion word的關(guān)聯(lián)用翻譯概率來衡量,能比語言規(guī)則更準(zhǔn)確更有效地獲取aspect和opinion word之間的opinion relations。

Li et al.,(2012a)提出了一個(gè)領(lǐng)域自適應(yīng)的方法來抽取跨領(lǐng)域的aspect和opinion word。在一些情況下,目標(biāo)領(lǐng)域沒有標(biāo)注數(shù)據(jù),但源領(lǐng)域有大量標(biāo)注數(shù)據(jù)?;镜乃悸肪褪抢迷搭I(lǐng)域抽取的知識來幫助識別目標(biāo)領(lǐng)域的aspect和opinion word。該方法包括兩個(gè)步驟:(1)識別一些共同的opinion words作為種子,然后從源領(lǐng)域中提取高質(zhì)量的opinion aspect種子。(2)一個(gè)叫"Relational Adaptive bootstrapping"的bootstrapping方法用來擴(kuò)展這些種子。首先,通過在源領(lǐng)域的標(biāo)注數(shù)據(jù)和目標(biāo)領(lǐng)域的新標(biāo)注數(shù)據(jù)來迭代訓(xùn)練一個(gè)跨領(lǐng)域的分類器,然后用它來預(yù)測目標(biāo)未標(biāo)注數(shù)據(jù)的label。第二,top預(yù)測的aspect和opinion word被挑選來作為候選。第三,利用之前迭代中提取的句法規(guī)則來構(gòu)建一個(gè)aspect和opinion word之間的二部圖。使用基于圖的得分計(jì)算算法獲取top候選,分別加入到aspect和opinion word list中。

除了利用aspect和opinion word的關(guān)系以外,Popescu and Etzioni(2005)提出了利用一個(gè)上下文中的鑒別關(guān)系來提取aspects的方法,也就是aspects和產(chǎn)品class的關(guān)系。他們首先提取頻繁的名詞短語作為候選aspect,然后使用候選和一些產(chǎn)品class的部分整體關(guān)系鑒別器(meronymy discriminators)之間的PMI評估每個(gè)候選詞。例如"scanner"類別的meronymy discriminators是像"of scanner", "scanner has","scanner comes with"等模式。PMI公式
$$PMI(a,d)={hits(a\land d)\over hits(a)hits(d)}$$
a是候選aspect,d為meronymy discriminators。通過搜索引擎實(shí)現(xiàn)hits()。
該算法也用WordNet的is-a層次結(jié)構(gòu)和形態(tài)結(jié)構(gòu)線索從attribute中區(qū)別components/parts。

Kobayashi et al.(2007)提出了一個(gè)從blog中提取aspect-evaluation和aspect-of關(guān)系的方法,它利用了aspect, opinion expression和product class的關(guān)聯(lián)關(guān)系。例如,在aspect-evaluation pair提取中,evaluation expression首先由詞典決定。然后,句法關(guān)系被用來找出它對應(yīng)的aspect來生成候選pair。這些候選pairs通過一個(gè)由結(jié)合上下文和統(tǒng)計(jì)線索這兩種信息訓(xùn)練得到的分類器來測試和驗(yàn)證。上下文線索為句子中詞的句法關(guān)系,它可以由依存語法決定;統(tǒng)計(jì)學(xué)線索是標(biāo)注的aspect和evaluations的共現(xiàn)。

Squence Models

主要是Hidden Markov Model和Conditional Random Fields。有監(jiān)督學(xué)習(xí)。

Hidden Markov Model

Jin et al.(2009a and 2009b)利用詞匯化的HMM來從評論中抽取product aspects和opinion expression。與傳統(tǒng)HMM不同,他們將如POS和詞匯模式融入到HMM中。例如,一個(gè)觀察變量用pair($word_i$,$POS(word_i)$)表示。

Conditional Random Fields

Jakob and Gurevych(2010)利用CRF從包含意見的句子中抽取opinion target(or aspects)。他們用Token, POS, Short Dependency Path, Word Distance作為特征輸入。使用Inside-Outside-Begin(IOB)標(biāo)注方案。

Li et al.,2010a做了類似的工作。為了能對句子級中的長距離的用連接詞("and", "or", "but")連接的依存關(guān)系,以及aspect,positive opinion和negative opinion之間的深層依存句法建模,他們使用了skip-tree CRF模型來發(fā)現(xiàn)產(chǎn)品aspect和opinoin。

Topic Model

主題模型在NLP和文本挖掘中被廣泛運(yùn)用,它基于文檔的多個(gè)主題分布和每個(gè)主題的詞分布。一個(gè)主題模型是文章的生成模型(generative model)。通常,它指定文章的生成過程。具體看《LDA數(shù)學(xué)八卦》。

主題模型可以用于aspect抽取。我們可以認(rèn)為每個(gè)aspect是一個(gè)元語言模型,即詞語的多項(xiàng)分布。雖然這樣的表示很難解析為aspect,但是它的優(yōu)勢就是表達(dá)一樣或相近aspect的不同詞語可以被自動地聚到一起。如今,用主題模型抽取aspect有著大量的研究。他們基本上是吸收和擴(kuò)展了pLSA(Hofmann, 2011)和LDA模型(Blei et al., 2003)。

Probabilistic Latent Semantic Analysis

原理請閱讀《LDA數(shù)學(xué)八卦》。

對于aspect抽取任務(wù),我們可以把產(chǎn)品aspect當(dāng)做opinion document中的潛在topic。Lu et al.(2009)提取了在短文本中發(fā)現(xiàn)aspect和聚類的方法。他們假設(shè)每條評論都可以被解析成為格式為<head term, modifier>的opinion phrase,和利用head term和modifiers的共現(xiàn)信息將這個(gè)opinion phrase融入pLSA模型。通常,head term是一個(gè)aspect,modifier是opinion word。提出的方法定義k元語言模型:$\Theta = (\theta_1,\theta_2,…,\theta_k)$作為k主題模型,每一個(gè)都是head terms的多項(xiàng)分布。注意每個(gè)modifier都可以用一個(gè)header term的集合表示,表示公式為:
$$d(w_m)={w_h|(w_m,w_h)\in T}$$
$w_h$表示head term,$w_m$表示modifier。

實(shí)際上,一個(gè)modifier可以被當(dāng)做一個(gè)混合模型的一個(gè)sample。
$$p_{d(w_m)}(w_h)=\sum_{j=1}^k[\pi_{d(w_m),j}p(w_h|\theta_j)]$$
$\pi_{d(w_m),j}$是第j個(gè)aspect的特定modifier的混合權(quán)重(modifier-specific mixing weight),加起來等于1。modifiers$V_m$集合的對數(shù)似然值(log-likelihood)為
$$log\ p(V_m|\Delta)=\sum_{w_m\in v_m}\sum_{w_h\in v_h}{c(w_h,d(w_m))\times log\ \sum_{j=1}^k[\pi_{d(w_m),j}p(w_h|\theta_j)]}$$
$c(w_h,d(w_m))$為head term$w_h$和modifiers$w_m$的共現(xiàn)次數(shù),$\Delta$為所有模型參數(shù)集合。

利用EM算法,k主題模型可以被估計(jì),aspect expression可以被聚合。另外,Lu et al.使用了共軛先驗(yàn)融入人類知識來制定aspect的聚類。因?yàn)樘岢龅姆椒▽ead terms和modifier的共現(xiàn)建模,所以他可以利用更多有意義的句法關(guān)系。

Moghaddam and Ester(2011)通過加入對評論的潛在排序信息到模型來提取aspect和他們的對應(yīng)排序,擴(kuò)展了以上pLSA模型。

但是pLSA方法的主要缺點(diǎn)就是它是內(nèi)在轉(zhuǎn)換,即沒有直接的方法把已學(xué)習(xí)的模型應(yīng)用到新文檔。在pLSA中,集合中的每個(gè)文檔d用一個(gè)混合系數(shù)$\theta$來表示,但是它并不對集合以外的文檔進(jìn)行定義。

Latent Dirichlet Allocation(LDA)

基本的LDA模型請閱讀《LDA數(shù)學(xué)八卦》

基于LDA的模型在幾個(gè)研究中被用于aspect抽取。Titov and McDonald(2008a)指出全局的主題模型(像pLSA和LDA)可能不適合發(fā)現(xiàn)aspect。pLSA和LDA都用了文檔的詞袋模型表示,它依賴于主題的分布差異和詞語的共現(xiàn)來識別每個(gè)主題中的topic-word概率分布。但是,對于opinion文章(如review)來說,他們非常不同。也就是,每個(gè)文檔都是討論相同的aspect,這使得全局主題模型(global topic model)效率低和只對entities發(fā)現(xiàn)有效(如品牌和產(chǎn)品名稱)。為了解決這個(gè)問題,他們提取了多粒度的LDA(MG-LDA)來發(fā)現(xiàn)aspect,它對global topic和local topic這兩個(gè)不同類型的主題進(jìn)行建模。像在pLSA和LDA中,對于一篇文章的global topic分布是固定的。但是,local topic的分布則允許不同。一個(gè)文檔中的一個(gè)詞是要么從global topic的多項(xiàng)分布,要么從這個(gè)詞的local context特定的local topic的多項(xiàng)分布。它假設(shè)aspect會被local topic獲取,global topic會獲取評價(jià)item的屬性。例如,一條London hotel的評論:"…public transport in London is straightforward, the tube station is about an 8 minute walk… or you can get a bus for $1.50"。這條評論可以當(dāng)做是global topic London (words:"London","tube","$")和local topic(aspect) location (words:"transport", "walk", "bus").

MG-LDA能區(qū)分local topics。但是由于local topics和ratable aspects之間的many-to-one映射,這個(gè)對應(yīng)是不明顯的。它缺乏topics到aspects的直接分配。為了解決這個(gè)問題,Titov and McDonald(2008b)擴(kuò)展了MG-LDA模型和構(gòu)建了一個(gè)文本和aspect rating的聯(lián)合模型,叫做Multi-Aspect Sentiment model(MAS)。它包含兩個(gè)部分:第一個(gè)部分是基于MG-LDA來構(gòu)建代表ratable aspect的topics;第二部分是針對每個(gè)aspect的一系列分類器(sentiment predictors),它在aspect-specific rating的幫助下推斷l(xiāng)ocal topics和aspect的映射。他們的目標(biāo)是利用rating信息來識別更多aspect。

LDA的思想也被應(yīng)用和擴(kuò)展在(Branavan et al.,2008; Lin and He, 2009; Brody and Elhadad, 2010; Zhao et al., 2010; Wang et al., 2010; Jo and Oh, 2011; Sauper et al., 2011; Moghaddam and Ester, 2011; Mukajeee and Liu, 2012)。Branavan利用Format 1的評論格式的關(guān)鍵詞來協(xié)助提取aspect。關(guān)鍵詞是基于分布的和正字的(orthographic)屬性來聚類,隱topic model應(yīng)用于review文本。然后,一個(gè)最終的圖模型將他們兩個(gè)結(jié)合。Lin and He(2009)提出了一個(gè)join topic-sentiment model(JST),它通過加入一個(gè)sentiment層來擴(kuò)展了LDA。它能從文本中同時(shí)發(fā)現(xiàn)aspect和sentiment。Brody and Elhadad(2010)提出了用local版本的LDA來識別aspect,它作用于句子而非文檔,利用了小量的直接對應(yīng)于aspect的topics。Zhao et al.(2010)提出了一個(gè)MaxEnt-LDA混合模型來聯(lián)合發(fā)現(xiàn)aspect words和aspect-specific opinion words,它能利用句法特征來幫助區(qū)分aspects和opinion words。Wang et al.(2010)提出了一個(gè)回歸模型基于學(xué)習(xí)了的潛在aspects來推斷aspect ratings和aspect weights。Jo and Oh(2010)提出了一個(gè)Aspect and Sentiment Unification Model(ASUM)來對面向不同asepct的sentiment建模。Sauper et al.(2010)提出一個(gè)聯(lián)合模型,它只工作于已經(jīng)從reviews中提取的小片段,聯(lián)合了HMM和topic modeling,其中HMM擬合了詞類型序列(aspect, opinion word, or background word)。Moghaddam and Ester(2011)提出了一個(gè)叫ILDA的模型,它基于LDA和加入了潛在aspect和rating建模。ILDA能看做一個(gè)生成過程:首先生成一個(gè)aspect,隨后生成它的rating。特別地,對于生成每個(gè)opinion phrase,ILDA首先從LDA模型中生成aspect$a_m$,最后。一個(gè)head term$t_m$和一個(gè)sentiment$s_m$從$a_m$和$r_m$的條件分布中生成。Mukajeee and Liu(2012)提出了兩個(gè)模型(SAS and ME_SAS)來使用種子對aspect和aspect specific sentiments聯(lián)合建模,從而從語料發(fā)現(xiàn)aspects。種子反映了用戶對發(fā)現(xiàn)特定aspects的需求。

其他關(guān)于topic model相關(guān)工作有topic-sentiment model(TSM)。Mei et al.(2007)提出這個(gè)模型來對在blog中的topic和sentiment聯(lián)合建模,它用了一個(gè)positive sentiment model和一個(gè)negative sentiment model附加在aspect模型上。他們在文章級別進(jìn)行情感分析而不是在aspect級別。在(Su et al., 2008)中,作者也提出了一個(gè)基于mutual reforcement方法的聚類算法來識別aspect。類似的工作有(Scaffidi et al., 2007),他們提出了一個(gè)針對于產(chǎn)品aspect的語言模型,它假設(shè)產(chǎn)品aspect在產(chǎn)品review文本中比在通用英文文本中更頻繁提到。但是,當(dāng)語料規(guī)模小的時(shí)候,統(tǒng)計(jì)是不可靠的。

總的來說,主題建模是一個(gè)強(qiáng)大和靈活的建模工具。它也在概念上和在數(shù)學(xué)上都很優(yōu)秀。但是,它只適合找出一些general/rough的aspects,難以找到細(xì)粒度的或者準(zhǔn)確的aspects。我們認(rèn)為它過于以統(tǒng)計(jì)為中心,有局限。如果我們往自然語言和知識中心轉(zhuǎn)移,提出更平衡的方法,可能會有更多成果。

Miscellaneous Methods

Yi et al.(2003)提出基于likelihood-ratio test的方法提出aspect。Bloom et al.(2007)人工構(gòu)建了aspects的分類,指示aspect類型。他們也通過review的一個(gè)樣本來構(gòu)建aspect詞典,他們?nèi)斯z驗(yàn)這些種子詞典,用WordNet來挖掘額外的詞語。Lu et al.(2010)利用Freebase來獲取一個(gè)topic的aspects,用它們來組織零散的意見,生成一個(gè)結(jié)構(gòu)化的意見摘要。Ma and Wan(2010)利用Centering theory(Grosz et al.1995)來從新聞評論中提取評價(jià)對象。Ghani et al.(2006)把a(bǔ)spect抽取當(dāng)成分類問題,用了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法來抽取產(chǎn)品aspects。Yu et al.(2011)使用一個(gè)叫one-class SVM的部分監(jiān)督方法來提取aspects,只需要標(biāo)注一些正例(是aspect的例子)。他們只從Pros和Cons抽取aspects。Li et al.(2012b)把抽取aspect當(dāng)做淺層語義解析問題。每個(gè)句子構(gòu)建一棵解析樹,其中的結(jié)構(gòu)化的句法信息用來識別aspect。

Aspect Grouping and Hierarchy

人名通常會使用不同的詞語和表達(dá)來描述同一個(gè)aspect。例如,photopicture在數(shù)碼相機(jī)領(lǐng)域中表達(dá)同一個(gè)aspect。雖然topic model可以識別和聚合aspect,但是結(jié)果并不是細(xì)粒度的,因?yàn)檫@樣的模型是基于詞共現(xiàn)而不是語義。所以,一個(gè)topic往往是關(guān)于一個(gè)general topic的相關(guān)詞list,而不是表示同一個(gè)aspect的詞list。例如,一個(gè)topic關(guān)于battery可能包含像life,battery,charger,long,short等詞語。我們可以清晰地看到,這些詞語并不代表同一個(gè)東西,雖然他們可能經(jīng)常共現(xiàn)。我們可以先提取aspect expression,然后把他們聚合到不同的aspect catergories。

聚合指示同一個(gè)aspect的aspect expression對opinion應(yīng)用來說是很關(guān)鍵的。雖然WordNet和其他詞典可以幫助這個(gè)任務(wù),但是他們由于很多同義詞都是領(lǐng)域獨(dú)立的,所以經(jīng)常無效。例如,picturemovie是moview評論的同義詞,但是他們在數(shù)碼相機(jī)領(lǐng)域不是同義詞,因?yàn)?em>picture更接近photomovie更接近video。注意到雖然一個(gè)aspect的大部分aspect expressions是領(lǐng)域同義詞,但是他們不總是同義詞。例如,expensivecheap都可以指示price這個(gè)aspect,但他們不是price的同義詞。

Liu, Hu and Cheng(2005)試圖用WordNet同義詞集來解決這個(gè)問題,但是結(jié)果不令人滿意,因?yàn)閃ordNet對解決領(lǐng)域獨(dú)立的同義詞方面不夠有效。Carenini et al.(2005)也提出了一個(gè)方法解決這個(gè)問題。他們的方法基于使用字符串相似度、同義詞和距離衡量來定義的幾種相似度矩陣。但是,它要求事先給定一個(gè)分類。這個(gè)算法合并每一個(gè)發(fā)現(xiàn)的aspect expression到分類中的一個(gè)aspect結(jié)點(diǎn)。

Guo et al.(2009)提出了一個(gè)多層次的潛在語義關(guān)聯(lián)技術(shù)(叫mLSA)來聚合產(chǎn)品aspect expression。在第一層,aspect expression的所有詞都通過使用LDA被聚合到一個(gè)concepts/topics集合中。這個(gè)結(jié)果用來構(gòu)建一些潛在topic結(jié)構(gòu)。在第二層,aspect expression通過LDA根據(jù)他們的潛在topic結(jié)構(gòu)和上下文片段來被聚合。

Zhai et al.(2010)提出了一個(gè)半監(jiān)督方法來將aspect expression聚合到用戶自定義的aspect group或category中。每個(gè)group代表一個(gè)特定的aspect。為了反映用戶的需求,他們首先給每個(gè)group人工標(biāo)注一小部分種子。這個(gè)系統(tǒng)然后使用基于標(biāo)注的種子和未標(biāo)注的樣本來將剩余的aspect expression分配到合適的group。這個(gè)方法使用了Expectation-Maximization(EM)算法。兩塊先驗(yàn)知識被使用來為EM提供更好的信息,也就是:(1)共用一些相同的詞語的aspect expression更可能屬于同一個(gè)aspect group;(2)在詞典中屬于同義詞的aspect expression更可能屬于同一個(gè)aspect group。Zhai et al.(2011)進(jìn)一步提出了一個(gè)無監(jiān)督方法,不需要事先標(biāo)注樣本。此外,它進(jìn)一步通過詞典相似度加強(qiáng)。這個(gè)算法也利用了一些自然語言知識來提取更有區(qū)分性的分布上下文來幫助聚合。

Mauge et al.(2012)使用基于聚類算法的最大熵來聚合aspect。它首先訓(xùn)練一個(gè)最大熵分類器來決定兩個(gè)aspect是同義詞的概率。然后,一個(gè)無向有權(quán)圖構(gòu)建出來。每個(gè)節(jié)點(diǎn)代表一個(gè)aspect。每條邊權(quán)重代表兩個(gè)節(jié)點(diǎn)的概率。最后,近似圖分割方法(approximate graph partitioning method)用來聚合aspect。

與aspect聚合相關(guān)的aspect層級用來將產(chǎn)品aspect表示成一棵樹或?qū)蛹?。根?jié)點(diǎn)是實(shí)體名稱。每個(gè)非根節(jié)點(diǎn)是一個(gè)entity的組件或子組件。每一個(gè)link都是part-of關(guān)系。每一個(gè)結(jié)點(diǎn)關(guān)聯(lián)一系列的aspect。Yu et al.(2011b)提出了一個(gè)方法來創(chuàng)建aspect層級。這個(gè)方法從一個(gè)初始層級開始,一個(gè)個(gè)地插入aspect直到所有aspect被分配。每個(gè)aspect通過語義距離學(xué)習(xí)來插入到最佳位置。Wei and Gulla(2010)學(xué)習(xí)基于aspect hierarchy trees的情感分析。

Aspect Ranking

Mapping Implicit Aspect Expressions

有許多隱形aspect expression類型。形容詞可能是最經(jīng)常出現(xiàn)的類型。許多形容詞修飾或描述一些特定的entity屬性。例如,形容詞heavy通常描述entity的weight。Beautiful一般用來描述entity的look或者appearance。也不是說這些形容詞只描述這些aspects。他們準(zhǔn)確的意思可以是領(lǐng)域獨(dú)立的。例如,heavy在句子the traffic is heavy并不描述交通的weight。注意一些隱性aspect expression很難提取和映射,例如,fit in pockets在句子This phone will not easily fit in pockets

將隱性aspect映射到他們的顯性aspect的研究并不多。在Su et al.(2008)中,聚類算法被用來映射隱性aspect expression,這些aspect expression被假設(shè)為情感詞,對應(yīng)著顯性aspect。這個(gè)方法利用了顯性aspect和情感詞之間的相互增強(qiáng)關(guān)系來生成一個(gè)共現(xiàn)pair。這樣的一個(gè)pair可能指示著情感詞描述aspect,或者aspect關(guān)聯(lián)著情感詞。這個(gè)算法通過將顯性aspect集和和情感詞集合分別迭代聚類來挖掘映射關(guān)系。在每一詞迭代中,在對一個(gè)集合聚類之前,使用其他集合的聚類結(jié)果來提升集合的pair相似度。集合中的pair相似度由集合內(nèi)相似度和集合間相似度的線性組合來決定。兩項(xiàng)在集合內(nèi)的相似度是傳統(tǒng)的相似度,在集合間的相似度基于aspect和情感詞的關(guān)聯(lián)程度來計(jì)算。關(guān)聯(lián)程度(或mutual reinforcement relationship)由一個(gè)二分圖建模。如果一個(gè)aspect和opinion word在句子中共現(xiàn),那么他們是相連的。這些鏈接也基于共現(xiàn)頻數(shù)來確定權(quán)重。在迭代聚類之后,強(qiáng)連接的aspect和情感詞group生成最后的映射。

Hai et al.(2011)中,一個(gè)兩階段共現(xiàn)關(guān)聯(lián)規(guī)則挖掘方法被提出來匹配隱性aspect(被假設(shè)為情感詞)的顯性aspect。在第一階段,這個(gè)方法生成關(guān)聯(lián)規(guī)則,將語料中頻繁在句子中共現(xiàn)的pair中的每個(gè)情感詞作為condition,顯性aspect作為consequents。在第二階段,對consequents(顯性aspect)聚類來為每個(gè)規(guī)則中的情感詞生成更加魯棒的規(guī)則。為了應(yīng)用或測試,給定沒有顯性aspect的情感詞,找出最好的規(guī)則簇,然后分配這個(gè)簇中的代表性詞語作為最后識別的aspect。

Fei et al.(2012)聚焦于找到被意見形容詞(opinion adjectives)指示的隱性aspect(主要是名詞),例如,為形容詞expensive識別price、cost等。他們提出了一個(gè)基于詞典的方法,嘗試從形容詞詞典中識別出屬性名詞。他們把問題定義為集合分類問題(colletive classification problem),它可以利用詞語的詞典關(guān)系(如同義詞、反義詞、下位詞和上位詞)來分類。

一些其他相關(guān)工作包含在(Wang and Wang,2008;Yue et al.,2011b)。

Identifying Aspects that Imply Opinions

Zhang and Liu(2011a)發(fā)現(xiàn)在一些指示產(chǎn)品的領(lǐng)域名詞和名詞短語中aspect可能隱含著opinion。在許多案例中,這些名詞不是主觀的而是客觀的。他們包含的句子也是客觀性的句子,但是暗含著正向或者負(fù)向的opinion。例如,床褥評論中一個(gè)句子"Within a month, a vally formed in the middle of the mattress."。這里valley指示著床褥的質(zhì)量,也暗含著負(fù)向的opinion。識別這樣的aspect和他們的極性是一項(xiàng)非常具有挑戰(zhàn)性但是在意見挖掘中非常有用的工作。

Zhang and Liu觀察到對于含有暗含opinion的一個(gè)產(chǎn)品aspect來說,并沒有直接修飾它的opinion word,或者修飾它的opinion word有著相同的意見傾向。

Observation:沒有opinion word直接修飾被評價(jià)的產(chǎn)品aspect("valley"):
"Within a month, a vally formed in the middle of the mattress."

Observation:有opinion形容詞修飾被評價(jià)的產(chǎn)品aspect("valley"):
"Within a month, a bad vally formed in the middle of the mattress."
這里,形容詞bad修飾valley。它不像另一個(gè)句子中的正向opinion word也修飾valley,如,"good valley"。所以,如果一個(gè)產(chǎn)品aspect被正向和負(fù)向opinion形容都修飾的話,它不太可能是一個(gè)被評價(jià)的產(chǎn)品aspect。

基于這些觀察,他們設(shè)計(jì)了如下兩個(gè)步驟來識別暗含正向或負(fù)向意見的名詞產(chǎn)品aspect:
Step 1:候選詞識別(Candidate Identification):這一步?jīng)Q定了每個(gè)名詞aspect附近的情感上下文。這個(gè)直覺是如果一個(gè)aspect出現(xiàn)在負(fù)向(或正向)的意見上下文中比出現(xiàn)在正向(或負(fù)向)上下文更加頻繁,我們可以推斷它的極性是負(fù)向的(或正向的)。一個(gè)統(tǒng)計(jì)測試(總體比例測試)被用來測試它的顯著性。這一步生成一個(gè)正向意見的候選aspect列表和一個(gè)負(fù)向意見的候選aspect列表。
Step 2:剪枝(Pruning):這一步對兩個(gè)列表進(jìn)行剪枝。思路是當(dāng)一個(gè)名詞產(chǎn)品aspect被正向和負(fù)向opinion word都直接修飾時(shí),它不太可能是被評價(jià)的產(chǎn)品aspect。

Identifying Resource Noun

Lin(2010)指出存在一些詞或短語類型本身沒有情感,但是當(dāng)他們出現(xiàn)在一些特定的上下文中,它暗含著正向或負(fù)向的意見。在情感分析可以到達(dá)下一個(gè)準(zhǔn)確率層次之前,所有這些表達(dá)必須要被提取和相關(guān)問題必須要被解決。

1. Postive <- consume no or little resource
2.          | consume less resource
3. Negative <- consume a large quantity of resource
4.          |  consume more resource
         
Figure 6: 包含資源的表述的情感傾向。

這樣的一種表述類型包含了資源,這種情況經(jīng)常出現(xiàn)在許多應(yīng)用領(lǐng)域中。例如,money在幾乎所有領(lǐng)域中是一種資源,ink在printer領(lǐng)域中是一種資源,gas在car領(lǐng)域中是一種資源。如果一個(gè)設(shè)備消耗了大量資源,它是不令人滿意的(negative)。如果一個(gè)設(shè)備消耗極少資源,他是令人滿意的(positive)。例如,句子"This laptop needs a lot of battery power"和句子"This car eats a lot of gas"分別在laptop領(lǐng)域和car領(lǐng)域中暗含著負(fù)向的情感。這里gasbattery power都是資源,我們把這些詞語成為資源項(xiàng)(resource terms,包括詞語和短語)。他們是一種特殊的產(chǎn)品aspect。

在包含資源的情感方面,F(xiàn)igure 6中的規(guī)則可用(Liu, 2010)。規(guī)則1和規(guī)則3代表了包含資源和暗含情感的常態(tài)句子,而規(guī)則2和規(guī)則4代表了包含資源和暗含情感的比較句式句子,例如,"this washer uses much less water than my old GE washer"。

Zhang and Liu(2011a)把問題定義為二分圖問題,并提出了一個(gè)迭代算法來解決問題。這個(gè)算法基于如下觀察:
Observation:句子中關(guān)于資源使用的情感或意見表達(dá)經(jīng)常由如下三元組決定:
$$(verb, quantifier, noun_term)$$
其中,noun_term是代表資源的一個(gè)名詞或名詞短語。

這個(gè)方法使用這樣的三元組來幫助在領(lǐng)域語料中識別資源。模型使用了基于二分圖的循環(huán)定義來反映資源使用動詞(resource usage verbs,consume)和資源項(xiàng)(如,water)之間特定的增強(qiáng)關(guān)系。量詞(quantifier)不用在計(jì)算,而用在識別候選動詞和資源項(xiàng)。這個(gè)算法假設(shè)給定一個(gè)量詞列表(不多,可人工構(gòu)建)?;谘h(huán)定義,這個(gè)問題通過使用像HITS算法(Kleinberg, 1999)這樣的迭代算法來解決。為了啟動迭代計(jì)算,一些全局的種子資源(seed resources)被用來發(fā)現(xiàn)和評分一些健壯的資源使用動詞。這些得分然后被應(yīng)用到任意應(yīng)用領(lǐng)域的迭代計(jì)算的初始化。當(dāng)算法收斂時(shí),一個(gè)排序過的候選資源項(xiàng)列表被識別出來。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容