本節(jié)總結(jié)一下NLP中常見(jiàn)的任務(wù),從一個(gè)全局觀(guān)來(lái)看看NLP:

NLP任務(wù)總結(jié)
一:詞法分析
- 分詞 (Word Segmentation/Tokenization, ws): 在對(duì)文本進(jìn)行處理的時(shí)候,會(huì)對(duì)文本進(jìn)行一個(gè)分詞的處理,下面是一個(gè)常用的詞庫(kù)。
| 庫(kù) | 開(kāi)源or商業(yè) | 支持語(yǔ)言 | 分詞 | 詞性標(biāo)注 | 命名實(shí)體識(shí)別 | 費(fèi)用 |
|---|---|---|---|---|---|---|
| HanLP | 開(kāi)源 | Java, C++, Python | 有 | 有 | 有 | 無(wú) |
| Jieba | 開(kāi)源 | Java, C++, Python | 有 | 無(wú) | 無(wú) | 無(wú) |
| FudanNLP | 開(kāi)源 | Java | 有 | 有 | 有 | 無(wú) |
| LTP | 開(kāi)源 | Java, C++, Python | 有 | 有 | 有 | 無(wú) |
| THULAC | 開(kāi)源 | Java, C++, Python | 有 | 有 | 無(wú) | 無(wú) |
| BosonNLP | 商業(yè) | REST | 有 | 有 | 有 | 免費(fèi)調(diào)用 |
| 百度NLP | 商業(yè) | REST | 有 | 有 | 有 | 待定 |
| 騰訊文智 | 商業(yè) | REST | 有 | 有 | 有 | 按次數(shù)/按月 |
| 阿里云NLP | 商業(yè) | REST | 有 | 有 | 有 | 按次數(shù) |
- 新詞發(fā)現(xiàn) (New Words Identification, nwi):這個(gè)好理解,因?yàn)榫W(wǎng)絡(luò)上總是有新的詞匯出現(xiàn),比如以前的'神馬'這類(lèi)的網(wǎng)絡(luò)流行詞匯。
- 形態(tài)分析 (Morphological Analysis, MA):分析單詞的形態(tài)組成,包括詞干(Sterms)、詞根(Roots)、詞綴(Prefixes and Suffixes)等
- 詞性標(biāo)注 (Part-of-speech Tagging, POS):確定文本中每個(gè)詞的詞性。詞性包括動(dòng)詞(Verb)、名詞(Noun)、代詞(pronoun)等。開(kāi)源的人民日?qǐng)?bào)數(shù)據(jù)中就按照規(guī)范對(duì)句子中的每個(gè)詞的詞性給標(biāo)注好了??梢詫?duì)著規(guī)范來(lái)看。http://m.itdecent.cn/p/30fa95e143bf
- 拼寫(xiě)校正 (Spelling Correction, SP):顧名思義,需要找到錯(cuò)誤的詞,并對(duì)錯(cuò)誤的詞進(jìn)行修改。
二:句法分析
- 語(yǔ)言模型 (Language Modeling, LM):語(yǔ)言模型的應(yīng)用還是挺廣泛的,NLP之語(yǔ)言模型學(xué)習(xí)筆記給出了對(duì)語(yǔ)言模型的詳細(xì)介紹?,F(xiàn)在好多模型都是基于LM來(lái)的。
- 組塊分析 (Chunking):標(biāo)出句子中的短語(yǔ)塊,例如名詞短語(yǔ)(NP),動(dòng)詞短語(yǔ)(VP)等
- 超級(jí)標(biāo)簽標(biāo)注 (Super Tagging):給每個(gè)句子中的每個(gè)詞標(biāo)注上超級(jí)標(biāo)簽,超級(jí)標(biāo)簽是句法樹(shù)中與該詞相關(guān)的樹(shù)形結(jié)構(gòu)
- 成分句法分析 (Constituency Parsing, CP):分析句子的成分,給出一棵樹(shù)由終結(jié)符和非終結(jié)符構(gòu)成的句法樹(shù)
- 依存句法分析(Dependency Parsing, DP):分析句子中詞與詞之間的依存關(guān)系,給一棵由詞語(yǔ)依存關(guān)系構(gòu)成的依存句法樹(shù)。
- 語(yǔ)種識(shí)別 (Language Identification):確定一段文本是哪一種語(yǔ)言
- 句子邊界檢測(cè) (Sentence Boundary Detection):給沒(méi)有明顯句子邊界的文本加邊界。
三:語(yǔ)義分析
-
詞匯/句子/段落的向量化表示 (Word/Sentence/Paragraph Vector):這個(gè)意思就是word2vec、sentence2vec、paragraph2vec,甚至還有doc2vec。
- 詞義消歧 (Word Sense Disambiguation):對(duì)有歧義的詞,確定其準(zhǔn)確的詞義
- 語(yǔ)義角色標(biāo)注 (Semantic Role Labeling):標(biāo)注句子中的語(yǔ)義角色類(lèi)標(biāo),語(yǔ)義角色,語(yǔ)義角色包括施事、受事、影響等
- 抽象語(yǔ)義表示分析(Abstract Meaning Representation Parsing):AMR是一種抽象語(yǔ)義表示形式,AMR parser把句子解析成AMR結(jié)構(gòu)
- 一階謂詞邏輯演算(First Order Predicate Calculus):
- 框架語(yǔ)義分析 (Frame Semantic Parsing):
四:信息抽取
- 命名實(shí)體識(shí)別(Named Entity Recognition, NER):從文本中識(shí)別出命名實(shí)體,實(shí)體一般包括人名(PER)、地名(LOC)、機(jī)構(gòu)名(ORG)、時(shí)間、日期、貨幣、百分比等。另外還有更加專(zhuān)業(yè)的專(zhuān)業(yè)實(shí)體。https://arxiv.org/abs/1812.09449一文綜述了一下目前采用深度學(xué)習(xí)的方法對(duì)NER進(jìn)行研究。
- 關(guān)系抽?。≧elationship Extraction):確定文本中兩個(gè)實(shí)體之間的關(guān)系類(lèi)型。
- 術(shù)語(yǔ)抽取(Terminology/Giossary Extraction):從文本中找出符合要求的terminology。
- 事件抽取(Event Extraction):從無(wú)結(jié)構(gòu)的文本中抽取結(jié)構(gòu)化事件。
- 實(shí)體消歧(Entity Disambiguation, ED):也稱(chēng)語(yǔ)義消歧,是專(zhuān)門(mén)用于解決同名實(shí)體產(chǎn)生歧義問(wèn)題的技術(shù)。在實(shí)際的 語(yǔ)言環(huán)境中,經(jīng)常會(huì)遇到某個(gè)實(shí)體名稱(chēng)對(duì)應(yīng)于多個(gè)命名實(shí)體對(duì)象的問(wèn)題。
- 實(shí)體對(duì)齊 (Entity Alignment, EA):也被稱(chēng)為了實(shí)體匹配(Entity Matching),是指對(duì)于異構(gòu)數(shù)據(jù)源知識(shí)庫(kù)中的各個(gè)實(shí)體,找出屬于現(xiàn)實(shí)世界中的同一實(shí)體。
- 共指消解(Coreference Resolution):確定不同實(shí)體的等價(jià)描述,包括代詞消解和名詞消解
- 情感分析(Sentiment Analysis):對(duì)文本里面所蘊(yùn)含的主觀(guān)性情緒。例如一句話(huà)'我很喜歡這部電影',那么這個(gè)就是一個(gè)正向的評(píng)價(jià),'我討厭這部片子'那么就是一個(gè)負(fù)向的評(píng)價(jià)。
- 意圖識(shí)別(Intent Detection):對(duì)話(huà)系統(tǒng)中的一個(gè)重要模塊,對(duì)用戶(hù)給定的對(duì)話(huà)內(nèi)容進(jìn)行分析,識(shí)別用戶(hù)意圖。
- 槽位填充(Slot Filling):也是對(duì)話(huà)系統(tǒng)中的一個(gè)重要模塊,從對(duì)話(huà)內(nèi)容中分析出于用戶(hù)意圖相關(guān)的有效信息。
五:頂層任務(wù)
- 機(jī)器翻譯 (Machine Translation, MT):兩種語(yǔ)言的的轉(zhuǎn)換。深度學(xué)習(xí)里面的很多模型sequence2sequence、Transformer、Bert等模型應(yīng)用到了機(jī)器翻譯上面。
- 文本摘要 (Text summarization/Simplication):對(duì)較長(zhǎng)文本進(jìn)行內(nèi)容梗概的提取
- 問(wèn)答系統(tǒng) (Question-Answering Systerm, QAS):針對(duì)用戶(hù)提出的問(wèn)題,系統(tǒng)給出相應(yīng)的答案
- 對(duì)話(huà)系統(tǒng) (Dialogue Systerm, DS):能夠與用戶(hù)進(jìn)行聊天對(duì)話(huà),從對(duì)話(huà)中捕獲用戶(hù)的意圖,并分析執(zhí)行
- 閱讀理解 (Reading Comprehension, RC):機(jī)器閱讀完一篇文章后,給定一些文章相關(guān)問(wèn)題,機(jī)器能夠回答
- 自動(dòng)文章分級(jí) (Automatic Essay Grading, AEG):給定一篇文章,對(duì)文章的質(zhì)量進(jìn)行打分或分級(jí)
1、https://blog.csdn.net/lz_peter/article/details/81588430
2、https://edu.csdn.net/course/play/8673
3、https://github.com/sebastianruder/NLP-progress
4、https://blog.csdn.net/fendouaini/article/details/82027310
