自然語(yǔ)言處理的全景圖

最近一直在搞論文的理論背景,沒有時(shí)間復(fù)習(xí)Python的的基礎(chǔ),不過(guò)這個(gè)月也加深了自己對(duì)于自然語(yǔ)言處理的一些理解,構(gòu)建了一個(gè)比較全面的理論框架,在這里寫下來(lái)備忘。下面的一些例子來(lái)自于《Python for NLP》一書中,有助于我們理解一些常用的語(yǔ)言理解技術(shù)。

  1. 詞義消歧:根據(jù)上下文,分析特定的詞是哪個(gè)意思,以下是一個(gè)簡(jiǎn)單的例子:
a. The lost children were found by the searchers (實(shí)施者)
b. The lost children were found by the mountain (地點(diǎn))
c. The lost children were found by the afternoon (時(shí)間)

可以看到,單詞“by”在上面三個(gè)句子中,分別承擔(dān)了不同的含義,我們需要根據(jù)by后面的詞,來(lái)分析出by的具體意思,這就是詞義消歧。

  1. 指代消解:檢測(cè)動(dòng)詞的主語(yǔ)和賓語(yǔ)(誰(shuí)對(duì)誰(shuí)做了什么)
a. The thieves stole the paintings. They were subsequently sold.
b. The thieves stole the paintings. They were subsequently caught.
c. The thieves stole the paintings. They were subsequently found.

考慮以上三個(gè)句子的結(jié)構(gòu),是什么被出售,被抓或者被找到。這就需要找到代詞they的先行詞thieves或者paintings. 這里其實(shí)下分兩種計(jì)算技術(shù),分別是指代消解(確定代詞所指的目標(biāo)),以及語(yǔ)義角色標(biāo)注(確定名詞短語(yǔ)如何與動(dòng)詞關(guān)聯(lián))

  1. 自動(dòng)生成語(yǔ)言

這項(xiàng)技術(shù)的主要目標(biāo),是實(shí)現(xiàn)“自動(dòng)問答”以及“機(jī)器翻譯”這兩個(gè)功能,比如我們經(jīng)常用到的siri,或者一些問答機(jī)器人

Text: The thieves stole the paintings. They were subsequently sold.
users: what was sold?
PC: The paintings.
  1. 機(jī)器翻譯

時(shí)至今日,機(jī)器翻譯依舊是自然語(yǔ)言處理的圣杯??上У氖?,機(jī)器仍然無(wú)法完全替代人工翻譯,調(diào)用NLTK工具包中的“babelizer”框架,我們可以看到機(jī)器翻譯面臨的困難:1. 給定的單詞可能又幾種不同的解釋(詞義消歧)2. 不同語(yǔ)言間的詞序變換。處理機(jī)器翻譯的困難,可以考慮根據(jù)已有的雙語(yǔ)詞典,建立特定的模型。比如從一個(gè)雙語(yǔ)網(wǎng)站上,采集一百萬(wàn)個(gè)雙語(yǔ)“句子對(duì)”,根據(jù)這些句子對(duì)的詞序,詞義來(lái)建立翻譯新文本的模型。

  1. 人機(jī)對(duì)話系統(tǒng)

在人工智能的歷史中,主要的智能測(cè)試是一種語(yǔ)言學(xué)測(cè)試,叫做圖靈測(cè)試:一個(gè)響應(yīng)用戶文本輸入的對(duì)話系統(tǒng)能否表現(xiàn)得如此自然以至于我們無(wú)法區(qū)分它是人工生成的響應(yīng)?相比之下,今天的商業(yè)對(duì)話系統(tǒng)能力是非常有限的。以下是對(duì)話系統(tǒng)一般的NLP流程架構(gòu)。我們可以嘗試與NLTK模塊下的chatbot談話,運(yùn)行nltk.chat.chatbots().


  1. 文本的含義

我們希望使用自動(dòng)方法,根據(jù)一段文本做出正確的決策。比如我們想找到證據(jù)來(lái)支持一個(gè)假設(shè):A is beaten by B. 而有一段文字剛好是和這個(gè)假設(shè)有關(guān)的:A is elected as the senator in last parliamentary election, beating candidate B. 這段文字可以給我們的假設(shè)一個(gè)否定的答案,即 A is not beaten by B. 然而使用自動(dòng)方法做出這樣的結(jié)論很困難。在這個(gè)例子中,很重要的一點(diǎn)是讓系統(tǒng)知道 A 在假設(shè)中是被擊敗的人,而不是文本中擊敗別人的人。書中給出了一個(gè)文本-假設(shè)對(duì),這是任務(wù)困難性的另一個(gè)例子:

text: David Golinkin is the editor or author of 18 books, and over 150 response, articles, sermons and books

hypothesis: Golinkin has written 18 books

為了確定假設(shè)是否得到文本的支持,該系統(tǒng)需要以下背景知識(shí):a. 如果有人是一本書的作者,那么他寫了這本書。b. 如果有人是一本書的編輯,那么他完全沒寫這本書。c. 如果有人是18本書的編輯或作者,則無(wú)法斷定他是18本書的作者。

  1. NLP的局限性

在現(xiàn)實(shí)應(yīng)用中,已經(jīng)部署的語(yǔ)言理解系統(tǒng)仍然不能進(jìn)行常識(shí)推理或者以一般的方式描述這個(gè)世界的知識(shí)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容