原文：https://blog.csdn.net/lhy2014/article/details/89422564

說實話：中文自然語言處理(知識圖譜)的N個真實情況

中文自然語言處理，目前在AI泡沫之下，真假難辨，實戰(zhàn)技術(shù)與PPT技術(shù)往往存在著很大的差異。目前關(guān)于AI或者自然語言處理，做的人與講的人往往是兩回事。

1、深度學(xué)習(xí)在自然語言處理當中，除了在分類問題上能夠取得較好效果外（如單選問題：情感分類、文本分類、正確答案分類問題等），在信息抽取上，尤其是在元組抽取上基本上是一塌糊涂，在工業(yè)場景下很難達到實用水準。

2、目前各種評測集大多是人為標注的，人為標注的大多為干凈環(huán)境下的較為規(guī)范的文本，而且省略了真實生產(chǎn)環(huán)節(jié)中的多個環(huán)節(jié)。在評測環(huán)節(jié)中達到的諸多state-of-art方法，在真實應(yīng)用場景下泛化能力很差，大多僅僅是為了刷榜而刷榜。

3、目前關(guān)于知識圖譜的構(gòu)建環(huán)節(jié)中，數(shù)據(jù)大多數(shù)都還是來自于結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化信息抽取次之，非結(jié)構(gòu)化數(shù)據(jù)抽取最少。半結(jié)構(gòu)化信息抽取，即表格信息抽取最為危險，一個單元格錯誤很有可能導(dǎo)致所有數(shù)據(jù)都出現(xiàn)錯誤。非結(jié)構(gòu)化抽取中，實體識別和實體關(guān)系識別難度相當大。

4、工業(yè)場景下命名實體識別，標配的BILSTM+CRF實際上只是輔助手段，工業(yè)界還是以領(lǐng)域?qū)嶓w字典匹配為主，大廠中往往在后者有很大的用戶日志，這種日志包括大量的實體信息。因此，生產(chǎn)環(huán)節(jié)中的實體識別工作中，基礎(chǔ)性詞性的構(gòu)建和擴展工作顯得尤為重要。

5、目前關(guān)于知識圖譜推理問題，嚴格意義上不屬于推理的范疇，最多只能相當于是知識補全問題，如評測中的知識推理任務(wù)，是三元組補全問題。

6、目前輿情分析還是處于初級階段。目前輿情分析還停留在以表層計量為主，配以淺層句子級情感分析和主題挖掘技術(shù)的分析。對于深層次事件演化以及對象級情感分析依舊還處于初級階段。

7、Bert本質(zhì)上僅僅是個編碼器，是word2vec的升級版而已，不是無所不能，僅僅是編碼能力強，向量表示上語義更為豐富，然而大多人都裝糊涂。

8、學(xué)界和業(yè)界最大的區(qū)別在于，學(xué)界以探索前沿為目的，提新概念，然后搭個草圖就結(jié)束，目光并不長遠，打完這一戰(zhàn)就不知道下一戰(zhàn)打什么，下一戰(zhàn)該去哪里打，什么時候打，或者打一槍換個陣地再打。而業(yè)界，往往面臨著生存問題，需要考慮實際問題，還是以解決實際問題為主，因此沒必要把學(xué)界的那一套理念融入到生產(chǎn)環(huán)節(jié)中，要根據(jù)實際情況制定自己的方法。

9、利用結(jié)構(gòu)化數(shù)據(jù)，尤其是百科類infobox數(shù)據(jù)，采集下來，存入到Neo4j圖數(shù)據(jù)庫中，就稱自己建立了知識圖譜的做法是偽知識圖譜做法。基于這類知識圖譜，再搞個簡單的問答系統(tǒng)，就標榜自己是基于知識圖譜的智能問答，實際上很膚淺。

10、知識圖譜不是結(jié)構(gòu)化知識的可視化（不是兩個點幾條邊）那么簡單，那叫知識的可視化，不是知識圖譜。知識圖譜的核心在于知識的圖譜化，特點在于知識的表示方法和圖譜存儲結(jié)構(gòu)，前者決定了知識的抽象表示維度，后者決定了知識運行的可行性，圖算法(圖遍歷、聯(lián)通圖、最短路徑)?；趫D譜存儲結(jié)構(gòu)，進行知識的游走，進行知識表征和未知知識的預(yù)測。

11、物以希為貴，大家都能獲取到的知識，往往價值都很低。知識圖譜也是這樣，只有做專門性的具有數(shù)據(jù)壁壘的知識圖譜，才能帶來商業(yè)價值。

12、目前智能問答，大多都是人工智障，通用型的閑聊型問答大多是個智障，多輪對話缺失，答非所問等問題層出不窮。垂直性的問答才是出路，但真正用心做的太少，大多都是處于demo級別。

13、大多數(shù)微信自然語言處理軟文實際上都不可不看，純屬浪費時間。尤其是在對內(nèi)容的分析上，大多是抓語料，調(diào)包統(tǒng)計詞頻，提取關(guān)鍵詞，調(diào)包情感分析，做柱狀圖，做折線圖，做主題詞云，分析方法上千篇一律。應(yīng)該從根本上去做方法上的創(chuàng)新，這樣才能有營養(yǎng)，從根本上來說才能有營養(yǎng)可言。文本分析應(yīng)該從淺層分析走向深層分析，更好地挖掘文本的語義信息。

14、目前百科類知識圖譜的構(gòu)建工作有很多，重復(fù)性的工作不少。基于開放類百科知識圖譜的數(shù)據(jù)獲取接口有復(fù)旦等開放出來，可以應(yīng)用到基本的概念下實體查詢，實體屬性查詢等，但目前僅僅只能做到一度。

15、基于知識圖譜的問答目前的難點在于兩個方面，1）多度也稱為多跳問題，如姚明的老婆是誰，可以走14條回答，但姚明的老婆的女兒是誰則回答不出來，這種本質(zhì)上是實體與屬性以及實體與實體關(guān)系的分類問題。2）多輪問答問題。多輪分成兩種，一種是指代補全問答，如前一句問北京的天氣，后者省略“的天氣”這一詞，而只說“北京”，這個需要進行意圖判定并準確加載相應(yīng)的問答槽。另一種是追問式多輪問答，典型的在天氣查詢或者酒店預(yù)訂等垂直性問答任務(wù)上。大家要抓住這兩個方面去做。

16、關(guān)系挖掘是信息抽取的重要里程碑，理解了實體與實體、實體與屬性、屬性與屬性、實體與事件、事件與事件的關(guān)系是解決真正語義理解的基礎(chǔ)，但目前，這方面，在工業(yè)界實際運用中，特定領(lǐng)域中模板的性能要比深度學(xué)習(xí)多得多，學(xué)界大多采用端到端模型進行實驗，在這方面還難以超越模版性能。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[轉(zhuǎn)]說實話：中文自然語言處理(知識圖譜)的N個真實情況

[轉(zhuǎn)]說實話：中文自然語言處理(知識圖譜)的N個真實情況

說實話：中文自然語言處理(知識圖譜)的N個真實情況

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[轉(zhuǎn)]說實話：中文自然語言處理(知識圖譜)的N個真實情況

說實話：中文自然語言處理(知識圖譜)的N個真實情況

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av