常用概念:
自然語(yǔ)言處理(NLP)
數(shù)據(jù)挖掘
推薦算法
用戶畫像
知識(shí)圖譜
信息檢索
文本分類
常用技術(shù):
詞級(jí)別:分詞(Seg),詞性標(biāo)注(POS),命名實(shí)體識(shí)別(NER),未登錄詞識(shí)別,詞向量(word2vec),詞義消歧
句子級(jí)別:情感分析,關(guān)系提取,意圖識(shí)別,依存句法分析(paser),角色標(biāo)注,淺層語(yǔ)義分析,指代消解
篇章級(jí)別:信息抽取,本體提取,事件抽取,主題提取,文檔聚類,輿情分析,篇章理解,自動(dòng)文摘
常用算法:
機(jī)器學(xué)習(xí)(感知機(jī),邏輯回歸,隱馬爾科夫(HMM),條件隨機(jī)場(chǎng)(CRF),支持向量機(jī)(SVM),語(yǔ)言模型,主題模型(LDA),TF-IDF,互信息(PMI),貝葉斯模型,概率圖模型
深度學(xué)習(xí)(cnn,rnn,dnn,lstm等)
中科院nlpir和海量分詞(http://www.hylanda.com/)是收費(fèi)的。
hanlp:推薦基于CRF的模型的實(shí)現(xiàn)~~要看語(yǔ)料,很多常用詞會(huì)被分錯(cuò),所以需要詞庫(kù)支撐。目前最友好的開(kāi)源工具包應(yīng)該是HanLP,基于詞典,對(duì)各種實(shí)體詞匯做了HMM,也提供了CRF模型。工程實(shí)現(xiàn)也不錯(cuò),性能不是瓶頸。代碼有相對(duì)完備的注釋,文檔也比較全,各種算法原理實(shí)現(xiàn)也有對(duì)應(yīng)blog,自己研究和做二次開(kāi)發(fā)都比較方便。
最近寫了一款分詞器,調(diào)研了不少文章的開(kāi)源實(shí)現(xiàn)。最終定的方案是 Language Model + CRF
的混合實(shí)現(xiàn)。CRF的字標(biāo)注法是中文分詞比賽上成績(jī)最好的方案,尤其勝在新詞識(shí)別上,而Language
Model在詞典全,詞頻統(tǒng)計(jì)正確的情況下分詞效果也很好,同CRF相比,勝在分詞效果穩(wěn)定,易于調(diào)整,一旦發(fā)現(xiàn)分詞錯(cuò)誤,可以通過(guò)添加新詞修正分詞效果。因此我的分詞器是先通過(guò)
CRF 識(shí)別新詞,然后再用Language Model分詞。當(dāng)然,具體實(shí)現(xiàn)上,還涉及到怎樣融合新詞,分句,識(shí)別英文詞,數(shù)字表達(dá)式,時(shí)間日期等。
中文分詞算法大概分為兩大類
a.第一類是基于字符串匹配,即掃描字符串,如果發(fā)現(xiàn)字符串的子串和詞相同,就算匹配。這類分詞通常會(huì)加入一些啟發(fā)式規(guī)則,比如“正向/反向最大匹配”, “長(zhǎng)詞優(yōu)先” 等策略這類算法優(yōu)點(diǎn)是速度塊,都是O(n)時(shí)間復(fù)雜度,實(shí)現(xiàn)簡(jiǎn)單,效果尚可。也有缺點(diǎn),就是對(duì)歧義和未登錄詞處理不好。歧義的例子很簡(jiǎn)單"長(zhǎng)春市/長(zhǎng)春/藥店" "長(zhǎng)春/市長(zhǎng)/春藥/店".未登錄詞即詞典中沒(méi)有出現(xiàn)的詞,當(dāng)然也就處理不好。 ikanalyzer,paoding 等就是基于字符串匹配的分詞。
b.第二類是基于統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的分詞方式這類分詞基于人工標(biāo)注的詞性和統(tǒng)計(jì)特征,對(duì)中文進(jìn)行建模,即根據(jù)觀測(cè)到的數(shù)據(jù)(標(biāo)注好的語(yǔ)料)對(duì)模型參數(shù)進(jìn)行估計(jì),即訓(xùn)練。 在分詞階段再通過(guò)模型計(jì)算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。常見(jiàn)的序列標(biāo)注模型有HMM和CRF。
這類分詞算法能很好處理歧義和未登錄詞問(wèn)題,效果比前一類效果好,但是需要大量的人工標(biāo)注數(shù)據(jù),以及較慢的分詞速度。
ICTCLAS是基于HMM的分詞庫(kù)。
我們?cè)谥貥?gòu)知乎搜索的時(shí)候,權(quán)衡標(biāo)注工作量和性能,以及代碼實(shí)現(xiàn)的復(fù)雜程度,我們考慮采用基于字符串匹配的分詞方法
中文分詞是個(gè)基礎(chǔ)問(wèn)題,研究成果已有不少,我揀幾個(gè)我自己覺(jué)得好的吧。
1。張磊 提到的mmseg是我自己最喜歡的分詞方法,簡(jiǎn)單、高效、實(shí)用、效果還不錯(cuò)。http%3A//technology.chtsai.org/mmseg/。我給它起了個(gè)名字,叫做“3段回溯式方法”,即每次從一個(gè)完整的句子里,按照從左向右的順序,識(shí)別出多種不同的3個(gè)詞的組合;然后根據(jù)下面的4條消歧規(guī)則,確定最佳的備選詞組合;選擇備選詞組合中的第1個(gè)詞,作為1次迭代的分詞結(jié)果;剩余的2個(gè)詞繼續(xù)進(jìn)行下一輪的分詞運(yùn)算。采用這種辦法的好處是,為傳統(tǒng)的前向最大匹配算法加入了上下文信息,解決了其每次選詞只考慮詞本身,而忽視上下文相關(guān)詞的問(wèn)題。4條消歧規(guī)則包括,
1)備選詞組合的長(zhǎng)度之和最大。
2)備選詞組合的平均詞長(zhǎng)最大;
3)備選詞組合的詞長(zhǎng)變化最?。?/p>
4)備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高。
2.CRF方法是目前公認(rèn)的效果最好的分詞算法。但,具體效果是否好,也依賴于你使用的訓(xùn)練模型nlp.stanford.edu/software/segmenter.shtml"
3. 我認(rèn)識(shí)一個(gè)做搜索解決方案的朋友,他們公司提供了CRF和mmseg的開(kāi)源實(shí)現(xiàn) "www.coreseek.cn/opensource/"
4. 其實(shí)還可以使用專業(yè)公司的解決方案,比如海量和中科院分詞的收費(fèi)版本,也花不了多少錢。集中精力找到你自己產(chǎn)品獨(dú)特的價(jià)值所在。
之前做自然語(yǔ)言解析的時(shí)候用了mmseg,很不錯(cuò)的說(shuō)聲。。
1. 好詞典很重要不論什么樣的分詞方法, 優(yōu)秀的詞典必不可少,? 越拿老掉牙的詞典對(duì)越新的文本進(jìn)行分詞,? 就越會(huì)分成一團(tuán)糟.
怎樣構(gòu)建一個(gè)優(yōu)秀的詞典,? 快速發(fā)現(xiàn)新新詞匯?? 可以看 @M67 前兩天寫的文章, 講的非常透徹明白 :
互聯(lián)網(wǎng)時(shí)代的社會(huì)語(yǔ)言學(xué):基于SNS的文本數(shù)據(jù)挖掘 (
http://www.matrix67.com/blog/archives/5044/trackback ) 2.
算法跟著需求走建議根據(jù)不同的需求選用不同的算法,? 例如,? 類似知乎頭部搜索的? AutoComplete 部分, 講究的是速度快,
興趣相關(guān)( 優(yōu)先找和你賬戶相關(guān), 和可能感興趣的內(nèi)容 ),? 分詞算法反而在其次了.? 而像全文搜索這樣大段大段的長(zhǎng)文字.
我覺(jué)得則更注重的是精準(zhǔn),? 應(yīng)該選一個(gè)像CRF這樣的算法.
中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟,也是中文人機(jī)自然語(yǔ)言交互的基礎(chǔ)模塊。不同于英文的是,中文句子中沒(méi)有詞的界限,因此在進(jìn)行中文自然語(yǔ)言處理時(shí),通常需要先進(jìn)行分詞,分詞效果將直接影響詞性、句法樹(shù)等模塊的效果。當(dāng)然分詞只是一個(gè)工具,場(chǎng)景不同,要求也不同。在人機(jī)自然語(yǔ)言交互中,成熟的中文分詞算法能夠達(dá)到更好的自然語(yǔ)言處理效果,幫助計(jì)算機(jī)理解復(fù)雜的中文語(yǔ)言。竹間智能在構(gòu)建中文自然語(yǔ)言對(duì)話系統(tǒng)時(shí),結(jié)合語(yǔ)言學(xué)不斷優(yōu)化,訓(xùn)練出了一套具有較好分詞效果的算法模型,為機(jī)器更好地理解中文自然語(yǔ)言奠定了基礎(chǔ)。在此,對(duì)于中文分詞方案、當(dāng)前分詞器存在的問(wèn)題,以及中文分詞需要考慮的因素及相關(guān)資源,竹間智能 自然語(yǔ)言與深度學(xué)習(xí)小組 做了些整理和總結(jié),希望能為大家提供一些參考。中文分詞根據(jù)實(shí)現(xiàn)原理和特點(diǎn),主要分為以下2個(gè)類別:
1、基于詞典分詞算法也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個(gè)已建立好的“充分大的”詞典中的詞進(jìn)行匹配,若找到某個(gè)詞條,則說(shuō)明匹配成功,識(shí)別了該詞。常見(jiàn)的基于詞典的分詞算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基于詞典的分詞算法是應(yīng)用最廣泛、分詞速度最快的。很長(zhǎng)一段時(shí)間內(nèi)研究者都在對(duì)基于字符串匹配方法進(jìn)行優(yōu)化,比如最大長(zhǎng)度設(shè)定、字符串存儲(chǔ)和查找方式以及對(duì)于詞表的組織結(jié)構(gòu),比如采用TRIE索引樹(shù)、哈希索引等。
2、基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法這類目前常用的是算法是HMM、CRF、SVM、深度學(xué)習(xí)等算法,比如stanford、Hanlp分詞工具是基于CRF算法,hanlp是基于HMM+CRF,結(jié)巴是基于Viterbi+HMM。以CRF為例,基本思路是對(duì)漢字進(jìn)行標(biāo)注訓(xùn)練,不僅考慮了詞語(yǔ)出現(xiàn)的頻率,還考慮上下文,具備較好的學(xué)習(xí)能力,因此其對(duì)歧義詞和未登錄詞的識(shí)別都具有良好的效果。
Nianwen Xue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對(duì)每個(gè)字符進(jìn)行標(biāo)注,通過(guò)機(jī)器學(xué)習(xí)算法訓(xùn)練分類器進(jìn)行分詞,在論文《Chinese word segmentation as character tagging》中較為詳細(xì)地闡述了基于字標(biāo)注的分詞法。
常見(jiàn)的分詞器都是使用機(jī)器學(xué)習(xí)算法和詞典相結(jié)合,一方面能夠提高分詞準(zhǔn)確率,另一方面能夠改善領(lǐng)域適應(yīng)性。
隨著深度學(xué)習(xí)的興起,也出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的分詞器,例如有人員嘗試使用雙向LSTM+CRF實(shí)現(xiàn)分詞器,其本質(zhì)上是序列標(biāo)注,所以有通用性,命名實(shí)體識(shí)別等都可以使用該模型,據(jù)報(bào)道其分詞器字符準(zhǔn)確率可高達(dá)97.5%。算法框架的思路與論文《Neural Architectures for
Named Entity Recognition》類似,利用該框架可以實(shí)現(xiàn)中文分詞,如下圖所示:首先對(duì)語(yǔ)料進(jìn)行字符嵌入,將得到的特征輸入給雙向LSTM,然后加一個(gè)CRF就得到標(biāo)注結(jié)果。
分詞器當(dāng)前存在問(wèn)題:目前中文分詞難點(diǎn)主要有三個(gè):
1、分詞標(biāo)準(zhǔn):比如人名,在哈工大的標(biāo)準(zhǔn)中姓和名是分開(kāi)的,但在Hanlp中是合在一起的。這需要根據(jù)不同的需求制定不同的分詞標(biāo)準(zhǔn)。
2、歧義:對(duì)同一個(gè)待切分字符串存在多個(gè)分詞結(jié)果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。
1) 組合型歧義:分詞是有不同的粒度的,指某個(gè)詞條中的一部分也可以切分為一個(gè)獨(dú)立的詞條。比如“中華人民共和國(guó)”,粗粒度的分詞就是“中華人民共和國(guó)”,細(xì)粒度的分詞可能是“中華/人民/共和國(guó)”
2) 交集型歧義:在“鄭州天和服裝廠”中,“天和”是廠名,是一個(gè)專有詞,“和服”也是一個(gè)詞,它們共用了“和”字。
3) 真歧義:本身的語(yǔ)法和語(yǔ)義都沒(méi)有問(wèn)題, 即便采用人工切分也會(huì)產(chǎn)生同樣的歧義,只有通過(guò)上下文的語(yǔ)義環(huán)境才能給出正確的切分結(jié)果。例如:對(duì)于句子“美國(guó)會(huì)通過(guò)對(duì)臺(tái)售武法案”,既可以切分成“美國(guó)/會(huì)/通過(guò)對(duì)臺(tái)售武法案”,又可以切分成“美/國(guó)會(huì)/通過(guò)對(duì)臺(tái)售武法案”。一般在搜索引擎中,構(gòu)建索引時(shí)和查詢時(shí)會(huì)使用不同的分詞算法。常用的方案是,在索引的時(shí)候使用細(xì)粒度的分詞以保證召回,在查詢的時(shí)候使用粗粒度的分詞以保證精度。
3、新詞:也稱未被詞典收錄的詞,該問(wèn)題的解決依賴于人們對(duì)分詞技術(shù)和漢語(yǔ)語(yǔ)言結(jié)構(gòu)的進(jìn)一步認(rèn)識(shí)。
另外,我們收集了如下部分分詞工具,供參考:
中科院計(jì)算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分詞器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清華大學(xué)THULAC https://github.com/thunlp/THULAC
斯坦福分詞器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分詞器 https://github.com/hankcs/
HanLP結(jié)巴分詞 https://github.com/yanyiwu/cppjieba
KCWS分詞器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer
以及部分分詞器的簡(jiǎn)單說(shuō)明:哈工大的分詞器:主頁(yè)上給過(guò)調(diào)用接口,每秒請(qǐng)求的次數(shù)有限制。
清華大學(xué)THULAC:目前已經(jīng)有Java、Python和C++版本,并且代碼開(kāi)源。
斯坦福分詞器:作為眾多斯坦福自然語(yǔ)言處理中的一個(gè)包,目前最新版本3.7.0, Java實(shí)現(xiàn)的CRF算法。可以直接使用訓(xùn)練好的模型,也提供訓(xùn)練模型接口。
Hanlp分詞:求解的是最短路徑。優(yōu)點(diǎn):開(kāi)源、有人維護(hù)、可以解答。原始模型用的訓(xùn)練語(yǔ)料是人民日?qǐng)?bào)的語(yǔ)料,當(dāng)然如果你有足夠的語(yǔ)料也可以自己訓(xùn)練。
結(jié)巴分詞工具:基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖 (DAG);采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合;對(duì)于未登錄詞,采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法。
字嵌入+Bi-LSTM+CRF分詞器:本質(zhì)上是序列標(biāo)注,這個(gè)分詞器用人民日?qǐng)?bào)的80萬(wàn)語(yǔ)料,據(jù)說(shuō)按照字符正確率評(píng)估標(biāo)準(zhǔn)能達(dá)到97.5%的準(zhǔn)確率,各位感興趣可以去看看。
ZPar分詞器:新加坡科技設(shè)計(jì)大學(xué)開(kāi)發(fā)的中文分詞器,包括分詞、詞性標(biāo)注和Parser,支持多語(yǔ)言,據(jù)說(shuō)效果是公開(kāi)的分詞器中最好的,C++語(yǔ)言編寫。
關(guān)于速度:由于分詞是基礎(chǔ)組件,其性能也是關(guān)鍵的考量因素。通常,分詞速度跟系統(tǒng)的軟硬件環(huán)境有相關(guān)外,還與詞典的結(jié)構(gòu)設(shè)計(jì)和算法復(fù)雜度相關(guān)。比如我們之前跑過(guò)字嵌入+Bi-LSTM+CRF分詞器,其速度相對(duì)較慢。
另外,開(kāi)源項(xiàng)目 https://github.com/ysc/cws_evaluation 曾對(duì)多款分詞器速度和效果進(jìn)行過(guò)對(duì)比,可供大家參考。最后附上公開(kāi)的分詞數(shù)據(jù)集測(cè)試數(shù)據(jù)集1、SIGHAN Bakeoff 2005 MSR,560KB? http://sighan.cs.uchicago.edu/bakeoff2005/2、SIGHAN Bakeoff 2005 PKU, 510KB? http://sighan.cs.uchicago.edu/bakeoff2005/3、人民日?qǐng)?bào) 2014, 65MB? https://pan.baidu.com/s/1hq3KKXe本回答來(lái)自 竹間智能 自然語(yǔ)言與深度學(xué)習(xí)小組 。
最后附上公開(kāi)的分詞數(shù)據(jù)集測(cè)試數(shù)據(jù)集
1、SIGHAN Bakeoff 2005 MSR,560KB? http://sighan.cs.uchicago.edu/bakeoff2005/
2、SIGHAN Bakeoff 2005 PKU, 510KB? http://sighan.cs.uchicago.edu/bakeoff2005/
3、人民日?qǐng)?bào) 2014, 65MB? https://pan.baidu.com/s/1hq3KKXe
其實(shí)solr自帶的跨語(yǔ)言自然一元分詞就很好了,怎么測(cè)效果也不比國(guó)內(nèi)搞的分詞差,也許大多數(shù)情況下不需要國(guó)產(chǎn)的中文分詞。下面列舉原因,歡迎拍磚。1. 不可能有一種中文分詞算法能完全準(zhǔn)確地分詞,完全按中文分詞進(jìn)行的搜索不能保證搜索的全覆蓋,而按字分詞的結(jié)果是可以保證的2. 中文分詞帶來(lái)額外的開(kāi)銷,比如查字典,智能算法等,而一元按字分詞開(kāi)銷最小。有人說(shuō)按字分詞造成索引變大,造成開(kāi)銷大,其實(shí)英文單詞比中文字還多,這方面不是問(wèn)題3. 按中文分詞搜索,首先對(duì)要搜索的內(nèi)容要先分詞,這就有可能造成了第一步最主要的誤差,中文分詞引擎分出的詞很可能不能代表用戶的意思,而luncene基于slop的匹配誤差更小4. 隨著中文分詞算法的改進(jìn),有可能在索引中形成詞信息孤島,要么隨它占用資源,要么付出成本去維護(hù);而基于一元字分詞的算法就沒(méi)有這個(gè)問(wèn)題遺憾的是讓外國(guó)人搞出了這個(gè)通用算法在中文分詞方面居然比我們自己做的還好。
在solr里面同時(shí)配了多種常見(jiàn)分詞組件測(cè)試過(guò)才這么說(shuō)的。關(guān)于搜“和服”,是老生常談的分詞話題了,前面說(shuō)了,“1.
不可能有一種中文分詞算法能完全準(zhǔn)確地分詞”,必須承認(rèn)要這一點(diǎn),但可以把分詞做得很復(fù)雜力圖準(zhǔn)確些,solr自帶的跨語(yǔ)言分詞同樣也可以做得很復(fù)雜,只不過(guò)我們是走進(jìn)了一個(gè)查自帶字典的死胡同,開(kāi)銷很大,實(shí)際上字典應(yīng)該自動(dòng)維護(hù)在索引中而不是不需要另外一本字典,每種分支都有得分值,取得分高的排前面大多數(shù)情況下是合理的,如果要求還要提高,就得靠分析語(yǔ)義,現(xiàn)在這些常見(jiàn)分詞組件根本就沒(méi)有語(yǔ)義分析功能。
建議大家多做測(cè)試再說(shuō),歡迎對(duì)我提的每一條具體反駁。
也建議大家現(xiàn)在在百度里搜下“和服”,看有沒(méi)有這樣一條結(jié)果:季莫申科拒監(jiān)禁期間穿囚服和服勞役_網(wǎng)易新聞中心
@熊偉 我們先把話題縮小到“搜索”這個(gè)小范疇內(nèi),不然放到NLP領(lǐng)域,不做分詞就什么都不是了。
1. 不可能有一種中文分詞算法能完全準(zhǔn)確地分詞,完全按中文分詞進(jìn)行的搜索不能保證搜索的全覆蓋,而按字分詞的結(jié)果是可以保證的。
分詞的準(zhǔn)確率方面,目前基本常用的分詞技術(shù)都有99%左右的準(zhǔn)確率(準(zhǔn)確率是指不分錯(cuò),不包括未登錄詞)。按字切分當(dāng)然不會(huì)錯(cuò),但是在搜索時(shí)同樣召回了大量“不相關(guān)”的結(jié)果,給做Rank帶來(lái)了巨大的難度。同時(shí)還丟失了眾多“詞”一級(jí)的屬性。
2. 中文分詞帶來(lái)額外的開(kāi)銷,比如查字典,智能算法等,而一元按字分詞開(kāi)銷最小。有人說(shuō)按字分詞造成索引變大,造成開(kāi)銷大,其實(shí)英文單詞比中文字還多,這方面不是問(wèn)題
中分分詞目前的主流算法,都是低開(kāi)銷型的。中科院那個(gè)都能達(dá)到500KB/s的分詞速度,各家企業(yè)應(yīng)用的分詞也完全不是性能瓶頸。切詞性能說(shuō)是不存在的。
3. 按中文分詞搜索,首先對(duì)要搜索的內(nèi)容要先分詞,這就有可能造成了第一步最主要的誤差,中文分詞引擎分出的詞很可能不能代表用戶的意思,而luncene基于slop的匹配誤差更小
用戶表述的多樣性,可以通過(guò)多粒度切詞來(lái)達(dá)到同樣的效果,魔獸世界可以切出魔獸,也可以切出魔獸世界,這個(gè)不存在切詞的劣勢(shì)一說(shuō)。
4.? 隨著中文分詞算法的改進(jìn),有可能在索引中形成詞信息孤島,要么隨它占用資源,要么付出成本去維護(hù);而基于一元字分詞的算法就沒(méi)有這個(gè)問(wèn)題
這個(gè)沒(méi)什么好說(shuō)的。
補(bǔ)充:
按字切分的一元分詞,就是石器時(shí)代的東西。詞一級(jí)的信息被完全丟失,最基本的idf信息都失效了,term重要性分析基本不可能進(jìn)行,更不要說(shuō)加入詞性,做同義詞變換,做句法樹(shù)等等應(yīng)用。這里就不繼續(xù)展開(kāi)了。
現(xiàn)代搜索技術(shù)發(fā)展了這么多年,按字切分這種甚至不如二元切分的技術(shù),實(shí)在是不敢茍同。這不是一個(gè)技術(shù)人員應(yīng)該有的視野,如果繼續(xù)堅(jiān)持這種原始野性的世界觀,只有被淘汰沒(méi)有什么其他的。
@楊宣 其實(shí)一元分詞這種說(shuō)法就不規(guī)范,按理解就是一個(gè)字一分。而多元的多個(gè)字連起來(lái)分,無(wú)論在任何情況下,一元分詞能保證全覆蓋。針對(duì)某些句子,用多元分很可能有多種分法,不結(jié)合語(yǔ)義不能自動(dòng)確定哪個(gè)是對(duì)的,比如"登上海南公司的航班"不保證不切出"上海"、"上海南"來(lái),這就造成多元分詞的不穩(wěn)定,不同軟件,針對(duì)不同句子,有不同的結(jié)果,而且不能保證信息的全覆蓋,有可能搜不到的情況(在mmseg4j復(fù)雜模式下,切出一個(gè)長(zhǎng)詞"海南航空公司",搜局部就可能搜不到),甚至直接切出垃圾(如前面的"上海",又占資源,有影響結(jié)果)
其次,不能說(shuō)多元分詞比一元分詞準(zhǔn)確,準(zhǔn)確和詞的上下文的推導(dǎo)算法有關(guān),多元的可以按前后詞推導(dǎo),一元的照樣可以按前后字推導(dǎo)。只不過(guò)solr自帶的跨語(yǔ)言自然一元分詞是按照基于slop的匹配,沒(méi)有推導(dǎo),slop是指匹配結(jié)果字直接的間距,最小的結(jié)果排最前。如果搜“中華人民共和國(guó)”七個(gè)字,每個(gè)字都匹配上了,而且他們的slop都等于0(最高優(yōu)先級(jí)),這個(gè)沒(méi)用字典哦。這種算法并不算多好,但至少現(xiàn)在在solr的一般站內(nèi)搜索應(yīng)用中并不比國(guó)產(chǎn)的差。
1. "海南航空公司"的case,廣泛應(yīng)用的多粒度切詞已經(jīng)可以解決你說(shuō)的問(wèn)題,即會(huì)切出長(zhǎng)串,也會(huì)切出基本詞。和你說(shuō)的效果上沒(méi)有差別。
2. 你說(shuō)的間距,就是在信息檢索時(shí)用到的offset。任何切詞方法在rank時(shí)都會(huì)用到這個(gè)技術(shù)。
我給你舉個(gè)例子,搜索“新浪”,你出“浪新”,是不是offset也是0........
3. 你說(shuō)的“不差”,代表的也是石器時(shí)代的“不差”,這種東西沒(méi)法深化,沒(méi)法改進(jìn),跟時(shí)代脫節(jié)。term召回率固然重要,前提是召回的term都是從相關(guān)性上準(zhǔn)確的,為了召回率提升0.01%換來(lái)召回結(jié)果準(zhǔn)確率下降10%,這個(gè)是傻,不是先進(jìn)。更何況上面說(shuō)到的多粒度切詞這類簡(jiǎn)單的做法,完全可以達(dá)到同樣的召回率提升。
4. 換句話說(shuō),如果你舉出任意一個(gè)中文搜索引擎用的是你說(shuō)的方法,并且取得了對(duì)應(yīng)較好的效果來(lái),也算是個(gè)旁證。
5. 不客氣的說(shuō),對(duì)于term召回率的問(wèn)題,用最小粒度切分的方法來(lái)解決,是懶。如果在我的team里面,有任何一個(gè)人提出這樣的解決方案,肯定被我劈頭蓋臉打回去。
空 公司 班機(jī)”, 幾乎和單字一樣多。
你說(shuō)的多粒度切詞有的用,有的不用,中科院的和mmseg4j好像就不用,用粒度越多,垃圾越多。
我們是準(zhǔn)備在站內(nèi)那里用solr, 測(cè)試結(jié)果國(guó)產(chǎn)的分詞不一定好,不過(guò)我們要求覆蓋要全,找不到就屬于大問(wèn)題了。
專做搜索引擎公司的內(nèi)部機(jī)制肯定比我們討論的這些開(kāi)源的復(fù)雜,但我還是覺(jué)得分詞還是最細(xì)分,但結(jié)果交給rank、filter等算法去就好,這也是原本Lucene設(shè)計(jì)的機(jī)制,全世界大多數(shù)語(yǔ)言在google上肯定也是這種機(jī)制,關(guān)于東亞語(yǔ)言的分詞方面好像就是國(guó)內(nèi)叫得比較歡,甚至韓國(guó)、日本在solr中好像沒(méi)有專門自己搞的的分詞插件,相比依賴國(guó)內(nèi)某個(gè)老師、某個(gè)個(gè)人的東西,我更傾向于某些西方的技術(shù),如果想搞個(gè)好的,不如在lucene上搞一個(gè)基于動(dòng)態(tài)自動(dòng)維護(hù)字典的的filter.
@熊偉 “相比依賴國(guó)內(nèi)某個(gè)老師、某個(gè)個(gè)人的東西,我更傾向于某些西方的技術(shù)”
分詞這個(gè)東西 沒(méi)有什么中方西方之分
現(xiàn)在中文很熱 搞中文分詞和中文機(jī)器翻譯的西方學(xué)者非常多
如果你感興趣的話
可以看看斯坦福最近開(kāi)設(shè)的免費(fèi)課程,http://nlp-class.org 第二章就是講語(yǔ)言的切分(雖然大多數(shù)是英文的,比如stemming)
沒(méi)想到這個(gè)回答竟然有了15條評(píng)論這么多
@楊宣 話糙理不糙
很多點(diǎn)上說(shuō)的很有道理,雖然這樣的語(yǔ)氣可能讓其他人不太好接受 還是要感謝一下@楊宣
@雄偉
我基本理解你的意思了,在你的環(huán)境和可以使用到的備選技術(shù)上,一元按字切分可能是滿足你的需求的。
但這個(gè)不代表是可以推廣的,在不同的語(yǔ)料基礎(chǔ)上,你這個(gè)方案的劣勢(shì)是明顯的,不算是“較好的中文分詞方案”。
關(guān)于搜索這個(gè)應(yīng)用場(chǎng)景下,分詞已經(jīng)不是什么前沿技術(shù),但分詞的效果遠(yuǎn)不只開(kāi)源搜索框架下那幾個(gè)默認(rèn)的函數(shù),畢竟這些開(kāi)源搜索框架并不是專門為中文場(chǎng)景使用的,都是很簡(jiǎn)單的基礎(chǔ)示范。同時(shí),基于詞庫(kù)的切詞算法對(duì)于詞庫(kù)的也有要求。楊宣說(shuō)過(guò)的我就不重復(fù)了。
@楊少雄
最好實(shí)際測(cè)一下再說(shuō),搜出結(jié)果里面含風(fēng)馬牛不相及的內(nèi)容很正常,只要不排在合理內(nèi)容的前面,搜偏一點(diǎn)的內(nèi)容很容易就能得到(各大搜索引擎都是這樣)。而且搜偏的反而用一元最好。就搜“上海今天天氣如何”,如果不結(jié)合語(yǔ)義搜的話,按照一元基于slop和優(yōu)先序的算法可能效果比分詞的還好。
就算按國(guó)產(chǎn)組件分詞,也不代表不一元切了,就算用國(guó)產(chǎn)組件分詞去創(chuàng)建索引,里面的javascript:;單字量照樣和所用到的漢字容量差不多?!坝邢薰尽眗ank可能是很高,但不代表“有”、”限”、”公”、”司”四個(gè)字的rank不高(詞也是由字組成的),一元的效果并不差。
上面說(shuō)的全是最近我實(shí)際中測(cè)得效果,也歡迎大家拿實(shí)例說(shuō)話。
雖然我說(shuō)一元的不差,但不代表分詞不好,只是國(guó)內(nèi)做的不好(同義詞,語(yǔ)義分析,權(quán)重等都需要再詞的基礎(chǔ)上進(jìn)行),還有我認(rèn)為他們方向不對(duì)。
最近寫了一款分詞器,調(diào)研了不少文章的開(kāi)源實(shí)現(xiàn)。最終定的方案是 Language Model + CRF
的混合實(shí)現(xiàn)。CRF的字標(biāo)注法是中文分詞比賽上成績(jī)最好的方案,尤其勝在新詞識(shí)別上,而Language
Model在詞典全,詞頻統(tǒng)計(jì)正確的情況下分詞效果也很好,同CRF相比,勝在分詞效果穩(wěn)定,易于調(diào)整,一旦發(fā)現(xiàn)分詞錯(cuò)誤,可以通過(guò)添加新詞修正分詞效果。因此我的分詞器是先通過(guò)
CRF 識(shí)別新詞,然后再用Language Model分詞。當(dāng)然,具體實(shí)現(xiàn)上,還涉及到怎樣融合新詞,分句,識(shí)別英文詞,數(shù)字表達(dá)式,時(shí)間日期等。
為什么不是nba04! 04才是經(jīng)典!
我想用nltk做文獻(xiàn)分類,沒(méi)找到源代碼,答主有嗎
同,結(jié)巴分的不好,后來(lái)試了下ltp,不過(guò)不支持自定義好像,看到評(píng)論里有推薦thulac,打算試試
1、fxsjy/jieba結(jié)巴的標(biāo)語(yǔ)是:做最好的 Python 中文分詞組件,或許從現(xiàn)在來(lái)看它沒(méi)做到最好,但是已經(jīng)做到了使用的人最多。結(jié)巴分詞網(wǎng)上的學(xué)習(xí)資料和使用案例比較多,上手相對(duì)比較輕松,速度也比較快。結(jié)巴的優(yōu)點(diǎn): 支持三種分詞模式? 支持繁體分詞? 支持自定義詞典? MIT 授權(quán)協(xié)議
2、THULAC:一個(gè)高效的中文詞法分析工具包前兩天我在做有關(guān)于共享單車的用戶反饋分類,使用jieba分詞一直太過(guò)零散,分類分不好。后來(lái)江兄給我推薦了THULAC:
由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包
。THULAC的接口文檔很詳細(xì),簡(jiǎn)單易上手。THULAC分詞的優(yōu)點(diǎn):能力強(qiáng)。利用規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)(約含5800萬(wàn)字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese
Treebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s,每秒可處理約15萬(wàn)字。只進(jìn)行分詞速度達(dá)到1.3MB/s,速度比jieba慢。
有很多好用的中文處理包:
Jieba:可以用來(lái)做分詞,詞性標(biāo)注,TextRank
HanLP:分詞,命名實(shí)體識(shí)別,依存句法分析,還有FudanNLP,NLPIR
個(gè)人覺(jué)得都比NLTK好用~
《Python自然語(yǔ)言處理》
http://www.nltk.org/book/
UGC文本數(shù)據(jù)的分析,OpenNLP,搜索排序,語(yǔ)義理解、實(shí)體識(shí)別、新詞發(fā)現(xiàn)、協(xié)同過(guò)濾,有深度學(xué)習(xí)背景、問(wèn)答系統(tǒng)、對(duì)話系統(tǒng),ner,屬性/偏好/行為分析,運(yùn)營(yíng)商領(lǐng)域DPI數(shù)據(jù)深度解析,了解開(kāi)源算法:anaconda,summa,libsvm,
用Python做自然語(yǔ)言處理必知的八個(gè)工具
Python以其清晰簡(jiǎn)潔的語(yǔ)法、易用和可擴(kuò)展性以及豐富龐大的庫(kù)深受廣大開(kāi)發(fā)者喜愛(ài)。其內(nèi)置的非常強(qiáng)大的機(jī)器學(xué)習(xí)代碼庫(kù)和數(shù)學(xué)庫(kù),使Python理所當(dāng)然成為自然語(yǔ)言處理的開(kāi)發(fā)利器。那么使用Python進(jìn)行自然語(yǔ)言處理,要是不知道這8個(gè)工具就真的Out了。
NLTK
NLTK是使用Python處理語(yǔ)言數(shù)據(jù)的領(lǐng)先平臺(tái)。它為像WordNet這樣的詞匯資源提供了簡(jiǎn)便易用的界面。它還具有為文本分類(classification)、文本標(biāo)記(tokenization)、詞干提取(stemming)、詞性標(biāo)記(tagging)、語(yǔ)義分析(parsing)和語(yǔ)義推理(semantic reasoning)準(zhǔn)備的文本處理庫(kù)。
Pattern
Pattern具有用于詞性標(biāo)注(part-of-speech taggers)、n-gram搜索、情感分析和WordNet的一系列工具。它還支持矢量空間建模、聚類分析以及支持向量機(jī)。
TextBlob
TextBlob是處理文本數(shù)據(jù)的一個(gè)Python庫(kù)。它為深入挖掘常規(guī)自然語(yǔ)言處理提供簡(jiǎn)單易用的API,例如詞性標(biāo)注(part-of-speech tagging)、名詞短語(yǔ)提取(noun phrase extraction)、情感分析、文本分類、機(jī)器翻譯等等。
Gensim
Gensim是一個(gè)用于主題建模、文檔索引以及使用大規(guī)模語(yǔ)料數(shù)據(jù)的相似性檢索。相比于RAM,它能處理更多的輸入數(shù)據(jù)。作者稱它是“根據(jù)純文本進(jìn)行非監(jiān)督性建模最健壯、最有效的、最讓人放心的軟件”。
PyNLPl
PyNLPl:Python Natural Language Processing Library(發(fā)音為:pineapple)是一個(gè)用于自然語(yǔ)言處理的Python庫(kù)。它由一系列的相互獨(dú)立或相互松散獨(dú)立的模塊構(gòu)成,用于處理常規(guī)或不太常規(guī)的NLP任務(wù)。PyNLPl可用于n-gram計(jì)算、頻率列表和分布、語(yǔ)言建模。除此之外,還有更加復(fù)雜的數(shù)據(jù)模型,例如優(yōu)先級(jí)隊(duì)列;還有搜索引擎,例如波束搜索。
spaCy
spaCy是一個(gè)商業(yè)化開(kāi)源軟件,是使用Python和Cython進(jìn)行工業(yè)級(jí)自然語(yǔ)言處理的軟件。它是目前最快的、水平最高的自然語(yǔ)言處理工具。
Polyglot
Polyglot是一個(gè)支持海量多語(yǔ)言的自然語(yǔ)言處理工具。它支持多達(dá)165種語(yǔ)言的文本標(biāo)記,196種語(yǔ)言的語(yǔ)言檢測(cè),40種語(yǔ)言的命名實(shí)體識(shí)別,16種語(yǔ)言的詞性標(biāo)注,136種語(yǔ)言的情感分析,137種語(yǔ)言的字根嵌入,135種語(yǔ)言的形態(tài)分析以及69種語(yǔ)言的音譯。
MontyLingua
MontyLingua是一個(gè)免費(fèi)的、常識(shí)豐富的、端對(duì)端的英語(yǔ)自然語(yǔ)言理解軟件。用戶只需要將原始英文文本輸入MontyLingua,就能輸出文本的語(yǔ)義解釋。該軟件完美適用于信息提取、需求處理以及問(wèn)答。從給定的英語(yǔ)文本,它能提取主語(yǔ)/動(dòng)詞/形容詞對(duì)象元組、名詞短語(yǔ)和動(dòng)詞短語(yǔ),并提取人的名字、地點(diǎn)、事件、日期和時(shí)間,以及其他語(yǔ)義信息。
對(duì)于文本數(shù)據(jù)的處理,可以分為去噪、排重、聚類、分類、觀點(diǎn)提取、觀點(diǎn)權(quán)重排序等環(huán)節(jié)。這里面需要大量使用到NLP(自然語(yǔ)言處理)的相關(guān)技術(shù),目前這類技術(shù)開(kāi)放的互聯(lián)網(wǎng)公司也不少,比如騰訊文智、玻森實(shí)驗(yàn)室、微軟NLP.....
去噪,顧名思義就是去除與監(jiān)控主體不相關(guān)的文本信息,這里需要用到大量的機(jī)器學(xué)習(xí)語(yǔ)料以來(lái)做判斷。比如我有款產(chǎn)品叫“心跳”,爬蟲從上述渠道中獲取了大量關(guān)于“心跳”的文本信息,但是只需要保留住產(chǎn)品名叫“心跳”的那些文檔就好,而其他“我看到宋鐘基心跳不止”一類的文檔,就屬于噪音。排重,沒(méi)什么好說(shuō)的,就是將相同文檔歸一。這是清洗基礎(chǔ)數(shù)據(jù)的第二步,排重掉大量相同文檔,數(shù)據(jù)量會(huì)大幅度降低。聚類,將相似文檔進(jìn)行歸類,目的也是為了減少數(shù)據(jù)量。分類,更好的定位出篩出的數(shù)據(jù)是與我產(chǎn)品相關(guān)的。在產(chǎn)品這塊可能作用不是太明顯。我就不展開(kāi)細(xì)說(shuō)了。最后提取出每個(gè)類別下的代表觀點(diǎn),識(shí)別出正負(fù)面,并對(duì)觀點(diǎn)進(jìn)行排序,這樣就能獲取到總結(jié)好的對(duì)于產(chǎn)品的真實(shí)反饋全貌,哪些優(yōu)點(diǎn),哪些缺點(diǎn)。就如漏斗模型一樣,數(shù)據(jù)進(jìn)行一層層清洗和篩選,最終給到人工的是很全又少量的信息,大大節(jié)省了人力處理成本。上述是比較高端的用戶反饋收集和處理方式,其實(shí)簡(jiǎn)單易行的,比如產(chǎn)品評(píng)測(cè)、用戶調(diào)研的方式也是當(dāng)下使用的比較多的,特別是后者。對(duì)于產(chǎn)品評(píng)測(cè)本人也有悉心的研究和豐富的工作經(jīng)驗(yàn),有空可以細(xì)說(shuō)。
幾分鐘即可接入的中文語(yǔ)義分析平臺(tái)
各種應(yīng)用服務(wù)每天產(chǎn)生著大量的用戶交互數(shù)據(jù),媒體輿情、社交、客服溝通,非結(jié)構(gòu)化的用戶數(shù)據(jù)越來(lái)越多,這是深刻理解用戶需求偏好、品牌產(chǎn)品意見(jiàn),洞察市場(chǎng)和消費(fèi)行為趨勢(shì)的寶藏。善用這部分非結(jié)構(gòu)化數(shù)據(jù),有助于指導(dǎo)經(jīng)營(yíng)決策、用戶運(yùn)營(yíng)以及產(chǎn)品設(shè)計(jì)的趨勢(shì)方向把握。
語(yǔ)義大數(shù)據(jù)分析有一定的進(jìn)入門檻,大多數(shù)企業(yè)和開(kāi)發(fā)者將有限資源投入在自己的核心領(lǐng)域,希望語(yǔ)義大數(shù)據(jù)作為一個(gè)增值服務(wù)亮點(diǎn)功能,又受資源所限制。大多數(shù)團(tuán)隊(duì)并沒(méi)有為大數(shù)據(jù)語(yǔ)義分析儲(chǔ)備專業(yè)人才資源,也沒(méi)有行業(yè)詞庫(kù)、知識(shí)的積累,更沒(méi)有資源和精力持續(xù)做數(shù)據(jù)訓(xùn)練迭代。
術(shù)業(yè)有專攻,介紹幾個(gè)通過(guò)API幾分鐘即可接入的語(yǔ)義分析工具,做到一定程度的開(kāi)箱即用,又滿足一定的二次開(kāi)發(fā)支持需求。具體那款適合,大家可以去實(shí)際體驗(yàn)下,幾個(gè)平臺(tái)都提供免費(fèi)體驗(yàn)方式。
此類工具適用用對(duì)象
產(chǎn)品和服務(wù)具有大量用戶產(chǎn)生的內(nèi)容
有很多非結(jié)構(gòu)化數(shù)據(jù)
海量信息篩選,價(jià)值信息挖掘
用戶偏好分析
用戶情緒情感分析
同時(shí),團(tuán)隊(duì)缺乏完全從0到1建設(shè)的能力
缺乏專業(yè)領(lǐng)域人才
缺乏穩(wěn)定的團(tuán)隊(duì)組合
缺乏行業(yè)和領(lǐng)域的詞庫(kù)、知識(shí)積累
缺乏經(jīng)過(guò)驗(yàn)證和迭代的經(jīng)驗(yàn)基礎(chǔ)
用第三方工具,可以去快速驗(yàn)證市場(chǎng)需求,搶在時(shí)間的前面,探查客戶反饋,以判斷自己是否以及在哪個(gè)方面需要自主投入專業(yè)資源進(jìn)一步做深入。
玻森中文語(yǔ)義開(kāi)放平臺(tái)
一站式解決中文語(yǔ)義分析需求:情感分析、信息分類、實(shí)體識(shí)別、典型意見(jiàn)、文本聚類、關(guān)鍵詞提取。
單文本和多文本分析
自主研發(fā)千萬(wàn)級(jí)中文語(yǔ)料庫(kù)
可定制數(shù)據(jù)分析模型和解決方案
具有每日千萬(wàn)次API調(diào)用的商業(yè)用戶服務(wù)能力
開(kāi)放中文語(yǔ)義API,快速注冊(cè),30秒可用
官網(wǎng):首頁(yè) - BosonNLP
商業(yè)服務(wù)收費(fèi)模式
騰訊文智中文語(yǔ)義平臺(tái)
一站式滿足用戶NLP、轉(zhuǎn)碼、抽取、全網(wǎng)數(shù)據(jù)抓取等中文語(yǔ)義分析需求的開(kāi)放平臺(tái)。
提供智能分詞、實(shí)體識(shí)別、情感分析、轉(zhuǎn)碼抽取、文本聚類等語(yǔ)義API。
騰訊產(chǎn)品的成功應(yīng)用經(jīng)驗(yàn)和100億級(jí)的API調(diào)用服務(wù)。
支持深入合作定制產(chǎn)品特色的語(yǔ)義分析解決方案。
官網(wǎng):騰訊文智中文語(yǔ)義平臺(tái)-首頁(yè)
商業(yè)服務(wù)收費(fèi)模式
哈工大訊飛語(yǔ)言云
哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語(yǔ)言處理服務(wù)平臺(tái),提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語(yǔ)義角色標(biāo)注等自然語(yǔ)言處理服務(wù)。
應(yīng)用場(chǎng)景如用戶喜好分析、情緒情感分析、人際網(wǎng)絡(luò)分析、關(guān)鍵字知識(shí)圖譜
用戶喜好分析:借助分詞、詞性標(biāo)注和依存句法分析可以深挖用戶上傳內(nèi)容以及評(píng)論反饋信息,以“詞云”的形式展示用戶最關(guān)注的產(chǎn)品特性和評(píng)價(jià)。
情緒自動(dòng)識(shí)別:通過(guò)對(duì)用戶的評(píng)論、留言、交流信息中的文本進(jìn)行語(yǔ)言處理,自動(dòng)識(shí)別用戶的情緒。
API提供了包括PLAIN/XML/JSON/CONLL等多種格式的結(jié)果表示,返回結(jié)果容易擴(kuò)展,便于進(jìn)行二次開(kāi)發(fā)。
為保障系統(tǒng)穩(wěn)定,語(yǔ)言云API的使用頻率默認(rèn)限制為每個(gè)IP 200次/秒。
支持包括中小企業(yè)在內(nèi)開(kāi)發(fā)者的商業(yè)應(yīng)用需要
提供研究性免費(fèi)服務(wù),商業(yè)服務(wù)洽談溝通
關(guān)聯(lián)閱讀:
接入簡(jiǎn)單又實(shí)用的10款移動(dòng)數(shù)據(jù)分析工具
這里的分享僅針對(duì)有API快速接入的語(yǔ)義分析平臺(tái),有些語(yǔ)義分析服務(wù)通過(guò)工具包、開(kāi)源軟件實(shí)現(xiàn),這里沒(méi)有舉例。
我們也在尋找語(yǔ)義分析的合作伙伴,希望與領(lǐng)域內(nèi)的專業(yè)平臺(tái)和專家交流學(xué)習(xí),也希望認(rèn)識(shí)些朋友進(jìn)一步交流,尤其是針對(duì)社群社交數(shù)據(jù)分析的技術(shù)支持,如:群繪社群數(shù)據(jù)平臺(tái)。
從開(kāi)源入手:StanfordNLP和HIT-LTP
《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》這本書不錯(cuò)
《數(shù)學(xué)之美》是第一本要學(xué)習(xí)的書
推薦本書《Python自然語(yǔ)言處理》
推薦一個(gè)博客52NLP和CS224D教程
上一邊Collins的nlp課,看一遍他的講義就夠了
學(xué)習(xí)NLP是一個(gè)艱苦的過(guò)程,好多東西需要學(xué),尤其是剛?cè)腴T時(shí)。
哈工大的SCIR實(shí)驗(yàn)室絕對(duì)是國(guó)內(nèi)數(shù)一數(shù)二的頂尖NLP實(shí)驗(yàn)室。
百度:百度副總裁,<b>AI技術(shù)平臺(tái)體系總負(fù)責(zé)人王海峰博士</b>畢業(yè)于哈工大,目前是SCIR實(shí)驗(yàn)室的兼職教授,王海峰博士是ACL50多年歷史上唯一出任過(guò)主席的華人。據(jù)不完全統(tǒng)計(jì),該實(shí)驗(yàn)室在百度的畢業(yè)生約為20位,其中包李彥宏的開(kāi)門弟子(博士后),百度高級(jí)研究院趙世奇博士等。</p><p>
騰訊:SCIR實(shí)驗(yàn)室是<b>騰訊AL Lab最早的聯(lián)合實(shí)驗(yàn)室</b>,
騰訊AI平臺(tái)部NLP技術(shù)中心副總監(jiān)周連強(qiáng)</b>就是SCIR實(shí)驗(yàn)室07級(jí)的碩士生,劉挺教授還是<b>騰訊AI Lab特聘學(xué)術(shù)顧問(wèn)(騰訊 AI Lab - 騰訊人工智能實(shí)驗(yàn)室官網(wǎng))。據(jù)不完全統(tǒng)計(jì),該實(shí)驗(yàn)室在騰訊的畢業(yè)生約為25位。
阿里:自然語(yǔ)言處理部總監(jiān)郎君</b>為SCIR實(shí)驗(yàn)室的06級(jí)博士生。據(jù)不完全統(tǒng)計(jì),該實(shí)驗(yàn)室在阿里的畢業(yè)生約為10位。</p><p>
微軟:微軟和國(guó)內(nèi)的很多高校有聯(lián)合實(shí)驗(yàn)室
但NLP方向的聯(lián)合實(shí)驗(yàn)室只有清華和哈工大兩家,在微軟亞洲研究院的門戶網(wǎng)站上,<b>共列出研究人員11名,其中有5人是在哈工大獲得博士學(xué)位。</b></p><p>(注:微軟哈工大聯(lián)合實(shí)驗(yàn)室是哈工大機(jī)器智能實(shí)驗(yàn)室,此實(shí)驗(yàn)室并非之前說(shuō)的SCIR實(shí)驗(yàn)室,該實(shí)驗(yàn)室有著名的李生教授坐鎮(zhèn),由于鄙人不了解該實(shí)驗(yàn)室,恕不詳細(xì)介紹,知友可自行了解。)</p><p>
科大訊飛:科大訊飛是亞太地區(qū)最大的語(yǔ)音上市公司,在智能語(yǔ)音技術(shù)的多個(gè)領(lǐng)域均處于業(yè)界領(lǐng)先地位。科大訊飛與哈工大有語(yǔ)言認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室(<a
href=\"https://link.zhihu.com/?target=http%3A//ir.hit.edu.cn/1348.html\"
class=\" wrap external\"
target=\"_blank\" rel=\"nofollow
noreferrer\">哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心 - 理解語(yǔ)言,認(rèn)知社會(huì)
&amp;quot; 科大訊飛與哈工大聯(lián)合創(chuàng)建語(yǔ)言認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室
學(xué)術(shù)界
清華大學(xué)自然語(yǔ)言處理與人文計(jì)算實(shí)驗(yàn)室(歡迎來(lái)到清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室):清華計(jì)算機(jī)系前院長(zhǎng)孫茂松教授是他們的leader
北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室):是北大計(jì)算機(jī)學(xué)科比較有實(shí)力的一個(gè)研究方向之一
中科院計(jì)算所自然語(yǔ)言處理研究組(歡迎來(lái)到中科院計(jì)算所自然語(yǔ)言處理組網(wǎng)站):尤其專長(zhǎng)在機(jī)器翻譯領(lǐng)域,組長(zhǎng)為劉群研究員,大家常使用的中文分詞工具ICTCLAS就是他們參與開(kāi)發(fā)的
哈爾濱工業(yè)大學(xué):實(shí)力也很強(qiáng),實(shí)驗(yàn)室查了一下感覺(jué)好亂,主要有:智能技術(shù)與自然語(yǔ)言處理研究室(ITNLP)、哈工大語(yǔ)言語(yǔ)音教育部-微軟重點(diǎn)實(shí)驗(yàn)室(哈工大語(yǔ)言語(yǔ)音教育部)、(哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心)哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心;現(xiàn)任中文信息學(xué)會(huì)理事長(zhǎng)李生教授就是哈工大的、下面提到的現(xiàn)任ACL主席王海峰先生也是哈工大畢業(yè)的;而且值得一提的是,哈工大雖然遠(yuǎn)在最東北地區(qū),但是和工業(yè)界,像微軟、百度、科大訊飛等都有著緊密的聯(lián)系。
工業(yè)界
像知名搜索引擎公司在這些方面應(yīng)該都有不俗的積累
搜狗公司
百度公司:現(xiàn)任副總裁王海峰先生是自然語(yǔ)言處理領(lǐng)域世界上影響力最大、也最具活力的國(guó)際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50多年歷史上唯一的華人主席。
微軟亞洲研究院
科大訊飛:國(guó)內(nèi)專業(yè)做中文語(yǔ)音、文字產(chǎn)品研發(fā)的企業(yè),是目前國(guó)內(nèi)最大的智能語(yǔ)音技術(shù)提供商。
另外,圖模型,深度學(xué)習(xí)……等等內(nèi)容,都是一些方向。
自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別等等也是一些應(yīng)用方向,更有大量的領(lǐng)域知識(shí)需要結(jié)合。