先锋AV三上悠亚,51精品一区二区

常用概念：

自然語(yǔ)言處理（NLP）

數(shù)據(jù)挖掘

推薦算法

用戶畫像

知識(shí)圖譜

信息檢索

文本分類

常用技術(shù)：

詞級(jí)別：分詞(Seg)，詞性標(biāo)注(POS)，命名實(shí)體識(shí)別（NER），未登錄詞識(shí)別，詞向量（word2vec），詞義消歧

句子級(jí)別：情感分析，關(guān)系提取，意圖識(shí)別，依存句法分析（paser），角色標(biāo)注，淺層語(yǔ)義分析，指代消解

篇章級(jí)別：信息抽取，本體提取，事件抽取，主題提取，文檔聚類，輿情分析，篇章理解，自動(dòng)文摘

常用算法：

機(jī)器學(xué)習(xí)（感知機(jī)，邏輯回歸，隱馬爾科夫（HMM），條件隨機(jī)場(chǎng)（CRF），支持向量機(jī)（SVM），語(yǔ)言模型，主題模型（LDA），TF-IDF，互信息（PMI），貝葉斯模型，概率圖模型

深度學(xué)習(xí)（cnn,rnn,dnn,lstm等）

中科院nlpir和海量分詞（http://www.hylanda.com/）是收費(fèi)的。

hanlp:推薦基于CRF的模型的實(shí)現(xiàn)~~要看語(yǔ)料，很多常用詞會(huì)被分錯(cuò)，所以需要詞庫(kù)支撐。目前最友好的開(kāi)源工具包應(yīng)該是HanLP，基于詞典，對(duì)各種實(shí)體詞匯做了HMM，也提供了CRF模型。工程實(shí)現(xiàn)也不錯(cuò)，性能不是瓶頸。代碼有相對(duì)完備的注釋，文檔也比較全，各種算法原理實(shí)現(xiàn)也有對(duì)應(yīng)blog，自己研究和做二次開(kāi)發(fā)都比較方便。

最近寫了一款分詞器，調(diào)研了不少文章的開(kāi)源實(shí)現(xiàn)。最終定的方案是 Language Model + CRF

的混合實(shí)現(xiàn)。CRF的字標(biāo)注法是中文分詞比賽上成績(jī)最好的方案，尤其勝在新詞識(shí)別上，而Language

Model在詞典全，詞頻統(tǒng)計(jì)正確的情況下分詞效果也很好，同CRF相比，勝在分詞效果穩(wěn)定，易于調(diào)整，一旦發(fā)現(xiàn)分詞錯(cuò)誤，可以通過(guò)添加新詞修正分詞效果。因此我的分詞器是先通過(guò)

CRF 識(shí)別新詞，然后再用Language Model分詞。當(dāng)然，具體實(shí)現(xiàn)上，還涉及到怎樣融合新詞，分句，識(shí)別英文詞，數(shù)字表達(dá)式，時(shí)間日期等。

中文分詞算法大概分為兩大類

a.第一類是基于字符串匹配，即掃描字符串，如果發(fā)現(xiàn)字符串的子串和詞相同，就算匹配。這類分詞通常會(huì)加入一些啟發(fā)式規(guī)則，比如“正向/反向最大匹配”, “長(zhǎng)詞優(yōu)先” 等策略這類算法優(yōu)點(diǎn)是速度塊，都是O(n)時(shí)間復(fù)雜度，實(shí)現(xiàn)簡(jiǎn)單，效果尚可。也有缺點(diǎn)，就是對(duì)歧義和未登錄詞處理不好。歧義的例子很簡(jiǎn)單"長(zhǎng)春市/長(zhǎng)春/藥店" "長(zhǎng)春/市長(zhǎng)/春藥/店".未登錄詞即詞典中沒(méi)有出現(xiàn)的詞，當(dāng)然也就處理不好。 ikanalyzer,paoding 等就是基于字符串匹配的分詞。

b.第二類是基于統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的分詞方式這類分詞基于人工標(biāo)注的詞性和統(tǒng)計(jì)特征，對(duì)中文進(jìn)行建模，即根據(jù)觀測(cè)到的數(shù)據(jù)（標(biāo)注好的語(yǔ)料）對(duì)模型參數(shù)進(jìn)行估計(jì)，即訓(xùn)練。在分詞階段再通過(guò)模型計(jì)算各種分詞出現(xiàn)的概率，將概率最大的分詞結(jié)果作為最終結(jié)果。常見(jiàn)的序列標(biāo)注模型有HMM和CRF。

這類分詞算法能很好處理歧義和未登錄詞問(wèn)題，效果比前一類效果好，但是需要大量的人工標(biāo)注數(shù)據(jù)，以及較慢的分詞速度。

ICTCLAS是基于HMM的分詞庫(kù)。

我們?cè)谥貥?gòu)知乎搜索的時(shí)候，權(quán)衡標(biāo)注工作量和性能，以及代碼實(shí)現(xiàn)的復(fù)雜程度，我們考慮采用基于字符串匹配的分詞方法

中文分詞是個(gè)基礎(chǔ)問(wèn)題，研究成果已有不少，我揀幾個(gè)我自己覺(jué)得好的吧。

1。張磊提到的mmseg是我自己最喜歡的分詞方法，簡(jiǎn)單、高效、實(shí)用、效果還不錯(cuò)。http%3A//technology.chtsai.org/mmseg/。我給它起了個(gè)名字，叫做“3段回溯式方法”，即每次從一個(gè)完整的句子里，按照從左向右的順序，識(shí)別出多種不同的3個(gè)詞的組合；然后根據(jù)下面的4條消歧規(guī)則，確定最佳的備選詞組合；選擇備選詞組合中的第1個(gè)詞，作為1次迭代的分詞結(jié)果；剩余的2個(gè)詞繼續(xù)進(jìn)行下一輪的分詞運(yùn)算。采用這種辦法的好處是，為傳統(tǒng)的前向最大匹配算法加入了上下文信息，解決了其每次選詞只考慮詞本身，而忽視上下文相關(guān)詞的問(wèn)題。4條消歧規(guī)則包括，

1）備選詞組合的長(zhǎng)度之和最大。

2）備選詞組合的平均詞長(zhǎng)最大；

3）備選詞組合的詞長(zhǎng)變化最?。?/p>

4）備選詞組合中，單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高。

2.CRF方法是目前公認(rèn)的效果最好的分詞算法。但，具體效果是否好，也依賴于你使用的訓(xùn)練模型nlp.stanford.edu/software/segmenter.shtml"

3. 我認(rèn)識(shí)一個(gè)做搜索解決方案的朋友，他們公司提供了CRF和mmseg的開(kāi)源實(shí)現(xiàn) "www.coreseek.cn/opensource/"

4. 其實(shí)還可以使用專業(yè)公司的解決方案，比如海量和中科院分詞的收費(fèi)版本，也花不了多少錢。集中精力找到你自己產(chǎn)品獨(dú)特的價(jià)值所在。

之前做自然語(yǔ)言解析的時(shí)候用了mmseg，很不錯(cuò)的說(shuō)聲。。

1. 好詞典很重要不論什么樣的分詞方法, 優(yōu)秀的詞典必不可少,? 越拿老掉牙的詞典對(duì)越新的文本進(jìn)行分詞,? 就越會(huì)分成一團(tuán)糟.

怎樣構(gòu)建一個(gè)優(yōu)秀的詞典,? 快速發(fā)現(xiàn)新新詞匯?? 可以看 @M67 前兩天寫的文章, 講的非常透徹明白 :

互聯(lián)網(wǎng)時(shí)代的社會(huì)語(yǔ)言學(xué)：基于SNS的文本數(shù)據(jù)挖掘 (

http://www.matrix67.com/blog/archives/5044/trackback ) 2.

算法跟著需求走建議根據(jù)不同的需求選用不同的算法,? 例如,? 類似知乎頭部搜索的? AutoComplete 部分, 講究的是速度快,

興趣相關(guān)( 優(yōu)先找和你賬戶相關(guān), 和可能感興趣的內(nèi)容 ),? 分詞算法反而在其次了.? 而像全文搜索這樣大段大段的長(zhǎng)文字.

我覺(jué)得則更注重的是精準(zhǔn),? 應(yīng)該選一個(gè)像CRF這樣的算法.

中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟，也是中文人機(jī)自然語(yǔ)言交互的基礎(chǔ)模塊。不同于英文的是，中文句子中沒(méi)有詞的界限，因此在進(jìn)行中文自然語(yǔ)言處理時(shí)，通常需要先進(jìn)行分詞，分詞效果將直接影響詞性、句法樹(shù)等模塊的效果。當(dāng)然分詞只是一個(gè)工具，場(chǎng)景不同，要求也不同。在人機(jī)自然語(yǔ)言交互中，成熟的中文分詞算法能夠達(dá)到更好的自然語(yǔ)言處理效果，幫助計(jì)算機(jī)理解復(fù)雜的中文語(yǔ)言。竹間智能在構(gòu)建中文自然語(yǔ)言對(duì)話系統(tǒng)時(shí)，結(jié)合語(yǔ)言學(xué)不斷優(yōu)化，訓(xùn)練出了一套具有較好分詞效果的算法模型，為機(jī)器更好地理解中文自然語(yǔ)言奠定了基礎(chǔ)。在此，對(duì)于中文分詞方案、當(dāng)前分詞器存在的問(wèn)題，以及中文分詞需要考慮的因素及相關(guān)資源，竹間智能自然語(yǔ)言與深度學(xué)習(xí)小組做了些整理和總結(jié)，希望能為大家提供一些參考。中文分詞根據(jù)實(shí)現(xiàn)原理和特點(diǎn)，主要分為以下2個(gè)類別：

1、基于詞典分詞算法也稱字符串匹配分詞算法。該算法是按照一定的策略將待匹配的字符串和一個(gè)已建立好的“充分大的”詞典中的詞進(jìn)行匹配，若找到某個(gè)詞條，則說(shuō)明匹配成功，識(shí)別了該詞。常見(jiàn)的基于詞典的分詞算法分為以下幾種：正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基于詞典的分詞算法是應(yīng)用最廣泛、分詞速度最快的。很長(zhǎng)一段時(shí)間內(nèi)研究者都在對(duì)基于字符串匹配方法進(jìn)行優(yōu)化，比如最大長(zhǎng)度設(shè)定、字符串存儲(chǔ)和查找方式以及對(duì)于詞表的組織結(jié)構(gòu)，比如采用TRIE索引樹(shù)、哈希索引等。

2、基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法這類目前常用的是算法是HMM、CRF、SVM、深度學(xué)習(xí)等算法，比如stanford、Hanlp分詞工具是基于CRF算法，hanlp是基于HMM+CRF，結(jié)巴是基于Viterbi+HMM。以CRF為例，基本思路是對(duì)漢字進(jìn)行標(biāo)注訓(xùn)練，不僅考慮了詞語(yǔ)出現(xiàn)的頻率，還考慮上下文，具備較好的學(xué)習(xí)能力，因此其對(duì)歧義詞和未登錄詞的識(shí)別都具有良好的效果。

Nianwen Xue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對(duì)每個(gè)字符進(jìn)行標(biāo)注，通過(guò)機(jī)器學(xué)習(xí)算法訓(xùn)練分類器進(jìn)行分詞，在論文《Chinese word segmentation as character tagging》中較為詳細(xì)地闡述了基于字標(biāo)注的分詞法。

常見(jiàn)的分詞器都是使用機(jī)器學(xué)習(xí)算法和詞典相結(jié)合，一方面能夠提高分詞準(zhǔn)確率，另一方面能夠改善領(lǐng)域適應(yīng)性。

隨著深度學(xué)習(xí)的興起，也出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的分詞器，例如有人員嘗試使用雙向LSTM+CRF實(shí)現(xiàn)分詞器，其本質(zhì)上是序列標(biāo)注，所以有通用性，命名實(shí)體識(shí)別等都可以使用該模型，據(jù)報(bào)道其分詞器字符準(zhǔn)確率可高達(dá)97.5%。算法框架的思路與論文《Neural Architectures for

Named Entity Recognition》類似，利用該框架可以實(shí)現(xiàn)中文分詞，如下圖所示：首先對(duì)語(yǔ)料進(jìn)行字符嵌入，將得到的特征輸入給雙向LSTM，然后加一個(gè)CRF就得到標(biāo)注結(jié)果。

分詞器當(dāng)前存在問(wèn)題：目前中文分詞難點(diǎn)主要有三個(gè)：

1、分詞標(biāo)準(zhǔn)：比如人名，在哈工大的標(biāo)準(zhǔn)中姓和名是分開(kāi)的，但在Hanlp中是合在一起的。這需要根據(jù)不同的需求制定不同的分詞標(biāo)準(zhǔn)。

2、歧義：對(duì)同一個(gè)待切分字符串存在多個(gè)分詞結(jié)果。歧義又分為組合型歧義、交集型歧義和真歧義三種類型。

1) 組合型歧義：分詞是有不同的粒度的，指某個(gè)詞條中的一部分也可以切分為一個(gè)獨(dú)立的詞條。比如“中華人民共和國(guó)”，粗粒度的分詞就是“中華人民共和國(guó)”，細(xì)粒度的分詞可能是“中華/人民/共和國(guó)”

2) 交集型歧義：在“鄭州天和服裝廠”中，“天和”是廠名，是一個(gè)專有詞，“和服”也是一個(gè)詞，它們共用了“和”字。

3) 真歧義：本身的語(yǔ)法和語(yǔ)義都沒(méi)有問(wèn)題, 即便采用人工切分也會(huì)產(chǎn)生同樣的歧義，只有通過(guò)上下文的語(yǔ)義環(huán)境才能給出正確的切分結(jié)果。例如：對(duì)于句子“美國(guó)會(huì)通過(guò)對(duì)臺(tái)售武法案”，既可以切分成“美國(guó)/會(huì)/通過(guò)對(duì)臺(tái)售武法案”，又可以切分成“美/國(guó)會(huì)/通過(guò)對(duì)臺(tái)售武法案”。一般在搜索引擎中，構(gòu)建索引時(shí)和查詢時(shí)會(huì)使用不同的分詞算法。常用的方案是，在索引的時(shí)候使用細(xì)粒度的分詞以保證召回，在查詢的時(shí)候使用粗粒度的分詞以保證精度。

3、新詞：也稱未被詞典收錄的詞，該問(wèn)題的解決依賴于人們對(duì)分詞技術(shù)和漢語(yǔ)語(yǔ)言結(jié)構(gòu)的進(jìn)一步認(rèn)識(shí)。

另外，我們收集了如下部分分詞工具，供參考：

中科院計(jì)算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分詞器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清華大學(xué)THULAC https://github.com/thunlp/THULAC

斯坦福分詞器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分詞器 https://github.com/hankcs/

HanLP結(jié)巴分詞 https://github.com/yanyiwu/cppjieba

KCWS分詞器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

以及部分分詞器的簡(jiǎn)單說(shuō)明：哈工大的分詞器：主頁(yè)上給過(guò)調(diào)用接口，每秒請(qǐng)求的次數(shù)有限制。

清華大學(xué)THULAC：目前已經(jīng)有Java、Python和C++版本，并且代碼開(kāi)源。

斯坦福分詞器：作為眾多斯坦福自然語(yǔ)言處理中的一個(gè)包，目前最新版本3.7.0， Java實(shí)現(xiàn)的CRF算法。可以直接使用訓(xùn)練好的模型，也提供訓(xùn)練模型接口。

Hanlp分詞：求解的是最短路徑。優(yōu)點(diǎn)：開(kāi)源、有人維護(hù)、可以解答。原始模型用的訓(xùn)練語(yǔ)料是人民日?qǐng)?bào)的語(yǔ)料，當(dāng)然如果你有足夠的語(yǔ)料也可以自己訓(xùn)練。

結(jié)巴分詞工具：基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖 (DAG)；采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合；對(duì)于未登錄詞，采用了基于漢字成詞能力的 HMM 模型，使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分詞器：本質(zhì)上是序列標(biāo)注，這個(gè)分詞器用人民日?qǐng)?bào)的80萬(wàn)語(yǔ)料，據(jù)說(shuō)按照字符正確率評(píng)估標(biāo)準(zhǔn)能達(dá)到97.5%的準(zhǔn)確率，各位感興趣可以去看看。

ZPar分詞器：新加坡科技設(shè)計(jì)大學(xué)開(kāi)發(fā)的中文分詞器，包括分詞、詞性標(biāo)注和Parser，支持多語(yǔ)言，據(jù)說(shuō)效果是公開(kāi)的分詞器中最好的，C++語(yǔ)言編寫。

關(guān)于速度：由于分詞是基礎(chǔ)組件，其性能也是關(guān)鍵的考量因素。通常，分詞速度跟系統(tǒng)的軟硬件環(huán)境有相關(guān)外，還與詞典的結(jié)構(gòu)設(shè)計(jì)和算法復(fù)雜度相關(guān)。比如我們之前跑過(guò)字嵌入+Bi-LSTM+CRF分詞器，其速度相對(duì)較慢。

另外，開(kāi)源項(xiàng)目 https://github.com/ysc/cws_evaluation 曾對(duì)多款分詞器速度和效果進(jìn)行過(guò)對(duì)比，可供大家參考。最后附上公開(kāi)的分詞數(shù)據(jù)集測(cè)試數(shù)據(jù)集1、SIGHAN Bakeoff 2005 MSR,560KB? http://sighan.cs.uchicago.edu/bakeoff2005/2、SIGHAN Bakeoff 2005 PKU, 510KB? http://sighan.cs.uchicago.edu/bakeoff2005/3、人民日?qǐng)?bào) 2014, 65MB? https://pan.baidu.com/s/1hq3KKXe本回答來(lái)自竹間智能自然語(yǔ)言與深度學(xué)習(xí)小組。

最后附上公開(kāi)的分詞數(shù)據(jù)集測(cè)試數(shù)據(jù)集

1、SIGHAN Bakeoff 2005 MSR,560KB? http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHAN Bakeoff 2005 PKU, 510KB? http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日?qǐng)?bào) 2014, 65MB? https://pan.baidu.com/s/1hq3KKXe

其實(shí)solr自帶的跨語(yǔ)言自然一元分詞就很好了，怎么測(cè)效果也不比國(guó)內(nèi)搞的分詞差，也許大多數(shù)情況下不需要國(guó)產(chǎn)的中文分詞。下面列舉原因，歡迎拍磚。1. 不可能有一種中文分詞算法能完全準(zhǔn)確地分詞，完全按中文分詞進(jìn)行的搜索不能保證搜索的全覆蓋，而按字分詞的結(jié)果是可以保證的2. 中文分詞帶來(lái)額外的開(kāi)銷，比如查字典，智能算法等，而一元按字分詞開(kāi)銷最小。有人說(shuō)按字分詞造成索引變大，造成開(kāi)銷大，其實(shí)英文單詞比中文字還多，這方面不是問(wèn)題3. 按中文分詞搜索，首先對(duì)要搜索的內(nèi)容要先分詞，這就有可能造成了第一步最主要的誤差，中文分詞引擎分出的詞很可能不能代表用戶的意思，而luncene基于slop的匹配誤差更小4. 隨著中文分詞算法的改進(jìn)，有可能在索引中形成詞信息孤島，要么隨它占用資源，要么付出成本去維護(hù)；而基于一元字分詞的算法就沒(méi)有這個(gè)問(wèn)題遺憾的是讓外國(guó)人搞出了這個(gè)通用算法在中文分詞方面居然比我們自己做的還好。

在solr里面同時(shí)配了多種常見(jiàn)分詞組件測(cè)試過(guò)才這么說(shuō)的。關(guān)于搜“和服”，是老生常談的分詞話題了，前面說(shuō)了，“1.

不可能有一種中文分詞算法能完全準(zhǔn)確地分詞”，必須承認(rèn)要這一點(diǎn)，但可以把分詞做得很復(fù)雜力圖準(zhǔn)確些，solr自帶的跨語(yǔ)言分詞同樣也可以做得很復(fù)雜，只不過(guò)我們是走進(jìn)了一個(gè)查自帶字典的死胡同，開(kāi)銷很大，實(shí)際上字典應(yīng)該自動(dòng)維護(hù)在索引中而不是不需要另外一本字典，每種分支都有得分值，取得分高的排前面大多數(shù)情況下是合理的，如果要求還要提高，就得靠分析語(yǔ)義，現(xiàn)在這些常見(jiàn)分詞組件根本就沒(méi)有語(yǔ)義分析功能。

建議大家多做測(cè)試再說(shuō)，歡迎對(duì)我提的每一條具體反駁。

也建議大家現(xiàn)在在百度里搜下“和服”，看有沒(méi)有這樣一條結(jié)果：季莫申科拒監(jiān)禁期間穿囚服和服勞役_網(wǎng)易新聞中心

@熊偉我們先把話題縮小到“搜索”這個(gè)小范疇內(nèi)，不然放到NLP領(lǐng)域，不做分詞就什么都不是了。

1. 不可能有一種中文分詞算法能完全準(zhǔn)確地分詞，完全按中文分詞進(jìn)行的搜索不能保證搜索的全覆蓋，而按字分詞的結(jié)果是可以保證的。

分詞的準(zhǔn)確率方面，目前基本常用的分詞技術(shù)都有99%左右的準(zhǔn)確率（準(zhǔn)確率是指不分錯(cuò)，不包括未登錄詞）。按字切分當(dāng)然不會(huì)錯(cuò)，但是在搜索時(shí)同樣召回了大量“不相關(guān)”的結(jié)果，給做Rank帶來(lái)了巨大的難度。同時(shí)還丟失了眾多“詞”一級(jí)的屬性。

2. 中文分詞帶來(lái)額外的開(kāi)銷，比如查字典，智能算法等，而一元按字分詞開(kāi)銷最小。有人說(shuō)按字分詞造成索引變大，造成開(kāi)銷大，其實(shí)英文單詞比中文字還多，這方面不是問(wèn)題

中分分詞目前的主流算法，都是低開(kāi)銷型的。中科院那個(gè)都能達(dá)到500KB/s的分詞速度，各家企業(yè)應(yīng)用的分詞也完全不是性能瓶頸。切詞性能說(shuō)是不存在的。

3. 按中文分詞搜索，首先對(duì)要搜索的內(nèi)容要先分詞，這就有可能造成了第一步最主要的誤差，中文分詞引擎分出的詞很可能不能代表用戶的意思，而luncene基于slop的匹配誤差更小

用戶表述的多樣性，可以通過(guò)多粒度切詞來(lái)達(dá)到同樣的效果，魔獸世界可以切出魔獸，也可以切出魔獸世界，這個(gè)不存在切詞的劣勢(shì)一說(shuō)。

4.? 隨著中文分詞算法的改進(jìn)，有可能在索引中形成詞信息孤島，要么隨它占用資源，要么付出成本去維護(hù)；而基于一元字分詞的算法就沒(méi)有這個(gè)問(wèn)題

這個(gè)沒(méi)什么好說(shuō)的。

補(bǔ)充：

按字切分的一元分詞，就是石器時(shí)代的東西。詞一級(jí)的信息被完全丟失，最基本的idf信息都失效了，term重要性分析基本不可能進(jìn)行，更不要說(shuō)加入詞性，做同義詞變換，做句法樹(shù)等等應(yīng)用。這里就不繼續(xù)展開(kāi)了。

現(xiàn)代搜索技術(shù)發(fā)展了這么多年，按字切分這種甚至不如二元切分的技術(shù)，實(shí)在是不敢茍同。這不是一個(gè)技術(shù)人員應(yīng)該有的視野，如果繼續(xù)堅(jiān)持這種原始野性的世界觀，只有被淘汰沒(méi)有什么其他的。

@楊宣其實(shí)一元分詞這種說(shuō)法就不規(guī)范，按理解就是一個(gè)字一分。而多元的多個(gè)字連起來(lái)分，無(wú)論在任何情況下，一元分詞能保證全覆蓋。針對(duì)某些句子，用多元分很可能有多種分法，不結(jié)合語(yǔ)義不能自動(dòng)確定哪個(gè)是對(duì)的，比如"登上海南公司的航班"不保證不切出"上海"、"上海南"來(lái)，這就造成多元分詞的不穩(wěn)定，不同軟件，針對(duì)不同句子，有不同的結(jié)果，而且不能保證信息的全覆蓋，有可能搜不到的情況（在mmseg4j復(fù)雜模式下，切出一個(gè)長(zhǎng)詞"海南航空公司",搜局部就可能搜不到），甚至直接切出垃圾（如前面的"上海"，又占資源，有影響結(jié)果）

其次，不能說(shuō)多元分詞比一元分詞準(zhǔn)確，準(zhǔn)確和詞的上下文的推導(dǎo)算法有關(guān)，多元的可以按前后詞推導(dǎo)，一元的照樣可以按前后字推導(dǎo)。只不過(guò)solr自帶的跨語(yǔ)言自然一元分詞是按照基于slop的匹配，沒(méi)有推導(dǎo)，slop是指匹配結(jié)果字直接的間距，最小的結(jié)果排最前。如果搜“中華人民共和國(guó)”七個(gè)字，每個(gè)字都匹配上了，而且他們的slop都等于0（最高優(yōu)先級(jí)），這個(gè)沒(méi)用字典哦。這種算法并不算多好，但至少現(xiàn)在在solr的一般站內(nèi)搜索應(yīng)用中并不比國(guó)產(chǎn)的差。

1. "海南航空公司"的case，廣泛應(yīng)用的多粒度切詞已經(jīng)可以解決你說(shuō)的問(wèn)題，即會(huì)切出長(zhǎng)串，也會(huì)切出基本詞。和你說(shuō)的效果上沒(méi)有差別。

2. 你說(shuō)的間距，就是在信息檢索時(shí)用到的offset。任何切詞方法在rank時(shí)都會(huì)用到這個(gè)技術(shù)。

我給你舉個(gè)例子，搜索“新浪”，你出“浪新”，是不是offset也是0........

3. 你說(shuō)的“不差”，代表的也是石器時(shí)代的“不差”，這種東西沒(méi)法深化，沒(méi)法改進(jìn)，跟時(shí)代脫節(jié)。term召回率固然重要，前提是召回的term都是從相關(guān)性上準(zhǔn)確的，為了召回率提升0.01%換來(lái)召回結(jié)果準(zhǔn)確率下降10%，這個(gè)是傻，不是先進(jìn)。更何況上面說(shuō)到的多粒度切詞這類簡(jiǎn)單的做法，完全可以達(dá)到同樣的召回率提升。

4. 換句話說(shuō)，如果你舉出任意一個(gè)中文搜索引擎用的是你說(shuō)的方法，并且取得了對(duì)應(yīng)較好的效果來(lái)，也算是個(gè)旁證。

5. 不客氣的說(shuō)，對(duì)于term召回率的問(wèn)題，用最小粒度切分的方法來(lái)解決，是懶。如果在我的team里面，有任何一個(gè)人提出這樣的解決方案，肯定被我劈頭蓋臉打回去。

空公司班機(jī)”，幾乎和單字一樣多。

你說(shuō)的多粒度切詞有的用，有的不用，中科院的和mmseg4j好像就不用，用粒度越多，垃圾越多。

我們是準(zhǔn)備在站內(nèi)那里用solr，測(cè)試結(jié)果國(guó)產(chǎn)的分詞不一定好，不過(guò)我們要求覆蓋要全，找不到就屬于大問(wèn)題了。

專做搜索引擎公司的內(nèi)部機(jī)制肯定比我們討論的這些開(kāi)源的復(fù)雜，但我還是覺(jué)得分詞還是最細(xì)分，但結(jié)果交給rank、filter等算法去就好，這也是原本Lucene設(shè)計(jì)的機(jī)制，全世界大多數(shù)語(yǔ)言在google上肯定也是這種機(jī)制，關(guān)于東亞語(yǔ)言的分詞方面好像就是國(guó)內(nèi)叫得比較歡，甚至韓國(guó)、日本在solr中好像沒(méi)有專門自己搞的的分詞插件，相比依賴國(guó)內(nèi)某個(gè)老師、某個(gè)個(gè)人的東西，我更傾向于某些西方的技術(shù)，如果想搞個(gè)好的，不如在lucene上搞一個(gè)基于動(dòng)態(tài)自動(dòng)維護(hù)字典的的filter.

@熊偉 “相比依賴國(guó)內(nèi)某個(gè)老師、某個(gè)個(gè)人的東西，我更傾向于某些西方的技術(shù)”

分詞這個(gè)東西沒(méi)有什么中方西方之分

現(xiàn)在中文很熱搞中文分詞和中文機(jī)器翻譯的西方學(xué)者非常多

如果你感興趣的話

可以看看斯坦福最近開(kāi)設(shè)的免費(fèi)課程，http://nlp-class.org 第二章就是講語(yǔ)言的切分（雖然大多數(shù)是英文的，比如stemming）

沒(méi)想到這個(gè)回答竟然有了15條評(píng)論這么多

@楊宣話糙理不糙

很多點(diǎn)上說(shuō)的很有道理，雖然這樣的語(yǔ)氣可能讓其他人不太好接受還是要感謝一下@楊宣

@雄偉

我基本理解你的意思了，在你的環(huán)境和可以使用到的備選技術(shù)上，一元按字切分可能是滿足你的需求的。

但這個(gè)不代表是可以推廣的，在不同的語(yǔ)料基礎(chǔ)上，你這個(gè)方案的劣勢(shì)是明顯的，不算是“較好的中文分詞方案”。

關(guān)于搜索這個(gè)應(yīng)用場(chǎng)景下，分詞已經(jīng)不是什么前沿技術(shù)，但分詞的效果遠(yuǎn)不只開(kāi)源搜索框架下那幾個(gè)默認(rèn)的函數(shù)，畢竟這些開(kāi)源搜索框架并不是專門為中文場(chǎng)景使用的，都是很簡(jiǎn)單的基礎(chǔ)示范。同時(shí)，基于詞庫(kù)的切詞算法對(duì)于詞庫(kù)的也有要求。楊宣說(shuō)過(guò)的我就不重復(fù)了。

@楊少雄

最好實(shí)際測(cè)一下再說(shuō)，搜出結(jié)果里面含風(fēng)馬牛不相及的內(nèi)容很正常，只要不排在合理內(nèi)容的前面，搜偏一點(diǎn)的內(nèi)容很容易就能得到（各大搜索引擎都是這樣）。而且搜偏的反而用一元最好。就搜“上海今天天氣如何”，如果不結(jié)合語(yǔ)義搜的話，按照一元基于slop和優(yōu)先序的算法可能效果比分詞的還好。

就算按國(guó)產(chǎn)組件分詞，也不代表不一元切了，就算用國(guó)產(chǎn)組件分詞去創(chuàng)建索引，里面的javascript:;單字量照樣和所用到的漢字容量差不多?！坝邢薰尽眗ank可能是很高，但不代表“有”、”限”、”公”、”司”四個(gè)字的rank不高（詞也是由字組成的），一元的效果并不差。

上面說(shuō)的全是最近我實(shí)際中測(cè)得效果，也歡迎大家拿實(shí)例說(shuō)話。

雖然我說(shuō)一元的不差，但不代表分詞不好，只是國(guó)內(nèi)做的不好（同義詞，語(yǔ)義分析，權(quán)重等都需要再詞的基礎(chǔ)上進(jìn)行），還有我認(rèn)為他們方向不對(duì)。

最近寫了一款分詞器，調(diào)研了不少文章的開(kāi)源實(shí)現(xiàn)。最終定的方案是 Language Model + CRF

的混合實(shí)現(xiàn)。CRF的字標(biāo)注法是中文分詞比賽上成績(jī)最好的方案，尤其勝在新詞識(shí)別上，而Language

為什么不是nba04! 04才是經(jīng)典！

我想用nltk做文獻(xiàn)分類，沒(méi)找到源代碼，答主有嗎

同，結(jié)巴分的不好，后來(lái)試了下ltp，不過(guò)不支持自定義好像，看到評(píng)論里有推薦thulac，打算試試

1、fxsjy/jieba結(jié)巴的標(biāo)語(yǔ)是：做最好的 Python 中文分詞組件，或許從現(xiàn)在來(lái)看它沒(méi)做到最好，但是已經(jīng)做到了使用的人最多。結(jié)巴分詞網(wǎng)上的學(xué)習(xí)資料和使用案例比較多，上手相對(duì)比較輕松，速度也比較快。結(jié)巴的優(yōu)點(diǎn)：支持三種分詞模式? 支持繁體分詞? 支持自定義詞典? MIT 授權(quán)協(xié)議

2、THULAC：一個(gè)高效的中文詞法分析工具包前兩天我在做有關(guān)于共享單車的用戶反饋分類，使用jieba分詞一直太過(guò)零散，分類分不好。后來(lái)江兄給我推薦了THULAC：

由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包

。THULAC的接口文檔很詳細(xì)，簡(jiǎn)單易上手。THULAC分詞的優(yōu)點(diǎn)：能力強(qiáng)。利用規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)（約含5800萬(wàn)字）訓(xùn)練而成，模型標(biāo)注能力強(qiáng)大。準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese

Treebank（CTB5）上分詞的F1值可達(dá)97.3％，詞性標(biāo)注的F1值可達(dá)到92.9％速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s，每秒可處理約15萬(wàn)字。只進(jìn)行分詞速度達(dá)到1.3MB/s，速度比jieba慢。

有很多好用的中文處理包：

Jieba：可以用來(lái)做分詞，詞性標(biāo)注，TextRank

HanLP：分詞，命名實(shí)體識(shí)別，依存句法分析，還有FudanNLP，NLPIR

個(gè)人覺(jué)得都比NLTK好用～

《Python自然語(yǔ)言處理》

http://www.nltk.org/book/

UGC文本數(shù)據(jù)的分析，OpenNLP，搜索排序，語(yǔ)義理解、實(shí)體識(shí)別、新詞發(fā)現(xiàn)、協(xié)同過(guò)濾，有深度學(xué)習(xí)背景、問(wèn)答系統(tǒng)、對(duì)話系統(tǒng)，ner,屬性/偏好/行為分析,運(yùn)營(yíng)商領(lǐng)域DPI數(shù)據(jù)深度解析,了解開(kāi)源算法：anaconda，summa，libsvm,

用Python做自然語(yǔ)言處理必知的八個(gè)工具

Python以其清晰簡(jiǎn)潔的語(yǔ)法、易用和可擴(kuò)展性以及豐富龐大的庫(kù)深受廣大開(kāi)發(fā)者喜愛(ài)。其內(nèi)置的非常強(qiáng)大的機(jī)器學(xué)習(xí)代碼庫(kù)和數(shù)學(xué)庫(kù)，使Python理所當(dāng)然成為自然語(yǔ)言處理的開(kāi)發(fā)利器。那么使用Python進(jìn)行自然語(yǔ)言處理，要是不知道這8個(gè)工具就真的Out了。

NLTK

NLTK是使用Python處理語(yǔ)言數(shù)據(jù)的領(lǐng)先平臺(tái)。它為像WordNet這樣的詞匯資源提供了簡(jiǎn)便易用的界面。它還具有為文本分類(classification)、文本標(biāo)記(tokenization)、詞干提取(stemming)、詞性標(biāo)記(tagging)、語(yǔ)義分析(parsing)和語(yǔ)義推理(semantic reasoning)準(zhǔn)備的文本處理庫(kù)。

Pattern

Pattern具有用于詞性標(biāo)注(part-of-speech taggers)、n-gram搜索、情感分析和WordNet的一系列工具。它還支持矢量空間建模、聚類分析以及支持向量機(jī)。

TextBlob

TextBlob是處理文本數(shù)據(jù)的一個(gè)Python庫(kù)。它為深入挖掘常規(guī)自然語(yǔ)言處理提供簡(jiǎn)單易用的API，例如詞性標(biāo)注(part-of-speech tagging)、名詞短語(yǔ)提取(noun phrase extraction)、情感分析、文本分類、機(jī)器翻譯等等。

Gensim

Gensim是一個(gè)用于主題建模、文檔索引以及使用大規(guī)模語(yǔ)料數(shù)據(jù)的相似性檢索。相比于RAM，它能處理更多的輸入數(shù)據(jù)。作者稱它是“根據(jù)純文本進(jìn)行非監(jiān)督性建模最健壯、最有效的、最讓人放心的軟件”。

PyNLPl

PyNLPl:Python Natural Language Processing Library（發(fā)音為：pineapple）是一個(gè)用于自然語(yǔ)言處理的Python庫(kù)。它由一系列的相互獨(dú)立或相互松散獨(dú)立的模塊構(gòu)成，用于處理常規(guī)或不太常規(guī)的NLP任務(wù)。PyNLPl可用于n-gram計(jì)算、頻率列表和分布、語(yǔ)言建模。除此之外，還有更加復(fù)雜的數(shù)據(jù)模型，例如優(yōu)先級(jí)隊(duì)列；還有搜索引擎，例如波束搜索。

spaCy

spaCy是一個(gè)商業(yè)化開(kāi)源軟件，是使用Python和Cython進(jìn)行工業(yè)級(jí)自然語(yǔ)言處理的軟件。它是目前最快的、水平最高的自然語(yǔ)言處理工具。

Polyglot

Polyglot是一個(gè)支持海量多語(yǔ)言的自然語(yǔ)言處理工具。它支持多達(dá)165種語(yǔ)言的文本標(biāo)記，196種語(yǔ)言的語(yǔ)言檢測(cè)，40種語(yǔ)言的命名實(shí)體識(shí)別，16種語(yǔ)言的詞性標(biāo)注，136種語(yǔ)言的情感分析，137種語(yǔ)言的字根嵌入，135種語(yǔ)言的形態(tài)分析以及69種語(yǔ)言的音譯。

MontyLingua

MontyLingua是一個(gè)免費(fèi)的、常識(shí)豐富的、端對(duì)端的英語(yǔ)自然語(yǔ)言理解軟件。用戶只需要將原始英文文本輸入MontyLingua，就能輸出文本的語(yǔ)義解釋。該軟件完美適用于信息提取、需求處理以及問(wèn)答。從給定的英語(yǔ)文本，它能提取主語(yǔ)/動(dòng)詞/形容詞對(duì)象元組、名詞短語(yǔ)和動(dòng)詞短語(yǔ)，并提取人的名字、地點(diǎn)、事件、日期和時(shí)間，以及其他語(yǔ)義信息。

對(duì)于文本數(shù)據(jù)的處理，可以分為去噪、排重、聚類、分類、觀點(diǎn)提取、觀點(diǎn)權(quán)重排序等環(huán)節(jié)。這里面需要大量使用到NLP（自然語(yǔ)言處理）的相關(guān)技術(shù)，目前這類技術(shù)開(kāi)放的互聯(lián)網(wǎng)公司也不少，比如騰訊文智、玻森實(shí)驗(yàn)室、微軟NLP.....

去噪，顧名思義就是去除與監(jiān)控主體不相關(guān)的文本信息，這里需要用到大量的機(jī)器學(xué)習(xí)語(yǔ)料以來(lái)做判斷。比如我有款產(chǎn)品叫“心跳”，爬蟲從上述渠道中獲取了大量關(guān)于“心跳”的文本信息，但是只需要保留住產(chǎn)品名叫“心跳”的那些文檔就好，而其他“我看到宋鐘基心跳不止”一類的文檔，就屬于噪音。排重，沒(méi)什么好說(shuō)的，就是將相同文檔歸一。這是清洗基礎(chǔ)數(shù)據(jù)的第二步，排重掉大量相同文檔，數(shù)據(jù)量會(huì)大幅度降低。聚類，將相似文檔進(jìn)行歸類，目的也是為了減少數(shù)據(jù)量。分類，更好的定位出篩出的數(shù)據(jù)是與我產(chǎn)品相關(guān)的。在產(chǎn)品這塊可能作用不是太明顯。我就不展開(kāi)細(xì)說(shuō)了。最后提取出每個(gè)類別下的代表觀點(diǎn)，識(shí)別出正負(fù)面，并對(duì)觀點(diǎn)進(jìn)行排序，這樣就能獲取到總結(jié)好的對(duì)于產(chǎn)品的真實(shí)反饋全貌，哪些優(yōu)點(diǎn)，哪些缺點(diǎn)。就如漏斗模型一樣，數(shù)據(jù)進(jìn)行一層層清洗和篩選，最終給到人工的是很全又少量的信息，大大節(jié)省了人力處理成本。上述是比較高端的用戶反饋收集和處理方式，其實(shí)簡(jiǎn)單易行的，比如產(chǎn)品評(píng)測(cè)、用戶調(diào)研的方式也是當(dāng)下使用的比較多的，特別是后者。對(duì)于產(chǎn)品評(píng)測(cè)本人也有悉心的研究和豐富的工作經(jīng)驗(yàn)，有空可以細(xì)說(shuō)。

幾分鐘即可接入的中文語(yǔ)義分析平臺(tái)

各種應(yīng)用服務(wù)每天產(chǎn)生著大量的用戶交互數(shù)據(jù)，媒體輿情、社交、客服溝通，非結(jié)構(gòu)化的用戶數(shù)據(jù)越來(lái)越多，這是深刻理解用戶需求偏好、品牌產(chǎn)品意見(jiàn)，洞察市場(chǎng)和消費(fèi)行為趨勢(shì)的寶藏。善用這部分非結(jié)構(gòu)化數(shù)據(jù)，有助于指導(dǎo)經(jīng)營(yíng)決策、用戶運(yùn)營(yíng)以及產(chǎn)品設(shè)計(jì)的趨勢(shì)方向把握。

語(yǔ)義大數(shù)據(jù)分析有一定的進(jìn)入門檻，大多數(shù)企業(yè)和開(kāi)發(fā)者將有限資源投入在自己的核心領(lǐng)域，希望語(yǔ)義大數(shù)據(jù)作為一個(gè)增值服務(wù)亮點(diǎn)功能，又受資源所限制。大多數(shù)團(tuán)隊(duì)并沒(méi)有為大數(shù)據(jù)語(yǔ)義分析儲(chǔ)備專業(yè)人才資源，也沒(méi)有行業(yè)詞庫(kù)、知識(shí)的積累，更沒(méi)有資源和精力持續(xù)做數(shù)據(jù)訓(xùn)練迭代。

術(shù)業(yè)有專攻，介紹幾個(gè)通過(guò)API幾分鐘即可接入的語(yǔ)義分析工具，做到一定程度的開(kāi)箱即用，又滿足一定的二次開(kāi)發(fā)支持需求。具體那款適合，大家可以去實(shí)際體驗(yàn)下，幾個(gè)平臺(tái)都提供免費(fèi)體驗(yàn)方式。

此類工具適用用對(duì)象

產(chǎn)品和服務(wù)具有大量用戶產(chǎn)生的內(nèi)容

有很多非結(jié)構(gòu)化數(shù)據(jù)

海量信息篩選，價(jià)值信息挖掘

用戶偏好分析

用戶情緒情感分析

同時(shí)，團(tuán)隊(duì)缺乏完全從0到1建設(shè)的能力

缺乏專業(yè)領(lǐng)域人才

缺乏穩(wěn)定的團(tuán)隊(duì)組合

缺乏行業(yè)和領(lǐng)域的詞庫(kù)、知識(shí)積累

缺乏經(jīng)過(guò)驗(yàn)證和迭代的經(jīng)驗(yàn)基礎(chǔ)

用第三方工具，可以去快速驗(yàn)證市場(chǎng)需求，搶在時(shí)間的前面，探查客戶反饋，以判斷自己是否以及在哪個(gè)方面需要自主投入專業(yè)資源進(jìn)一步做深入。

玻森中文語(yǔ)義開(kāi)放平臺(tái)

一站式解決中文語(yǔ)義分析需求：情感分析、信息分類、實(shí)體識(shí)別、典型意見(jiàn)、文本聚類、關(guān)鍵詞提取。

單文本和多文本分析

自主研發(fā)千萬(wàn)級(jí)中文語(yǔ)料庫(kù)

可定制數(shù)據(jù)分析模型和解決方案

具有每日千萬(wàn)次API調(diào)用的商業(yè)用戶服務(wù)能力

開(kāi)放中文語(yǔ)義API，快速注冊(cè)，30秒可用

官網(wǎng)：首頁(yè) - BosonNLP

商業(yè)服務(wù)收費(fèi)模式

騰訊文智中文語(yǔ)義平臺(tái)

一站式滿足用戶NLP、轉(zhuǎn)碼、抽取、全網(wǎng)數(shù)據(jù)抓取等中文語(yǔ)義分析需求的開(kāi)放平臺(tái)。

提供智能分詞、實(shí)體識(shí)別、情感分析、轉(zhuǎn)碼抽取、文本聚類等語(yǔ)義API。

騰訊產(chǎn)品的成功應(yīng)用經(jīng)驗(yàn)和100億級(jí)的API調(diào)用服務(wù)。

支持深入合作定制產(chǎn)品特色的語(yǔ)義分析解決方案。

官網(wǎng)：騰訊文智中文語(yǔ)義平臺(tái)-首頁(yè)

商業(yè)服務(wù)收費(fèi)模式

哈工大訊飛語(yǔ)言云

哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語(yǔ)言處理服務(wù)平臺(tái)，提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語(yǔ)義角色標(biāo)注等自然語(yǔ)言處理服務(wù)。

應(yīng)用場(chǎng)景如用戶喜好分析、情緒情感分析、人際網(wǎng)絡(luò)分析、關(guān)鍵字知識(shí)圖譜

用戶喜好分析：借助分詞、詞性標(biāo)注和依存句法分析可以深挖用戶上傳內(nèi)容以及評(píng)論反饋信息，以“詞云”的形式展示用戶最關(guān)注的產(chǎn)品特性和評(píng)價(jià)。

情緒自動(dòng)識(shí)別：通過(guò)對(duì)用戶的評(píng)論、留言、交流信息中的文本進(jìn)行語(yǔ)言處理，自動(dòng)識(shí)別用戶的情緒。

API提供了包括PLAIN/XML/JSON/CONLL等多種格式的結(jié)果表示，返回結(jié)果容易擴(kuò)展，便于進(jìn)行二次開(kāi)發(fā)。

為保障系統(tǒng)穩(wěn)定，語(yǔ)言云API的使用頻率默認(rèn)限制為每個(gè)IP 200次/秒。

支持包括中小企業(yè)在內(nèi)開(kāi)發(fā)者的商業(yè)應(yīng)用需要

提供研究性免費(fèi)服務(wù)，商業(yè)服務(wù)洽談溝通

關(guān)聯(lián)閱讀：

接入簡(jiǎn)單又實(shí)用的10款移動(dòng)數(shù)據(jù)分析工具

這里的分享僅針對(duì)有API快速接入的語(yǔ)義分析平臺(tái)，有些語(yǔ)義分析服務(wù)通過(guò)工具包、開(kāi)源軟件實(shí)現(xiàn)，這里沒(méi)有舉例。

我們也在尋找語(yǔ)義分析的合作伙伴，希望與領(lǐng)域內(nèi)的專業(yè)平臺(tái)和專家交流學(xué)習(xí)，也希望認(rèn)識(shí)些朋友進(jìn)一步交流，尤其是針對(duì)社群社交數(shù)據(jù)分析的技術(shù)支持，如：群繪社群數(shù)據(jù)平臺(tái)。

從開(kāi)源入手：StanfordNLP和HIT-LTP

《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》這本書不錯(cuò)

《數(shù)學(xué)之美》是第一本要學(xué)習(xí)的書

推薦本書《Python自然語(yǔ)言處理》

推薦一個(gè)博客52NLP和CS224D教程

上一邊Collins的nlp課，看一遍他的講義就夠了

學(xué)習(xí)NLP是一個(gè)艱苦的過(guò)程，好多東西需要學(xué)，尤其是剛?cè)腴T時(shí)。

哈工大的SCIR實(shí)驗(yàn)室絕對(duì)是國(guó)內(nèi)數(shù)一數(shù)二的頂尖NLP實(shí)驗(yàn)室。

百度：百度副總裁，AI技術(shù)平臺(tái)體系總負(fù)責(zé)人王海峰博士畢業(yè)于哈工大，目前是SCIR實(shí)驗(yàn)室的兼職教授，王海峰博士是ACL50多年歷史上唯一出任過(guò)主席的華人。據(jù)不完全統(tǒng)計(jì)，該實(shí)驗(yàn)室在百度的畢業(yè)生約為20位，其中包李彥宏的開(kāi)門弟子（博士后），百度高級(jí)研究院趙世奇博士等。

騰訊：SCIR實(shí)驗(yàn)室是騰訊AL Lab最早的聯(lián)合實(shí)驗(yàn)室，

騰訊AI平臺(tái)部NLP技術(shù)中心副總監(jiān)周連強(qiáng)就是SCIR實(shí)驗(yàn)室07級(jí)的碩士生，劉挺教授還是騰訊AI Lab特聘學(xué)術(shù)顧問(wèn)（騰訊 AI Lab - 騰訊人工智能實(shí)驗(yàn)室官網(wǎng)）。據(jù)不完全統(tǒng)計(jì)，該實(shí)驗(yàn)室在騰訊的畢業(yè)生約為25位。

阿里：自然語(yǔ)言處理部總監(jiān)郎君為SCIR實(shí)驗(yàn)室的06級(jí)博士生。據(jù)不完全統(tǒng)計(jì)，該實(shí)驗(yàn)室在阿里的畢業(yè)生約為10位。

微軟：微軟和國(guó)內(nèi)的很多高校有聯(lián)合實(shí)驗(yàn)室

但NLP方向的聯(lián)合實(shí)驗(yàn)室只有清華和哈工大兩家，在微軟亞洲研究院的門戶網(wǎng)站上，共列出研究人員11名，其中有5人是在哈工大獲得博士學(xué)位。（注：微軟哈工大聯(lián)合實(shí)驗(yàn)室是哈工大機(jī)器智能實(shí)驗(yàn)室，此實(shí)驗(yàn)室并非之前說(shuō)的SCIR實(shí)驗(yàn)室，該實(shí)驗(yàn)室有著名的李生教授坐鎮(zhèn)，由于鄙人不了解該實(shí)驗(yàn)室，恕不詳細(xì)介紹，知友可自行了解。）

科大訊飛：科大訊飛是亞太地區(qū)最大的語(yǔ)音上市公司，在智能語(yǔ)音技術(shù)的多個(gè)領(lǐng)域均處于業(yè)界領(lǐng)先地位。科大訊飛與哈工大有語(yǔ)言認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室（<a

href=\"https://link.zhihu.com/?target=http%3A//ir.hit.edu.cn/1348.html\"

class=\" wrap external\"

target=\"_blank\" rel=\"nofollow

noreferrer\">哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心 - 理解語(yǔ)言，認(rèn)知社會(huì)

&amp;quot; 科大訊飛與哈工大聯(lián)合創(chuàng)建語(yǔ)言認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室

學(xué)術(shù)界

清華大學(xué)自然語(yǔ)言處理與人文計(jì)算實(shí)驗(yàn)室（歡迎來(lái)到清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室）：清華計(jì)算機(jī)系前院長(zhǎng)孫茂松教授是他們的leader

北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室（北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室）：是北大計(jì)算機(jī)學(xué)科比較有實(shí)力的一個(gè)研究方向之一

中科院計(jì)算所自然語(yǔ)言處理研究組（歡迎來(lái)到中科院計(jì)算所自然語(yǔ)言處理組網(wǎng)站）：尤其專長(zhǎng)在機(jī)器翻譯領(lǐng)域，組長(zhǎng)為劉群研究員，大家常使用的中文分詞工具ICTCLAS就是他們參與開(kāi)發(fā)的

哈爾濱工業(yè)大學(xué)：實(shí)力也很強(qiáng)，實(shí)驗(yàn)室查了一下感覺(jué)好亂，主要有：智能技術(shù)與自然語(yǔ)言處理研究室（ITNLP）、哈工大語(yǔ)言語(yǔ)音教育部-微軟重點(diǎn)實(shí)驗(yàn)室（哈工大語(yǔ)言語(yǔ)音教育部）、（哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心）哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心；現(xiàn)任中文信息學(xué)會(huì)理事長(zhǎng)李生教授就是哈工大的、下面提到的現(xiàn)任ACL主席王海峰先生也是哈工大畢業(yè)的；而且值得一提的是，哈工大雖然遠(yuǎn)在最東北地區(qū)，但是和工業(yè)界，像微軟、百度、科大訊飛等都有著緊密的聯(lián)系。

工業(yè)界

像知名搜索引擎公司在這些方面應(yīng)該都有不俗的積累

搜狗公司

百度公司：現(xiàn)任副總裁王海峰先生是自然語(yǔ)言處理領(lǐng)域世界上影響力最大、也最具活力的國(guó)際學(xué)術(shù)組織ACL（Association for Computational Linguistics）50多年歷史上唯一的華人主席。

微軟亞洲研究院

科大訊飛：國(guó)內(nèi)專業(yè)做中文語(yǔ)音、文字產(chǎn)品研發(fā)的企業(yè)，是目前國(guó)內(nèi)最大的智能語(yǔ)音技術(shù)提供商。

另外，圖模型，深度學(xué)習(xí)……等等內(nèi)容，都是一些方向。

自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別等等也是一些應(yīng)用方向，更有大量的領(lǐng)域知識(shí)需要結(jié)合。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

NLP常用專業(yè)術(shù)語(yǔ)

NLP常用專業(yè)術(shù)語(yǔ)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

NLP常用專業(yè)術(shù)語(yǔ)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av