原文地址之前的博客有寫到過(guò)Markdown輕量級(jí)標(biāo)記語(yǔ)言,也提到過(guò)RStudio,還有神奇的Pandoc。今天就介紹一下用RStudio來(lái)搭配Markdown的寫作環(huán)境,并利...
原文地址之前的博客有寫到過(guò)Markdown輕量級(jí)標(biāo)記語(yǔ)言,也提到過(guò)RStudio,還有神奇的Pandoc。今天就介紹一下用RStudio來(lái)搭配Markdown的寫作環(huán)境,并利...
Praat 語(yǔ)音學(xué)軟件,原名Praat: doing phonetics by computer,通常簡(jiǎn)稱 Praat,是一款跨平臺(tái)的多功能語(yǔ)音學(xué)專業(yè)軟件,主要用于對(duì)數(shù)字化的...
實(shí)驗(yàn)?zāi)康?學(xué)習(xí)如何讀取一個(gè)文件 學(xué)習(xí)如何使用DataFrame 學(xué)習(xí)jieba中文分詞組件及停用詞處理原理 了解Jupyter Notebook 概念 中文分詞 在自然語(yǔ)言處...
參考:生成詞云之python中WordCloud包的用法https://amueller.github.io/word_cloud/https://github.com/am...
轉(zhuǎn)自 進(jìn)擊的Coder 公眾號(hào) 原理 中文分詞,即 Chinese Word Segmentation,即將一個(gè)漢字序列進(jìn)行切分,得到一個(gè)個(gè)單獨(dú)的詞。表面上看,分詞其實(shí)就是那...
ICTCLAS(現(xiàn)在叫nlpir)是中科院張華平博士開(kāi)發(fā)中文分詞器。NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),從2009年開(kāi)始,為了和以前工作進(jìn)行大...
在學(xué)習(xí)文本分類的時(shí)候發(fā)現(xiàn)主要有以下幾個(gè)步驟,借助代碼說(shuō)明(代碼大多參考:機(jī)器學(xué)習(xí)算法原理與編程實(shí)戰(zhàn),不過(guò)發(fā)現(xiàn)給的語(yǔ)料有些編碼問(wèn)題,并且本人用的是Python3.6+windo...
TF-IDF簡(jiǎn)介 TF(Term Frequency)是指詞頻,就是一個(gè)詞在文本中出現(xiàn)的詞數(shù),常用標(biāo)準(zhǔn)化處理 IDF(Inverse Document Frequency)是...
最近在看機(jī)器學(xué)習(xí)的書(shū)籍和視頻,主要有:統(tǒng)計(jì)學(xué)習(xí)方法 李航西瓜書(shū) 周志華python機(jī)器學(xué)習(xí)實(shí)戰(zhàn)機(jī)器學(xué)習(xí)算法原理與編程實(shí)戰(zhàn) 鄭捷(本文主要參看這本書(shū),有代碼,不過(guò)做本文做了稍...