python NLP工具 polyglot在centos 6 上安裝

最近要做多語(yǔ)言的文本處理,就去調(diào)研一下有什么好用的現(xiàn)成工具,最后發(fā)現(xiàn)了polyglot。
這工具雖說(shuō)支持多語(yǔ)言,但是用過(guò)發(fā)現(xiàn)比不是很好用,可能做多難做精。還是寫(xiě)一下怎么安裝吧。

初入坑

先說(shuō)說(shuō)最初遇到的坑:polyglot官網(wǎng)上的install是在ubuntu上進(jìn)行的,也很簡(jiǎn)短,相信ubuntu的童鞋也會(huì)遇到不少問(wèn)題。
我一開(kāi)始使用yum安裝libicu-devel模塊,發(fā)現(xiàn)其安裝的只有icu和icu4j,并沒(méi)有icu4c。所以后面直接pip install pyicu的時(shí)候會(huì)報(bào)錯(cuò)。
所以后來(lái)我下載了icu4c的源碼安裝,版本為4.8.1.1。后面pip install pyicu成功。

但是。。。

在Python中import _icu(這個(gè)語(yǔ)句其實(shí)在polyglot安裝成功后import polyglot.text是報(bào)錯(cuò)發(fā)現(xiàn)的)的時(shí)候,發(fā)現(xiàn)importerror .... _icu.so: no defined ...(忘了)

所以我們這個(gè)動(dòng)態(tài)鏈接庫(kù)是沒(méi)有build成功的。
可能是pip install的時(shí)候沒(méi)有生成一個(gè)好的_icu.so

所以我們要在安裝python模塊的時(shí)候入手,icu4c模塊應(yīng)該沒(méi)問(wèn)題了。

編譯安裝成功

我就不用pip安裝了,直接下源碼

wget https://pypi.python.org/packages/bf/1f/cea237f542e3bb592980008a734850e8cbbc25c19c72c98767c71c1bd9c2/PyICU-1.9.3.tar.gz
# (去官網(wǎng)下載,我的是1.9.3)

tar zxvf PyICU-1.9.3.tar.gz
cd PyICU-1.9.3.tar.gz

此時(shí)如果你是linux系統(tǒng)要修改一下setup.py文件

setup.py_1
setup.py_2

python setup.py build
sudo python setup.py install


此時(shí)測(cè)試一下是否安裝成功
![setup.py_3](http://upload-images.jianshu.io/upload_images/3491715-d72dbab0a160786c.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
成功!
用了一個(gè)下午裝,真浪費(fèi)時(shí)間,希望這個(gè)多語(yǔ)言的NLP工具真的有用(后證明效果一般)。

## 資料:
http://see.sl088.com/wiki/Centos_%E5%AE%89%E8%A3%85ICU#.E8.B5.B7.E5.9B.A0   icu4c安裝,這里的./runConfigureICU腳本別忘了執(zhí)行
http://stackoverflow.com/questions/13656756/pyicu-failed-to-link-icu4c-on-mountain-lion/13666383 這個(gè)問(wèn)題是動(dòng)態(tài)鏈接庫(kù)問(wèn)題,跟我之前遇到的很像,可以參考
https://pypi.python.org/pypi/PyICU/ pyicu官網(wǎng),可以參考安裝python的icu模塊
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容