最近要做多語(yǔ)言的文本處理,就去調(diào)研一下有什么好用的現(xiàn)成工具,最后發(fā)現(xiàn)了polyglot。
這工具雖說(shuō)支持多語(yǔ)言,但是用過(guò)發(fā)現(xiàn)比不是很好用,可能做多難做精。還是寫(xiě)一下怎么安裝吧。
初入坑
先說(shuō)說(shuō)最初遇到的坑:polyglot官網(wǎng)上的install是在ubuntu上進(jìn)行的,也很簡(jiǎn)短,相信ubuntu的童鞋也會(huì)遇到不少問(wèn)題。
我一開(kāi)始使用yum安裝libicu-devel模塊,發(fā)現(xiàn)其安裝的只有icu和icu4j,并沒(méi)有icu4c。所以后面直接pip install pyicu的時(shí)候會(huì)報(bào)錯(cuò)。
所以后來(lái)我下載了icu4c的源碼安裝,版本為4.8.1.1。后面pip install pyicu成功。
但是。。。
在Python中import _icu(這個(gè)語(yǔ)句其實(shí)在polyglot安裝成功后import polyglot.text是報(bào)錯(cuò)發(fā)現(xiàn)的)的時(shí)候,發(fā)現(xiàn)importerror .... _icu.so: no defined ...(忘了)
所以我們這個(gè)動(dòng)態(tài)鏈接庫(kù)是沒(méi)有build成功的。
可能是pip install的時(shí)候沒(méi)有生成一個(gè)好的_icu.so
所以我們要在安裝python模塊的時(shí)候入手,icu4c模塊應(yīng)該沒(méi)問(wèn)題了。
編譯安裝成功
我就不用pip安裝了,直接下源碼
wget https://pypi.python.org/packages/bf/1f/cea237f542e3bb592980008a734850e8cbbc25c19c72c98767c71c1bd9c2/PyICU-1.9.3.tar.gz
# (去官網(wǎng)下載,我的是1.9.3)
tar zxvf PyICU-1.9.3.tar.gz
cd PyICU-1.9.3.tar.gz
此時(shí)如果你是linux系統(tǒng)要修改一下setup.py文件


python setup.py build
sudo python setup.py install
此時(shí)測(cè)試一下是否安裝成功

成功!
用了一個(gè)下午裝,真浪費(fèi)時(shí)間,希望這個(gè)多語(yǔ)言的NLP工具真的有用(后證明效果一般)。
## 資料:
http://see.sl088.com/wiki/Centos_%E5%AE%89%E8%A3%85ICU#.E8.B5.B7.E5.9B.A0 icu4c安裝,這里的./runConfigureICU腳本別忘了執(zhí)行
http://stackoverflow.com/questions/13656756/pyicu-failed-to-link-icu4c-on-mountain-lion/13666383 這個(gè)問(wèn)題是動(dòng)態(tài)鏈接庫(kù)問(wèn)題,跟我之前遇到的很像,可以參考
https://pypi.python.org/pypi/PyICU/ pyicu官網(wǎng),可以參考安裝python的icu模塊