Ubuntu 16.04 LTS下安裝配置Solr-Mmseg4j

安裝環(huán)境:Ubuntu 16.04 LTS; Java JDK 1.8.0

目錄
  1. 檢查系統(tǒng)環(huán)境
  2. 安裝Apache Solr
  3. 配置solr-mmseg4j

1. 檢查系統(tǒng)環(huán)境

  • 檢查java環(huán)境
java -version


所需java版本是1.8.0
相關(guān)鏈接:Ubuntu 16.04 LTS下安裝配置Java環(huán)境

  • 系統(tǒng)安裝更新
sudo apt-get update

2. 安裝Apache Solr


solr-6.5.1.tgz和solr-6.5.1.zip是一樣的。這里我們下載的是solr-6.5.1.tgz

  • 解壓文件
tar zxvf solr-6.5.1.tgz
  • 在8080端口啟動Solr 服務(wù)
cd solr-6.5.1/bin
sudo ./solr start -p 8080 -force

啟動成功


3. 配置solr-mmseg4j

  • 上傳jar包


cd ../server/solr-webapp/webapp/WEB-INF/lib

mmseg4j-core-1.10.0.jarmmseg4j-solr-2.3.0.jar兩個文件上傳到/solr-6.5.1/server/solr-webapp/webapp/WEB-INF/lib路徑下

  • 新建一個core
    在bin目錄下執(zhí)行命令,生成的core0在/solr-6.5.1/server/solr/目錄下
sudo ./solr create -c core0 -p 8080 -force
cd ../server/solr/core0
tree
 .
├── conf
│   ├── currency.xml
│   ├── elevate.xml
│   ├── lang
│   │   ├── contractions_ca.txt
│   │   ├── contractions_fr.txt
│   │   ├── contractions_ga.txt
│   │   ├── contractions_it.txt
│   │   ├── hyphenations_ga.txt
│   │   ├── stemdict_nl.txt
│   │   ├── stoptags_ja.txt
│   │   ├── stopwords_ar.txt
│   │   ├── stopwords_bg.txt
│   │   ├── stopwords_ca.txt
│   │   ├── stopwords_cz.txt
│   │   ├── stopwords_da.txt
│   │   ├── stopwords_de.txt
│   │   ├── stopwords_el.txt
│   │   ├── stopwords_en.txt
│   │   ├── stopwords_es.txt
│   │   ├── stopwords_eu.txt
│   │   ├── stopwords_fa.txt
│   │   ├── stopwords_fi.txt
│   │   ├── stopwords_fr.txt
│   │   ├── stopwords_ga.txt
│   │   ├── stopwords_gl.txt
│   │   ├── stopwords_hi.txt
│   │   ├── stopwords_hu.txt
│   │   ├── stopwords_hy.txt
│   │   ├── stopwords_id.txt
│   │   ├── stopwords_it.txt
│   │   ├── stopwords_ja.txt
│   │   ├── stopwords_lv.txt
│   │   ├── stopwords_nl.txt
│   │   ├── stopwords_no.txt
│   │   ├── stopwords_pt.txt
│   │   ├── stopwords_ro.txt
│   │   ├── stopwords_ru.txt
│   │   ├── stopwords_sv.txt
│   │   ├── stopwords_th.txt
│   │   ├── stopwords_tr.txt
│   │   └── userdict_ja.txt
│   ├── managed-schema
│   ├── params.json
│   ├── protwords.txt
│   ├── solrconfig.xml
│   ├── stopwords.txt
│   └── synonyms.txt
├── core.properties
└── data
    ├── index
    │   ├── segments_1
    │   └── write.lock
    ├── snapshot_metadata
    └── tlog

6 directories, 49 files

如圖,conf中放的是配置文件,stopwords中放的是停用詞

  • /conf/managed-schema中添加如下代碼(可以使用vim編輯器直接修改)
<!-- mmseg4j-->
<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
<field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
<field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

<fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >
  <analyzer>
    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/usr/local/solr-6.5.1/server/solr/my_dic"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
</fieldType>
<fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >
  <analyzer>
    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/usr/local/solr-6.5.1/server/solr/my_dic"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
</fieldType>
<fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
  <analyzer>
    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/local/solr-6.5.1/server/solr/my_dic"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
</fieldType>
<!-- mmseg4j-->

其中,dicPath是dic字典文件的存放路徑,這里寫的是絕對路徑。
/usr/local/solr-6.5.1/server/solr路徑下新建my_dic文件夾mkdir my_dic
然后就可以把字典文件上傳到這個目錄了

  • 重啟solr
sudo ./solr restart -p 8080 -force


安裝成功

參考鏈接:
http://lucene.apache.org/solr/quickstart.html
solr 中文分詞 mmseg4j 使用例子

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容