ElasticSearch 分詞器

- 作者: 博學(xué)谷狂野架構(gòu)師
- GitHub:GitHub地址 (有我精心準(zhǔn)備的130本電子書PDF)
只分享干貨、不吹水,讓我們一起加油!??
概述
分詞器的主要作用將用戶輸入的一段文本,按照一定邏輯,分析成多個(gè)詞語(yǔ)的一種工具
什么是分詞器
顧名思義,文本分析就是把全文本轉(zhuǎn)換成一系列單詞(term/token)的過(guò)程,也叫分詞。在 ES 中,Analysis 是通過(guò)分詞器(Analyzer) 來(lái)實(shí)現(xiàn)的,可使用 ES 內(nèi)置的分析器或者按需定制化分析器。
舉一個(gè)分詞簡(jiǎn)單的例子:比如你輸入 Mastering Elasticsearch,會(huì)自動(dòng)幫你分成兩個(gè)單詞,一個(gè)是 mastering,另一個(gè)是 elasticsearch,可以看出單詞也被轉(zhuǎn)化成了小寫的。

分詞器的構(gòu)成
分詞器是專門處理分詞的組件,分詞器由以下三部分組成:
組成部分
character filter
接收原字符流,通過(guò)添加、刪除或者替換操作改變?cè)址?/p>
例如:去除文本中的html標(biāo)簽,或者將羅馬數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字等。一個(gè)字符過(guò)濾器可以有零個(gè)或者多個(gè)
tokenizer
簡(jiǎn)單的說(shuō)就是將一整段文本拆分成一個(gè)個(gè)的詞。
例如拆分英文,通過(guò)空格能將句子拆分成一個(gè)個(gè)的詞,但是對(duì)于中文來(lái)說(shuō),無(wú)法使用這種方式來(lái)實(shí)現(xiàn)。在一個(gè)分詞器中,有且只有一個(gè)tokenizeer
token filters
將切分的單詞添加、刪除或者改變
例如將所有英文單詞小寫,或者將英文中的停詞a刪除等,在token filters中,不允許將token(分出的詞)的position或者offset改變。同時(shí),在一個(gè)分詞器中,可以有零個(gè)或者多個(gè)token filters.
分詞順序

同時(shí) Analyzer 三個(gè)部分也是有順序的,從圖中可以看出,從上到下依次經(jīng)過(guò) Character Filters,Tokenizer 以及 Token Filters,這個(gè)順序比較好理解,一個(gè)文本進(jìn)來(lái)肯定要先對(duì)文本數(shù)據(jù)進(jìn)行處理,再去分詞,最后對(duì)分詞的結(jié)果進(jìn)行過(guò)濾。
索引和搜索分詞
文本分詞會(huì)發(fā)生在兩個(gè)地方:
-
創(chuàng)建索引:當(dāng)索引文檔字符類型為text時(shí),在建立索引時(shí)將會(huì)對(duì)該字段進(jìn)行分詞。 -
搜索:當(dāng)對(duì)一個(gè)text類型的字段進(jìn)行全文檢索時(shí),會(huì)對(duì)用戶輸入的文本進(jìn)行分詞。
配置分詞器
默認(rèn)ES使用
standard analyzer,如果默認(rèn)的分詞器無(wú)法符合你的要求,可以自己配置
分詞器測(cè)試
可以通過(guò)
_analyzerAPI來(lái)測(cè)試分詞的效果。
COPY# 過(guò)濾html 標(biāo)簽
POST _analyze
{
"tokenizer":"keyword", #原樣輸出
"char_filter":["html_strip"], # 過(guò)濾html標(biāo)簽
"text":"<b>hello world<b>" # 輸入的文本
}

指定分詞器
使用地方
分詞器的使用地方有兩個(gè):
- 創(chuàng)建索引時(shí)
- 進(jìn)行搜索時(shí)
創(chuàng)建索引時(shí)指定分詞器
如果設(shè)置手動(dòng)設(shè)置了分詞器,ES將按照下面順序來(lái)確定使用哪個(gè)分詞器:
- 先判斷字段是否有設(shè)置分詞器,如果有,則使用字段屬性上的分詞器設(shè)置
- 如果設(shè)置了
analysis.analyzer.default,則使用該設(shè)置的分詞器 - 如果上面兩個(gè)都未設(shè)置,則使用默認(rèn)的
standard分詞器
字段指定分詞器
為title屬性指定分詞器
COPYPUT my_index
{
"mappings": {
"properties": {
"title":{
"type":"text",
"analyzer": "whitespace"
}
}
}
}
設(shè)置默認(rèn)分詞器
COPYPUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"default":{
"type":"simple"
}
}
}
}
}
搜索時(shí)如何確定分詞器
在搜索時(shí),通過(guò)下面參數(shù)依次檢查搜索時(shí)使用的分詞器:
- 搜索時(shí)指定
analyzer參數(shù) - 創(chuàng)建mapping時(shí)指定字段的
search_analyzer屬性 - 創(chuàng)建索引時(shí)指定
setting的analysis.analyzer.default_search - 查看創(chuàng)建索引時(shí)字段指定的
analyzer屬性 - 如果上面幾種都未設(shè)置,則使用默認(rèn)的
standard分詞器。
指定analyzer
搜索時(shí)指定analyzer查詢參數(shù)
COPYGET my_index/_search
{
"query": {
"match": {
"message": {
"query": "Quick foxes",
"analyzer": "stop"
}
}
}
}
指定字段analyzer
COPYPUT my_index
{
"mappings": {
"properties": {
"title":{
"type":"text",
"analyzer": "whitespace",
"search_analyzer": "simple"
}
}
}
}
指定默認(rèn)default_seach
COPYPUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"default":{
"type":"simple"
},
"default_seach":{
"type":"whitespace"
}
}
}
}
}
內(nèi)置分詞器
es在索引文檔時(shí),會(huì)通過(guò)各種類型
Analyzer對(duì)text類型字段做分析,
不同的 Analyzer 會(huì)有不同的分詞結(jié)果,內(nèi)置的分詞器有以下幾種,基本上內(nèi)置的 Analyzer 包括 Language Analyzers 在內(nèi),對(duì)中文的分詞都不夠友好,中文分詞需要安裝其它 Analyzer
| 分析器 | 描述 | 分詞對(duì)象 | 結(jié)果 |
|---|---|---|---|
| standard | 標(biāo)準(zhǔn)分析器是默認(rèn)的分析器,如果沒(méi)有指定,則使用該分析器。它提供了基于文法的標(biāo)記化(基于 Unicode 文本分割算法,如 Unicode 標(biāo)準(zhǔn)附件 # 29所規(guī)定) ,并且對(duì)大多數(shù)語(yǔ)言都有效。 | The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog’s, bone ] |
| simple | 簡(jiǎn)單分析器將文本分解為任何非字母字符的標(biāo)記,如數(shù)字、空格、連字符和撇號(hào)、放棄非字母字符,并將大寫字母更改為小寫字母。 | The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ] |
| whitespace | 空格分析器在遇到空白字符時(shí)將文本分解為術(shù)語(yǔ) | The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog’s, bone. ] |
| stop | 停止分析器與簡(jiǎn)單分析器相同,但增加了刪除停止字的支持。默認(rèn)使用的是 _english_ 停止詞。 |
The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [ quick, brown, foxes, jumped, over, lazy, dog, s, bone ] |
| keyword | 不分詞,把整個(gè)字段當(dāng)做一個(gè)整體返回 | The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone.] |
| pattern | 模式分析器使用正則表達(dá)式將文本拆分為術(shù)語(yǔ)。正則表達(dá)式應(yīng)該匹配令牌分隔符,而不是令牌本身。正則表達(dá)式默認(rèn)為 w+ (或所有非單詞字符)。 |
The 2 QUICK Brown-Foxes jumped over the lazy dog’s bone. | [ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ] |
| 多種西語(yǔ)系 arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english等等 | 一組旨在分析特定語(yǔ)言文本的分析程序。 |
中文擴(kuò)展分析器
中文分詞器最簡(jiǎn)單的是ik分詞器,還有jieba分詞,哈工大分詞器等
| 分詞器 | 描述 | 分詞對(duì)象 | 結(jié)果 |
|---|---|---|---|
| ik_smart | ik分詞器中的簡(jiǎn)單分詞器,支持自定義字典,遠(yuǎn)程字典 | 學(xué)如逆水行舟,不進(jìn)則退 | [學(xué)如逆水行舟,不進(jìn)則退] |
| ik_max_word | ik_分詞器的全量分詞器,支持自定義字典,遠(yuǎn)程字典 | 學(xué)如逆水行舟,不進(jìn)則退 | [學(xué)如逆水行舟,學(xué)如逆水,逆水行舟,逆水,行舟,不進(jìn)則退,不進(jìn),則,退] |
詞語(yǔ)分詞
標(biāo)準(zhǔn)分詞器(Standard Tokenizer)
根據(jù)standardUnicode文本分段算法的定義,將文本劃分為多個(gè)單詞邊界的上的術(shù)語(yǔ)
它是 ES 默認(rèn)的分詞器,它會(huì)對(duì)輸入的文本按詞的方式進(jìn)行切分,切分好以后會(huì)進(jìn)行轉(zhuǎn)小寫處理,默認(rèn)的 stopwords 是關(guān)閉的。

使用案例
下面使用 Kibana 看一下它是怎么樣進(jìn)行工作的
原始內(nèi)容
COPYIn 2020, Java is the best language in the world.
測(cè)試分詞
在 Kibana 的開(kāi)發(fā)工具(Dev Tools)中指定 Analyzer 為
standard,并輸入文本In 2020, Java is the best language in the world.,然后我們運(yùn)行一下:
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer": "standard"
}

可以看出是按照空格、非字母的方式對(duì)輸入的文本進(jìn)行了轉(zhuǎn)換,比如對(duì) Java 做了轉(zhuǎn)小寫,對(duì)一些停用詞也沒(méi)有去掉,比如 in,其中 token 為分詞結(jié)果;start_offset 為起始偏移;end_offset 為結(jié)束偏移;position 為分詞位置。
可配置項(xiàng)
| 選項(xiàng) | 描述 |
|---|---|
| max_token_length | 最大令牌長(zhǎng)度。如果看到令牌超過(guò)此長(zhǎng)度,則將其max_token_length間隔分割。默認(rèn)為255。 |
| stopwords | 預(yù)定義的停用詞列表,例如english或包含停用詞列表的數(shù)組。默認(rèn)為none。 |
| stopwords_path | 包含停用詞的文件的路徑。 |
COPY{
"settings": {
"analysis": {
"analyzer": {
"my_english_analyzer": {
"type": "standard",
"max_token_length": 5,
"stopwords": "_english_"
}
}
}
}
}
簡(jiǎn)單分詞器(Letter Tokenizer)
當(dāng)simple分析器遇到非字母的字符時(shí),它會(huì)將文本劃分為多個(gè)術(shù)語(yǔ),它小寫所有術(shù)語(yǔ),對(duì)于中文和亞洲很多國(guó)家的語(yǔ)言來(lái)說(shuō)是無(wú)用的

它只包括了 Lower Case 的 Tokenizer,它會(huì)按照非字母切分,非字母的會(huì)被去除,最后對(duì)切分好的做轉(zhuǎn)小寫處理,然后接著用剛才的輸入文本,分詞器換成 simple 來(lái)進(jìn)行分詞,運(yùn)行結(jié)果如下:
使用案例
原始內(nèi)容
COPYIn 2020, Java is the best language in the world.
測(cè)試分詞
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer": "simple"
}

空白分詞器(Whitespace Tokenizer)
它非常簡(jiǎn)單,根據(jù)名稱也可以看出是按照空格進(jìn)行切分的
該whitespace分析儀將文本分為方面每當(dāng)遇到任何空白字符,和上面的分詞器不同,空白分詞器默認(rèn)并不會(huì)將內(nèi)容轉(zhuǎn)換為小寫。

使用案例
原始內(nèi)容
COPYIn 2020, Java is the best language in the world.
測(cè)試分詞
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer": "whitespace"
}

電子郵件分詞器(UAX URL Email Tokenizer)
此分詞器主要是針對(duì)email和url地址進(jìn)行關(guān)鍵內(nèi)容的標(biāo)記。
使用案例
原始內(nèi)容
COPY"Email me at john.smith@global-international.com"
測(cè)試分詞
COPYGET _analyze
{
"text":"Email me at john.smith@global-international.com",
"tokenizer": "uax_url_email"
}
可配置項(xiàng)
max_token_length最大令牌長(zhǎng)度。如果看到令牌超過(guò)此長(zhǎng)度,則將其max_token_length間隔分割。默認(rèn)為255
COPY{
"settings": {
"analysis": {
"analyzer": {
"my_english_analyzer": {
"type": "standard",
"max_token_length": 5
}
}
}
}
}
經(jīng)典分詞器(Classic Tokenizer)
可對(duì)首字母縮寫詞,公司名稱,電子郵件地址和互聯(lián)網(wǎng)主機(jī)名進(jìn)行特殊處理,但是,這些規(guī)則并不總是有效,并且此關(guān)鍵詞生成器不適用于英語(yǔ)以外的大多數(shù)其他語(yǔ)言
特點(diǎn)
- 它最多將標(biāo)點(diǎn)符號(hào)拆分為單詞,刪除標(biāo)點(diǎn)符號(hào),但是,不帶空格的點(diǎn)被認(rèn)為是查詢關(guān)鍵詞的一部分
- 此分詞器可以將郵件地址和URL地址識(shí)別為查詢的term(詞條)
使用案例
原始內(nèi)容
COPY"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
測(cè)試分詞
COPYGET _analyze
{
"text":"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone.",
"analyzer": "classic"
}

可配置項(xiàng)
max_token_length最大令牌長(zhǎng)度。如果看到令牌超過(guò)此長(zhǎng)度,則將其max_token_length間隔分割。默認(rèn)為255。
COPY{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "classic",
"max_token_length": 5
}
}
}
}
}
結(jié)構(gòu)化文本分詞
關(guān)鍵詞分詞器(Keyword Tokenizer)
它其實(shí)不做分詞處理,只是將輸入作為 Term 輸出
關(guān)鍵詞分詞器其實(shí)是執(zhí)行了一個(gè)空操作的分析,它將任何輸入的文本作為一個(gè)單一的關(guān)鍵詞輸出。

使用案例
原始內(nèi)容
COPY"In 2020, Java is the best language in the world."
測(cè)試分詞
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer": "keyword"
}
會(huì)發(fā)現(xiàn)前后內(nèi)容根本沒(méi)有發(fā)生改變,這也是這個(gè)分詞器的作用,有些時(shí)候我們針對(duì)一個(gè)需要分詞查詢的字段進(jìn)行查詢的時(shí)候,可能并不希望查詢條件被分詞,這個(gè)時(shí)候就可以使用這個(gè)分詞器,整個(gè)查詢條件作為一個(gè)關(guān)鍵詞使用

正則分詞器(Pattern Tokenizer)
模式標(biāo)記器使用 Java正則表達(dá)式。使用JAVA的正則表達(dá)式進(jìn)行詞語(yǔ)的拆分。
它可以通過(guò)正則表達(dá)式的方式進(jìn)行分詞,默認(rèn)是用 \W+ 進(jìn)行分割的,也就是非字母的符合進(jìn)行切分的。

使用案例
原始內(nèi)容
COPY"In 2020, Java is the best language in the world."
測(cè)試分詞
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer": "patter"
}

可配置項(xiàng)
正則分詞器有以下的選項(xiàng)
| 選項(xiàng) | 描述 |
|---|---|
| pattern | 正則表達(dá)式 |
| flags | 正則表達(dá)式標(biāo)識(shí) |
| lowercase | 是否使用小寫詞匯 |
| stopwords | 停止詞的列表。 |
| stopwords_path | 定義停止詞文件的路徑。 |
COPY{
"settings": {
"analysis": {
"analyzer": {
"my_email_analyzer": {
"type": "pattern",
"pattern": "\\W|_",
"lowercase": true
}
}
}
}
}
路徑分詞器(Path Tokenizer)
可以對(duì)文件系統(tǒng)的路徑樣式的請(qǐng)求進(jìn)行拆分,返回被拆分各個(gè)層級(jí)內(nèi)容。
使用案例
原始內(nèi)容
COPY"/one/two/three"
測(cè)試分詞
COPYGET _analyze
{
"text":"/one/two/three",
"tokenizer":"path_hierarchy"
}

可配置項(xiàng)
| 選項(xiàng) | 描述 |
|---|---|
| delimiter | 用作路徑分隔符的字符 |
| replacement | 用于定界符的可選替換字符 |
| buffer_size | 單次讀取到術(shù)語(yǔ)緩沖區(qū)中的字符數(shù)。默認(rèn)為1024。術(shù)語(yǔ)緩沖區(qū)將以該大小增長(zhǎng),直到所有文本都被消耗完為止。建議不要更改此設(shè)置。 |
| reverse | 正向還是反向獲取關(guān)鍵詞 |
| skip | 要忽略的內(nèi)容 |
COPY{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"tokenizer": "my_tokenizer"
}
},
"tokenizer": {
"my_tokenizer": {
"type": "path_hierarchy",
"delimiter": "-",
"replacement": "/",
"skip": 2
}
}
}
}
}
語(yǔ)言分詞(Language Analyzer)
ES 為不同國(guó)家語(yǔ)言的輸入提供了
Language Analyzer分詞器,在里面可以指定不同的語(yǔ)言
支持語(yǔ)種
支持如下語(yǔ)種:
| 關(guān)鍵字 | 語(yǔ)種 |
|---|---|
| arabic | 美 /??r?b?k/ 阿拉伯語(yǔ) |
| armenian | 美 /ɑ?r?mi?ni?n/ 亞美尼亞語(yǔ) |
| basque | 美 /b?sk,bɑ?sk/ 巴斯克語(yǔ) |
| bengali | 美 /be??ɡɑ?li/ 孟加拉語(yǔ) |
| brazilian | 美 /br??z?li?n/ 巴西語(yǔ) |
| bulgarian | 美 /b?l?ɡeri?n/ 保加利亞語(yǔ) |
| catalan | 美 /?k?t?l?n/ 加泰羅尼亞語(yǔ) |
| cjk | 中日韓統(tǒng)一表意文字 |
| czech | 美 /t?ek/ 捷克語(yǔ) |
| danish | 美 /?de?n??/ 丹麥語(yǔ) |
| dutch | 美 /d?t?/ 荷蘭語(yǔ) |
| english | 美 /???ɡl??/ 英語(yǔ) |
| estonian | 美 /e?sto?ni?n/ 愛(ài)沙尼亞語(yǔ) |
| finnish | 美 /?f?n??/ 芬蘭語(yǔ) |
| french | 美 /frent?/ 法語(yǔ) |
| galician | 美 /ɡ??l??n/ 加里西亞語(yǔ) |
| german | 美 /?d???rm?n/ 德語(yǔ) |
| greek | 美 /ɡri?k/ 希臘語(yǔ) |
| hindi | 美 /?h?ndi/ 北印度語(yǔ) |
| hungarian | 美 /h???ɡeri?n/ 匈牙利語(yǔ) |
| indonesian | 美 /??nd??ni??n/ 印度尼西亞語(yǔ) |
| irish | 美 /?a?r??/ 愛(ài)爾蘭語(yǔ) |
| italian | 美 /??t?li?n/ 意大利語(yǔ) |
| latvian | 美 /?l?tvi?n/ 拉脫維亞語(yǔ) |
| lithuanian | 美 /?l?θu?e?ni?n/ 立陶宛語(yǔ) |
| norwegian | 美 /n??r?wi?d??n/ 挪威語(yǔ) |
| persian | /‘p??r??n/ 波斯語(yǔ) |
| portuguese | 美 /?p??rt???ɡi?z/ 葡萄牙語(yǔ) |
| romanian | 美 /ro’men??n/ 羅馬尼亞語(yǔ) |
| russian | 美 /?r??n/ 俄語(yǔ) |
| sorani | 索拉尼語(yǔ) |
| spanish | 美 /?sp?n??/ 西班牙語(yǔ) |
| swedish | 美 /?swi?d??/ 瑞典語(yǔ) |
| turkish | 美 /?t??rk??/ 土耳其語(yǔ) |
| thai | 美 /ta?/ 泰語(yǔ) |
使用案例
下面我們使用英語(yǔ)進(jìn)行分析
原始內(nèi)容
COPY"In 2020, Java is the best language in the world."
測(cè)試分詞
COPYGET _analyze
{
"text":"In 2020, Java is the best language in the world.",
"analyzer":"english"
}

自定義分詞器
當(dāng)內(nèi)置的分詞器無(wú)法滿足需求時(shí),可以創(chuàng)建
custom類型的分詞器。
配置參數(shù)
| 參數(shù) | 描述 |
|---|---|
| tokenizer | 內(nèi)置或定制的tokenizer.(必須) |
| char_filter | 內(nèi)置或定制的char_filter(非必須) |
| filter | 內(nèi)置或定制的token filter(非必須) |
| position_increment_gap | 當(dāng)值為文本數(shù)組時(shí),設(shè)置改值會(huì)在文本的中間插入假空隙。設(shè)置該屬性,對(duì)與后面的查詢會(huì)有影響。默認(rèn)該值為100. |
創(chuàng)建索引
上面的示例中定義了一個(gè)名為
my_custom_analyzer的分詞器
該分詞器的type為custom,tokenizer為standard,char_filter為hmtl_strip,filter定義了兩個(gè)分別為:lowercase和asciifolding
COPYPUT my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_custom_analyzer":{
"type":"custom",
"tokenizer":"standard",
"char_filter":["html_strip"],
"filter":["lowercase","asciifolding"]
}
}
}
}
}
使用案例
原始內(nèi)容
COPYIs this <b>déjà vu</b>?
測(cè)試分詞
COPYPOST my_index/_analyze
{
"text": "Is this <b>déjà vu</b>?",
"analyzer": "my_custom_analyzer"
}

中文分詞器
IKAnalyzer
IKAnalyzer是一個(gè)開(kāi)源的,基于java的語(yǔ)言開(kāi)發(fā)的輕量級(jí)的中文分詞工具包
從2006年12月推出1.0版開(kāi)始,IKAnalyzer已經(jīng)推出了3個(gè)大版本,在 2012 版本中,IK 實(shí)現(xiàn)了簡(jiǎn)單的分詞歧義排除算法,標(biāo)志著 IK 分詞器從單純的詞典分詞向模擬語(yǔ)義分詞衍化
使用IK分詞器
IK提供了兩個(gè)分詞算法:
- ik_smart:最少切分。
- ik_max_word:最細(xì)粒度劃分。
ik_smart
使用案例
原始內(nèi)容
COPY傳智教育的教學(xué)質(zhì)量是杠杠的
測(cè)試分詞
COPYGET _analyze
{
"analyzer": "ik_smart",
"text": "傳智教育的教學(xué)質(zhì)量是杠杠的"
}

ik_max_word
使用案例
原始內(nèi)容
COPY傳智教育的教學(xué)質(zhì)量是杠杠的
測(cè)試分詞
COPYGET _analyze
{
"analyzer": "ik_max_word",
"text": "傳智教育的教學(xué)質(zhì)量是杠杠的"
}

自定義詞庫(kù)
我們?cè)谑褂肐K分詞器時(shí)會(huì)發(fā)現(xiàn)其實(shí)有時(shí)候分詞的效果也并不是我們所期待的
問(wèn)題描述
例如我們輸入“傳智教育的教學(xué)質(zhì)量是杠杠的”,但是分詞器會(huì)把“傳智教育”進(jìn)行拆開(kāi),分為了“傳”,“智”,“教育”,但我們希望的是“傳智教育”可以不被拆開(kāi)。

解決方案
對(duì)于以上的問(wèn)題,我們只需要將自己要保留的詞,加到我們的分詞器的字典中即可
編輯字典內(nèi)容
進(jìn)入elasticsearch目錄
plugins/ik/config中,創(chuàng)建我們自己的字典文件yixin.dic,并添加內(nèi)容:
COPYcd plugins/ik/config
echo "傳智教育" > custom.dic
擴(kuò)展字典
進(jìn)入我們的elasticsearch目錄 :
plugins/ik/config,打開(kāi)IKAnalyzer.cfg.xml文件,進(jìn)行如下配置:
COPYvi IKAnalyzer.cfg.xml
#增加如下內(nèi)容
<entry key="ext_dict">custom.dic</entry>
再次測(cè)試
重啟ElasticSearch,再次使用kibana測(cè)試
COPYGET _analyze
{
"analyzer": "ik_max_word",
"text": "傳智教育的教學(xué)質(zhì)量是杠杠的"
}
可以發(fā)現(xiàn),現(xiàn)在我們的詞匯”傳智教育”就不會(huì)被拆開(kāi)了,達(dá)到我們想要的效果了

本文由
傳智教育博學(xué)谷狂野架構(gòu)師教研團(tuán)隊(duì)發(fā)布。如果本文對(duì)您有幫助,歡迎
關(guān)注和點(diǎn)贊;如果您有任何建議也可留言評(píng)論或私信,您的支持是我堅(jiān)持創(chuàng)作的動(dòng)力。轉(zhuǎn)載請(qǐng)注明出處!