认识什么是Analyze中文分词？-群英

认识什么是Analyze中文分词？

linuxe发表于 2020-10-22 15:54 次浏览

对于Analyze中文分词在中文检索中非常常用，本人也使用了挺久的。但知识细节一直很碎片化，一直没有做详细的整理。过一段时间用的话，也是依然各种找资料，也因此会降低开发效率。所以在有空的时候好好整理下相关资料。也希望本文对使用Analyze中文分词的开发者有所帮助。希望能少走点弯路。

一、什么是分词

Elasticsearch的Analysis功能叫做分词，是把全文本转换成一系列单词的过程。Elasticsearch本身有很多的分词API，如standard（按单词切分）、simple、whitespace（按空格切分）、pattern（正则分词）等等，如图：

二、Elasticsearch的中文分词

由于外国人对于汉字的不了解，没有词汇的概念，只是单纯的逐个拆分每句话中的每个字。为了更好的进行中文分词，需要使用专门的中文分词插件elasticsearch-analysis-ik，简称IK。

1、下载IK分词器，下载地址是https://github.com/medcl/elasticsearch-analysis-ik

2、将下载好的包解压并放到elasticsearch/plugins目录下

3、重启Elasticsearch服务

4、查询数据进行测试，可以看到图中将analyzer指定为了ik_smart，除此还可以使用最大化分词ik_max_smart，后者可以尽可能的多去进行分词。具体用哪个看自己需要:

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：mmqy2019@163.com进行举报，并提供相关证据，查实之后，将立刻删除涉嫌侵权内容。