Elasticsearch集成汉语分词

Elasticsearch集成中文分词
前言

由于elasticsearch基于lucene，所以天然地就多了许多lucene上的中文分词的支持，比如 IK, Paoding,?MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。至于插件怎么开发，这里有一片文章介绍：

http://log.medcl.net/item/2011/07/diving-into-elasticsearch-3-custom-analysis-plugin/

暂时还没时间看，留在以后仔细研究，这里只记录本人使用medcl提供的IK分词插件的集成步骤。

一、插件准备

网上有介绍说可以直接用plugin -install medcl/elasticsearch-analysis-ik的办法，但是我执行下来的效果只是将插件的源码下载下来，elasticsearch只是将其作为一个_site插件看待。

所以只有执行maven并将打包后的jar文件拷贝到上级目录。

（否则在定义mapping的analyzer的时候会提示找不到类的错误）。

由于IK是基于字典的分词，所以还要下载IK的字典文件，在medcl的elasticsearch-RTF中有，可以通过这个地址下载：

http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip

下载之后解压缩到config目录下。

?到这里，你可能需要重新启动下elasticsearch，好让下一部定义的分词器能立即生效。

二、分词定义

分词插件准备好之后就可以在elasticsearch里定义（声明）这个分词类型了（自带的几个类型，比如standred则不需要特别定义）。

跟其他设置一样，分词的定义也可以在系统级（elasticsearch全局范围），也可以在索引级（只在当前index内部可见）。系统级的定义当然是指在conf目录下的elasticsearch.yml文件里定义，内容大致如下：

?与使用standard分词器的效果更合理了：

?新的分词器定义完成，工作正常后就可以在mapping的定义中引用了，比如我定义这样的type：

?至此，一个带中文分词的elasticsearch就算搭建完成。想偷懒的可以下载medcl的elasticsearch-RTF直接使用，里面需要的插件和配置基本都已经设置好。