读书人

solr4.3之配备中文分词mmseg4j

发布时间: 2013-07-20 11:07:48 作者: rapoo

solr4.3之配置中文分词mmseg4j
前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。


其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置

下面给出在schemal.xml里面的配置




最后把分词的jar包,放入solr里面就可以

mmseg4j-solr-1.9.1.jar


下面会附上3个jar,包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list

至此就配置完了,启动solr就可以在UI页面分析测试了。




读书人网 >开源软件

热点推荐