SOLR同义词使用之中文问题
使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。
比如说:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。
总结:SOLR中文分词无法使用,核心问题是-没有统一编码,导致乱码问题。
发布时间: 2012-10-30 16:13:36 作者: rapoo
SOLR同义词使用之中文问题
使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。
比如说:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。
总结:SOLR中文分词无法使用,核心问题是-没有统一编码,导致乱码问题。