Nutch施用入门（四）——添加中文分词

Nutch使用入门（四）——添加中文分词

jar cvf nutch-1.0.jar org

??? 将nutch-1.0.war包中的nutch-1.0.jar替换为刚刚生成的nutch-1.0.jar，并且加入IKAnalyzer3.1.1Stable.jar.

??? 至此，全部工作都已经完成。接下来爬行和搜索工作可以参考我的其他两篇入门文章：

?? Nutch 使用入门(一）——准备工作及Intranet抓取??? ??? Nutch 使用入门(二）——互联网抓取

1 楼 softkid 2010-05-31 请注意中文分词的版本，我自己就只是用来IKAnalyzer3.1.1Stable，网友试了3.2也行。还有，他试了最新的，但是不行。 2 楼 commanderhyk 2010-07-15 最近nutch发布了1.1，在学习中。基本的配置例子都跑通了，正在学习更换切词器，按照您上述的方式都成功的部署了，但是最后查询时候抛出了异常
java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TermAttribute'.
我开始用 3.2.3后来改成3.1.1都不行。目前不知道如何解决，希望能帮我看看这个问题，如何解决。谢谢了
javaeye上有类似的错误说是能解决，但是没有给出解决办法，以下是连接
http://www.iteye.com/topic/476897?page=2
3 楼 commanderhyk 2010-07-15 刚才看了看nutch生成的代码，好像是缺失了一些属性。我试着补上
Analyzer analyzer;
analyzer = new IKAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
tokenStream.addAttribute(TypeAttribute.class);//补充
tokenStream.addAttribute(FlagsAttribute.class);//补充
tokenStream.addAttribute(PayloadAttribute.class);//补充
tokenStream.addAttribute(PositionIncrementAttribute.class);//补充
return tokenStream;

经过试验通过。可以查出数据了，但不知到原理为什么这么做。

Nutch施用入门（四）添加中文分词

热点推荐