读书人

Nutch施用入门(四)添加中文分词

发布时间: 2012-09-14 11:53:44 作者: rapoo

Nutch使用入门(四)——添加中文分词

jar cvf nutch-1.0.jar org

??? 将nutch-1.0.war包中的nutch-1.0.jar替换为刚刚生成的nutch-1.0.jar,并且加入IKAnalyzer3.1.1Stable.jar.

?

??? 至此,全部工作都已经完成。接下来爬行和搜索工作可以参考我的其他两篇入门文章:

?? Nutch 使用入门(一)——准备工作及Intranet抓取??? ??? Nutch 使用入门(二)——互联网抓取

?

1 楼 softkid 2010-05-31 请注意中文分词的版本,我自己就只是用来IKAnalyzer3.1.1Stable,网友试了3.2也行。还有,他试了最新的,但是不行。 2 楼 commanderhyk 2010-07-15 最近nutch发布了1.1,在学习中。基本的配置例子都跑通了,正在学习更换切词器,按照您上述的方式都成功的部署了,但是最后查询时候抛出了异常
java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TermAttribute'.
我开始用 3.2.3后来改成3.1.1都不行。目前不知道如何解决,希望能帮我看看这个问题,如何解决。谢谢了
javaeye上有类似的错误说是能解决,但是没有给出解决办法,以下是连接
http://www.iteye.com/topic/476897?page=2
3 楼 commanderhyk 2010-07-15 刚才看了看nutch生成的代码,好像是缺失了一些属性。我试着补上
Analyzer analyzer;
analyzer = new IKAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
tokenStream.addAttribute(TypeAttribute.class);//补充
tokenStream.addAttribute(FlagsAttribute.class);//补充
tokenStream.addAttribute(PayloadAttribute.class);//补充
tokenStream.addAttribute(PositionIncrementAttribute.class);//补充
return tokenStream;

经过试验通过。可以查出数据了,但不知到原理为什么这么做。

读书人网 >互联网

热点推荐