nutch中文分词(修改源码的方式)
1、需要的jar包
???? je-analysis-1.5.3.jar? javacc工具? ant
2、部署nutch工程到eclipse中,这一步网上有很多的参考。
3、nutch工程部署好后直接修改org.apache.nutch.analysis包下面的NutchDocumentAnalyzer.java的? tokenStream方法?? 即将以下代码
??????
<property> <name>searcher.dir</name> <value>存放爬虫结果的目录</value> </property>
?
在浏览器中输入http://localhost:8080/nutch-1.0 ,回车后查看结果!