nutch中文分词(通过插件的方式)
1、需要的工具:IKAnalyzer jar包(将其命名为analysis-zh.jar)? javacc工具 ant
2、部署nutch工程到eclipse中。
3、定义自己的分词类,代码如下
???????????????????????
?
?? 6、运行NGramProfile类,生成zh.ngp文件,将生成的文件拷贝到src/plugin/languageidentfier/src/java目录下的org.apache.nutch.anaysis.lang包下面
7、修改NutchAnalysis文件,编译此文件,覆盖(详见本博客中的另一篇关于nutch中文分词的文章)
8、创建目录Myanalyzer,在此目录下放入(plugin.xml,MyAnalyzer.jar,analysis-zh.jar),然后将此目录拷贝到nutch-1.0\plugins\目录下。
9、ant编译工程(详见本博客中的另一篇关于nutch中文分词的文章)
10、爬虫、部署、测试(详见本博客中的另一篇关于nutch中文分词的文章)