读书人

nutch汉语分词(通过插件的方式)

发布时间: 2012-10-31 14:37:32 作者: rapoo

nutch中文分词(通过插件的方式)

1、需要的工具:IKAnalyzer jar包(将其命名为analysis-zh.jar)? javacc工具 ant

2、部署nutch工程到eclipse中。

3、定义自己的分词类,代码如下

???????????????????????

?

?? 6、运行NGramProfile类,生成zh.ngp文件,将生成的文件拷贝到src/plugin/languageidentfier/src/java目录下的org.apache.nutch.anaysis.lang包下面

7、修改NutchAnalysis文件,编译此文件,覆盖(详见本博客中的另一篇关于nutch中文分词的文章)

8、创建目录Myanalyzer,在此目录下放入(plugin.xml,MyAnalyzer.jar,analysis-zh.jar),然后将此目录拷贝到nutch-1.0\plugins\目录下。

9、ant编译工程(详见本博客中的另一篇关于nutch中文分词的文章)

10、爬虫、部署、测试(详见本博客中的另一篇关于nutch中文分词的文章)

读书人网 >软件架构设计

热点推荐