paoding 中文分词学习
因为毕业设计需要用到中文分词这个功能,自己写分词软件?简直是天方夜谭。
查了一下比较通用的分词软件,最后选择了paoding中文分词,理由看图片:
仅支持java语言,作为一个java爱好者,有什么比这句话更有诱惑的呢。
俗话说:万事开头难。第一步当然是先现在开发包了,下载地址:点击打开链接
下载之后,下一步就是去阅读开发文档了。于是,果断泪奔了!
有这么简陋的开发文档吗!!!能再简陋点吗!!!好吧,忍了!
还好上面还是有“效果体验”和“开始使用”两部分的文档。
先体验一下
效果还行吧~~
于是就开始使用
原来要设置一个词库,瞅瞅下载的开发包,里面有 dic 目录随便打开一个文件:
原来是这样子的。
大致明白了,庖丁是根据这些库里面的词组,进行对中文的分词的。按照开发文档设置好环境变量,把example包下面的例子拷贝到自己新建的项目中,根据提示,导入需要的包:
paoding依赖的是lucene,所以lucene的jar包要导入,logging的jar包主要负责日志生成,junit复测单元测试。
在paoding的开发包里面的lib目录下面,有两个spring的jar包,根据开发文档目录(因为只有目录没内容)推测,这个是用来支持spring的,暂时不用。
然后运行,结果报错!错误提醒说我没有设置PAODING_IDC_HOME,我明明设置了啊!重新搞了很多次,依旧不行。没办法了问google老师吧,查了半天,原来是开发文档搞错了
PAODING_DIC_HOME的变量值少个'/',应该是 E:/data/paoding/dic/
不知道是哪个部分责任的写的开发文档。google环境变量的同时也找到了另一种方法,根据环境变量报错提示,发现还有另一种方法设置paoding_dic_home。
paoding-analysis.jar 包里面有个文件paoding-dic-home.properties
把里面的修改为下面的
下一步就是研究具体怎么使用paoding分词了。
-------------------------------------------------------------------------------
自己把自己的这个demo和paoding的开发包放在csdn了,供大家免积分下载,共同交流;点击打开链接