读书人

汉语分词新词挖掘篇

发布时间: 2012-07-01 13:15:00 作者: rapoo

中文分词—新词挖掘篇
大概想法是这样:
找词库完毕,剩下没有找到的所有字符串,进行新词挖掘。
例如:
一篇文章中,没有找到的所有字符串有:
1、杨瑞第集国宁你们
2、杨瑞来你们来国宁
3、过来要不要去
4、要不要过来啊
经过新词挖掘,可以得到
杨瑞->你们->国宁->要不要->过来->
欢迎大家测试!有更好的算法,也可以说一下,讨论讨论~~~

 

读书人网 >开源软件

热点推荐