mmseg4j 多分词模式与 paoding 分词效果对比
mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。
paoding 分词效果:
--------------------------清华大学清华 | 大学 | --------------------------华南理工大学华南 | 理工 | 工大 | 大学 | --------------------------广东工业大学广东 | 工业 | 大学 | --------------------------西伯利亚西 | 伯利 | 利亚 | --------------------------研究生命起源研究 | 生命 | 起源 | --------------------------为首要考虑为首 | 要 | 考虑 | --------------------------化装和服装化装 | 和 | 服装 | --------------------------中国人民银行中国 | 国人 | 人民 | 银行 | --------------------------中华人民共和国中华 | 华人 | 人民 | 共和 | 国 | --------------------------羽毛球拍羽毛 | 球拍 | --------------------------人民币人民 | 币 | --------------------------很好听很好 | 好听 | --------------------------下一个下一 | 一个 | --------------------------为什么为 | 什么 | --------------------------北京首都机场北京 | 首都 | 机场 | --------------------------东西已经拍卖了东西 | 已经 | 拍卖 | 了 | --------------------------主人因之生气主人 | 因 | 之 | 生气 | --------------------------虽然某些动物很凶恶虽然 | 某些 | 动物 | 很 | 凶恶 | --------------------------朋友真背叛了你了朋友 | 真 | 背叛 | 了 | 你了 | --------------------------建设盒蟹社会建设 | 盒 | 蟹 | 社会 | --------------------------建设盒少蟹社会建设 | 盒 | 少 | 蟹 | 社会 | --------------------------我们家门前的大水沟很难过。 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 | --------------------------罐头不如果汁营养丰富。 罐头 | 不如 | 果汁 | 营养 | 丰富 | --------------------------今天真热,是游泳的好日子。 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 | --------------------------妹妹的数学只考十分,真丢脸。 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 | --------------------------我做事情,都是先从容易的做起。 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 | --------------------------老师说明天每个人参加大队接力时,一定要尽力。 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 | --------------------------小明把大便当作每天早上起床第一件要做的事小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |
paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来(1.6版按二元,不是词的去掉或保存单字。下一版本可能方式有点不同,“为什么”不应该为“为|什么”,也即是三个字的前后不是词的应该不分,有待研究,:))。
如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。
mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?
当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
1 楼 jitabc 2009-05-22 很不错.....