读书人

怎么计算出一篇文章中出现频率最高的字

发布时间: 2012-03-21 13:33:15 作者: rapoo

如何计算出一篇文章中出现频率最高的字符或词组?
比如有一篇文章:

"请您对您的言行负责,遵守中华人民共和国有关法律、法规,尊重网上道德,发表问题前,建议搜索已有问题,社区发表新贴子. 发帖咨询问题前,建议你搜索,看是不是已经有人解决了这个问题。 "

要如何才能计算出里面出现频率最高的词组和单字呢????
散分啊,,,超级难的 问题呀

[解决办法]
首先要分词阿,不分词怎么统计。去搞一个中科院开源的分词工具先。然后根据你的分词去分析字符串就可以了
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下

[解决办法]
先进行多元分词,然后对分词进行编码化,最后按编码进行统计
[解决办法]
然后对分词进行编码化,最后按编码进行统计
[解决办法]
好像lucene中有一个统计词个数的方法。自己可以去研究一下

[解决办法]
找个词库,然后用后向最大匹配的分词把里面的词组都解析出来。接下来就是统计咯。

现成的工具不知道有没有,好久没碰这个东西了。。。。

读书人网 >网络基础

热点推荐