读书人

拆分文件统计topN的有关问题

发布时间: 2014-05-27 17:04:39 作者: rapoo

拆分文件统计topN的问题

如果对一个只包含ip地址文件进行统计,需要求出频率最高的前10个IP地址应该如何处理?文件2G,内存128MB。

解决办法:先拆分文件统计,然后再合并?

但如何处理如下的问题呢?

?

对于A,B两组机器,如果取top3,貌似A1,A2,A3就是。但如何避免A6和B6是同一个IP,如果相加会超过A1。其实答案应该是A6,A1,A2。

?123456A300029992998299729962995B1000999998997996995

?

?

解决办法:

通过hash(ip)%2来避免同一个ip落在不同的机器上。

读书人网 >其他相关

热点推荐