读书人

雅量数据处理之一

发布时间: 2012-08-24 10:00:21 作者: rapoo

海量数据处理之一

?

1 楼 huangsky 2012-06-18 博主是在2G的内存情况下完成这4000万的去重的吗? 2 楼 周凡杨 2012-06-19 huangsky 写道博主是在2G的内存情况下完成这4000万的去重的吗?
是啊 3 楼 datawarehouse 2012-06-19 给出方法啊啊啊 4 楼 周凡杨 2012-06-19 datawarehouse 写道给出方法啊啊啊
思路和过程写的还不够明显吗? 源代码我这也有啊 5 楼 datawarehouse 2012-06-19 哪里下载代码啊 6 楼 eyes_on_you 2012-06-22 能把数据传上来测试下不 7 楼 周凡杨 2012-06-24 eyes_on_you 写道能把数据传上来测试下不
数据文件很大啊,几百M ,你可以自己写个点代码生成嘛 8 楼 lengyimeng 2012-06-25 博主,你的第一步是把文件的数据读一遍,然后把数据的前三位放入一个list中,然后再遍历这个list,通过这个list中的数据,即文件数据的前三位又再去读一遍文件,然后再通过set去重,为什么要读两遍数据,而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢,我记得好像String的subString方法比较耗资源,你这里拿前三位是用哪个方法。还有,最后一个疑问,为什么不直接一次性把数据读入一个linkedList中,然后再遍历一次放入set中啊? 9 楼 周凡杨 2012-06-26 lengyimeng 写道博主,你的第一步是把文件的数据读一遍,然后把数据的前三位放入一个list中,然后再遍历这个list,通过这个list中的数据,即文件数据的前三位又再去读一遍文件,然后再通过set去重,为什么要读两遍数据,而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢,我记得好像String的subString方法比较耗资源,你这里拿前三位是用哪个方法。还有,最后一个疑问,为什么不直接一次性把数据读入一个linkedList中,然后再遍历一次放入set中啊?

数据量太大,一次性的把数据读入linkedList中,会内存溢出的!我第一次读取文件,取前三位,是要得到号段值。比如 135 136 是手机号码的号段。然后再读取文件就可以归类了,是根据已经得到的号段归类的,比如以135开头的数据为一类数据... 总体原理还是化大为小,实现数据过滤。

读书人网 >编程

热点推荐