读书人

写聚类内存不够用。解决思路

发布时间: 2012-05-27 05:42:30 作者: rapoo

写聚类内存不够用。。。
小白刚刚入门数据挖掘
老板给个工作要对4G,1000w左右条目的数据进行聚类并且生成倒排索引
计划用k-means,但是小本内存不够啊读不进来。。。
以前没有用文件流辅助过计算所以不是很清楚流程。
似乎听人说过可以只保留数组下标每次要用数据的时候去读文件
但是4G的数据啊。。这样每次取数据的时候都要读不是也很慢么~?
求问大家有没有什么好方法。。。><

[解决办法]
内存映射文件,或者 直接搞个大内存的。

要做算法之类的, 24GB 内存,起步

读书人网 >C++

热点推荐