读书人

海量表格的相似处理--

发布时间: 2012-02-29 16:44:11 作者: rapoo

海量表格的相似处理--高手进
现在已有10000个表格,每个表格中有256个元素。
又新来一个表格S【256】,判断改表格是否与已有的某个表格相似。

相似定义:
S1[256] S2[256] 相似
=》
1) S1[i] 与 S2[i] 的差异 小于 10
2) S1[i] 与 S2[i] 的差异之和(i=0--255)小于100。

请问如何设计算法,使得能够进行快速判断。



[解决办法]
呵呵,这个我做过。

10000数据量也算海量,汗。我一般是一千万以上,才叫海量。

我以前做过两个图片的相似对比,类似这个。
我是抽样实现的
[解决办法]
我的想法:
第一步:将两个表格中对应元素相减,获得一个新的差值表格(256个元素);
第二步:查询新的差值表格中不为0的元素的个数,小于10则进入第三步;
第三步:求差值表格中所有元素的和sum, -100 <sum <100,则相似

读书人网 >软件架构设计

热点推荐