海量表格的相似处理--高手进
现在已有10000个表格,每个表格中有256个元素。
又新来一个表格S【256】,判断改表格是否与已有的某个表格相似。
相似定义:
S1[256] S2[256] 相似
=》
1) S1[i] 与 S2[i] 的差异 小于 10
2) S1[i] 与 S2[i] 的差异之和(i=0--255)小于100。
请问如何设计算法,使得能够进行快速判断。
[解决办法]
呵呵,这个我做过。
10000数据量也算海量,汗。我一般是一千万以上,才叫海量。
我以前做过两个图片的相似对比,类似这个。
我是抽样实现的
[解决办法]
我的想法:
第一步:将两个表格中对应元素相减,获得一个新的差值表格(256个元素);
第二步:查询新的差值表格中不为0的元素的个数,小于10则进入第三步;
第三步:求差值表格中所有元素的和sum, -100 <sum <100,则相似