经过Map-Reduce实现Join系列之四

通过Map-Reduce实现Join系列之四
?
(i,j)表示矩阵中的某个位置，其中i和j的取值在[1,m]之间。这样对于每个B和C的哈希值对(h(B),h(C))，都能够被映射到Reducer矩阵中的某个Reducer上，也就是说T2文件中的记录能够被分配到不同的Reducer中，而且每个Reducer上的记录不会重复。而对于T1文件，由于它只包含了B列，因此我们只能够得到(h(B),y)形式的映射结果，也就是在y轴上的值是未知的，因此对于T1文件中的每条数据，需要被复制到m个Reducer上。同样的，对于T3数据文件来说，我们能够得到(x,h(C))这样的映射结果，也就是在x轴上的值是未知的，因此T3文件中的每条数据也同样需要被复制到m个Reducer上。通过这个优化，矩阵中的每个Reducer将会得到1/m2条T2文件中的记录，1/m条T1和T3中的数据，这样以来，就不需要把T1和T3文件完整复制给所有的Reducer了，而只需要复制其中的一部分。?
通过上面的描述，我们可以看到，对这个算法的优化，主要集中在如何减少需要复制给每个Reducer的数据量上。关于这个问题，本文不打算详细展开，更具体的内容可以在后面给出的参考文献中找到。?
3.参考文献?
Join Algorithms using Map/Reduce?
Optimizing Joins in a Map-Reduce Environment

转自：http://mysun.iteye.com/blog/1748484

经过Map-Reduce实现Join系列之四

热点推荐