hadoop 联合 join操作
hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.
?
map端联接
?
?
reduce端联接
同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!)
1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的;
2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最目标,即将相同key所附属的values连接起来。
?
由于书本上没有说明排序,搞得我以为按它说的直接使用secondary sort就可以了。这样是错误的。
?
?
see also
hadoop几种排序简介