hadoop 联结 join操作

hadoop 联合 join操作

hadoop join操作类似于sql中的功能，就是对多表进行取子集并合并一起。其中有很多工具已经可用，如pig,hive，cascading.

map端联接

reduce端联接

同样，就是联接处理时在reduce端。那么有哪些步骤呢？（讨厌原书的翻译者把它译作几种方法！）

1.由于在reduce端处理，必须会考虑到多输入问题，即多表。于是MultiInputs必须的；

2.排序，分组。因为先排序，这样在处理时就可以为分组服务了，而分组是最目标，即将相同key所附属的values连接起来。

由于书本上没有说明排序，搞得我以为按它说的直接使用secondary sort就可以了。这样是错误的。