hive bucket产生的小文件问题
1. 数据sampling
2. 提升某些查询操作效率,例如mapside join
与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:
1. 文件数目过多,给namenode带来压力
2. 在对查询条件不加限制时,启动大量map任务
3. 数据入库慢
结论:
bucket,慎用!
发布时间: 2012-11-03 10:57:44 作者: rapoo
hive bucket产生的小文件问题
与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:
1. 文件数目过多,给namenode带来压力
2. 在对查询条件不加限制时,启动大量map任务
3. 数据入库慢
结论:
bucket,慎用!