读书人

hive bucket产生的小文件有关问题

发布时间: 2012-11-03 10:57:44 作者: rapoo

hive bucket产生的小文件问题

Hive bucket主要作用:
1. 数据sampling
2. 提升某些查询操作效率,例如mapside join


与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为:
1. 文件数目过多,给namenode带来压力
2. 在对查询条件不加限制时,启动大量map任务
3. 数据入库慢

结论:
bucket,慎用!

读书人网 >其他数据库

热点推荐