我的一次Hadoop小文件Job优化预研报告
前言
? ? 公司有日志排序的需求,目前收集环节会产生大量小文件,目前我们没有使用flume和Hbase,本次优化只涉及HDFS和MapReduce。
? ? 关于小文件对Namenode影响,本文不涉及,我们现在使用HAR归档小文件。
? ? 本文的结论基于HDFS大量小文件的情况。
?
一 、开启Jvm重用对Job影响:24mins, 32sec
30%
?
?
--本文来自heipark iteye博客
?
发布时间: 2012-06-27 14:20:09 作者: rapoo
我的一次Hadoop小文件Job优化预研报告
前言
? ? 公司有日志排序的需求,目前收集环节会产生大量小文件,目前我们没有使用flume和Hbase,本次优化只涉及HDFS和MapReduce。
? ? 关于小文件对Namenode影响,本文不涉及,我们现在使用HAR归档小文件。
? ? 本文的结论基于HDFS大量小文件的情况。
?
一 、开启Jvm重用对Job影响:24mins, 32sec
30%
?
?
--本文来自heipark iteye博客
?