读书人

使用Hadoop har存档历史文件(小文件)

发布时间: 2013-10-23 11:39:13 作者: rapoo

使用Hadoop har归档历史文件(小文件)

?申明:本文转自http://heipark.iteye.com/blog/1356063

应用场景

我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。

下面图片展示了,har文档的结构。har文件是通过mapreduce生成的,job结束后源文件不会删除。

?
使用Hadoop har存档历史文件(小文件)

?

har命令说明
    ? 参数“-p”为src path的前缀? src可以写多个path

?

archive -archiveName NAME -p <parent path> <src>* <dest>

生成HAR文件

读书人网 >开源软件

热点推荐