读书人

hadoop性能调优札记

发布时间: 2012-07-26 12:01:08 作者: rapoo

hadoop性能调优笔记

Hadoop调优

mapred.tasktracker.map.tasks.maximum

?

官方解释:The maximum number of map tasks that will be run??simultaneously by a task tracker.

?

我的理解:一个tasktracker最多可以同时运行的map任务数量

?

默认值:2

?

优化值:mapred.tasktracker.map.tasks.maximum = cpu数量

?

cpu数量 = 服务器CPU总核数 / 每个CPU的核数
服务器CPU总核数 = more /proc/cpuinfo | grep 'processor' | wc -l
每个CPU的核数 = more /proc/cpuinfo | grep 'cpu cores'物理cpu个数?逻辑cpu数?


mapred.map.tasks

官方的解释:The default number of map tasks per job

?

我的解释:一个Job会使用task tracker的map任务槽数量,这个值 ≤?mapred.tasktracker.map.tasks.maximum

?

默认值:2

?

优化值:

  1. CPU数量 (我们目前的实践值)
  2. (CPU数量 > 2) ? (CPU数量 * 0.75) : 1 ?(mapr的官方建议)

?

注意:map任务的数量是由input spilit决定的,和上面两个参数无关

mapred.tasktracker.reduce.tasks.maximum

?

官方解释:The maximum number of reduce tasks that will be run??simultaneously by a task tracker.

?

我的理解:一个task tracker最多可以同时运行的reduce任务数量

?

默认值:2

?

优化值:?(CPU数量 > 2) ? (CPU数量 * 0.50): 1 (mapr的官方建议)

mapred.reduce.tasks

?

官方解释:The default number of reduce tasks per job. Typically set to 99%??of the cluster's reduce capacity, so that if a node fails the reduces can??still be executed in a single wave.

?

我的理解:一个Job会使用task tracker的reduce任务槽数量

?

默认值:1

?

优化值:

读书人网 >开源软件

热点推荐