读书人

quot;阿里地区Hadoop集群架构及服务体系quot;分

发布时间: 2013-07-01 12:33:04 作者: rapoo

"阿里Hadoop集群架构及服务体系"分享总结
集群按需申请,分组管理,同时计费;集群数据共享(原始表/中间表/元数据),避免重复计算和存储成立阿里巴巴数据交换中心;集群共享(生产\开发\测试\预发),避免数据在不同集群间拖动;涉及生态系统包括:Hive,Streaming,Mahout,Pig和HBase;资源调度改造:增加JobLevel概念,支持异构操作系统调度和服务端控制Reduce启动时机;动态调整slots配置;增加密码认证;权限扩展UGO权限即:user group other;NameNode改进:RPC 改造,Listener 拆分出多个 Reader,使用读写锁,提高并发度和写操作等待sync时释放 handler;JobTracker改进:Scheduler调度算法重写,从O(n2)降低到O(1)、一次心跳分配多个Task、Job History改造成异步写和Out-of-bound heartbeat提高调度的效率 ;Hook机制:pre-job hook(作业提交前执行,配置JobLevel,自动优化Shuffle参数和自动设置Reduce个数)和post-job hook(作业结束后执行,收集Job运行数据);集群用户门户 一站式Portal;TimeTunnel,分布式日志收集工具;DataX,前台数据库<=>云梯 (双向同步);DBsync,增量,大表的快速同步 ;数据开发包括:数据分析,知识管理(元数据/数据字典/数据订阅/表字段血缘分析 )和存储管理(数据生命周期,数据保留策略:周期性删除/极限存储/压缩/HDFS);

?

图解:



?

更多分享参见附件

读书人网 >行业软件

热点推荐