用 Hadoop 进行分布式并行编程, 第 2 部分
?
?
此后,你就可以象一个普通的 Eclipse Java project 那样,添加入 Java 类,比如你可以定义一个 WordCount 类,然后将本文代码清单1,2,3中的代码写到此类中,添加入必要的 import 语句 ( Eclipse 快捷键 ctrl+shift+o 可以帮你),即可形成一个完整的 wordcount 程序。
在我们这个简单的 wordcount 程序中,我们把全部的内容都放在一个 WordCount 类中。实际上 IBM MapReduce tools 还提供了几个实用的向导 ( wizard ) 工具,帮你创建单独的 Mapper 类,Reducer 类,MapReduce Driver 类(就是代码清单3中那部分内容),在编写比较复杂的 MapReduce 程序时,将这些类独立出来是非常有必要的,也有利于在不同的计算任务中重用你编写的各种 Mapper 类和 Reducer 类。
描述名字大小下载方法改进的 wordcount 程序wordcount.zip8KBHTTPIBM MapReduce Toolsmapreduce_plugin.zip324KBHTTP
关于下载方法的信息
?
参考资料
学习
访问 Hadoop 官方网站,了解 Hadoop 及其子项目 HBase 的信息。Hadoop wiki 上, 有许多 Hadoop 的用户文档,开发文档,示例程序等。
阅读 Google Mapreduce 论文: MapReduce: Simplified Data Processing on Large Clusters , 深入了解 Mapreduce 计算模型。
学习 Hadoop 分布式文件系统 HDFS: The Hadoop Distributed File System:Architecture and Design
学习 Google 文件系统 GFS: The Google File System, Hadoop HDFS 实现了与 GFS 类似的功能。
到 IBM alphaWorks 网站了解并且下载 IBM MapReduce Tools: http://www.alphaworks.ibm.com/tech/mapreducetools,
讨论
加入Hadoop 开发者邮件列表,了解 Hadoop 项目开发的最新进展。关于作者
曹羽中,在北京航空航天大学获得计算机软件与理论专业的硕士学位,具有数年的 unix 环境下的 C 语言,Java,数据库以及电信计费软件的开发经验,他的技术兴趣还包括 OSGi 和搜索技术。他目前在IBM中国系统与科技实验室从事系统管理软件的开发工作,可以通过 caoyuz@cn.ibm.com与他联系。
?
原文地址: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html