Pig-0.9.2安装和配置实验报告
在安装Pig之前,Hadoop环境已经配置好了,因此这里直接从安装Pig开始。
?
1.?下载Pig安装包
Pig-0.9.2下载地址:http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/
在以上地址选择pig-0.9.2.tar.gz文件,也就是linux系统的压缩文件,下载到路径:/home/hadoop/HadoopHome
?
2.解压Pig安装包
在命令行切换至下载目录:
$ cd/home/hadoop/HadoopHome
在命令行解压缩安装包:
$ tar -zxvfpig-0.9.2.tar.gz
?
3.设置环境变量
在命令行以root用户编辑配置文件:
$ sudo vi/etc/profile
在文件末尾添加如下内容:
exportPIG_INSTALL=/home/hadoop/HadoopHome/pig-0.9.2
exportPATH=$PATH:$PIG_INSTALL/bin
exportPIG_HADOOP_VERSION=20
exportPIG_CLASSPATH=$HADOOP_INSTALL/conf
其中:PATH允许你在命令行使用pig命令;PIG_HADOOP_VERSION是告诉pig所使用的hadoop版本;PIG_CLASSPATH用来指定Hadoop配置文件所在的目录,分布式执行Pig的时候用到。
保存后重新加载profile文件以使其生效:
$ source/etc/profile
?
4.测试Pig安装结果
在命令行查看Pig帮助:
$ pig help
… USAGE: …
?
(六)分布模式:批处理执行Pig Lartin语句1.准备数据文件
准备如下文档文件A,内容如下:
0,1,2
1,3,4
复制以上文件到HDFS:
grunt>fs copyFromLocal A A
或者:
grunt>fs put A A
说明:copyFromLocal和put是一个效果,且用法一致。
查看文件是否复制成功:
grunt>ls
hdfs:// …A …
grunt>cat A
0,1,2
1,3,4
2.编写和运行Pig脚本文件新建文档文件myscript.pig,内容如下:
/*
Pig脚本文件
*/
a = load ‘A’using PigStorage(‘,’); -- 加载文件A的数据
b =foreach a generate $0 as id; -- 遍历a的第一列
dump b;-- 输出b的结果
交互模式执行myscript.pig脚本:
grunt>run myscript.pig
…
(0)
(1)
说明:通过run命令执行脚本,可以在脚本与Grunt Shell之间进行交互(交互模式)。脚本内可以访问外部在Grunt Shell定义的aliase;Grunt Shell也可访问在脚本内定义的aliase。脚本的所有命令在Shell执行记录中可见。
批处理模式执行myscript.pig脚本:
grunt>exec myscript.pig
…
(0)
(1)
说明:以exec命令执行脚本,不会在脚本与Grunt Shell之间存在交互(批处理模式)。脚本和Shell不能互相访问aliase。脚本命令在Shell的执行记录也不可见。
?
以上。
?
南邮福富实验室
wuxiaochao@live.com