读书人

配备hadoop和nutch

发布时间: 2012-07-16 15:44:59 作者: rapoo

配置hadoop和nutch

????????????? 这个东西在linux下面配置,写文件权限是最开始可能会遇到的问题,主要应该把默认的tmp目录配置到可写目录里面;之后可能就会遇到socket访问类似的错误,这主要是因为fs.default.name配置参数的问题,使用hdfs://localhost类似的串代替就好了;再有的问题就是网络访问授权的问题,使用ssh-keygen使得可以不用密码就可以正常运行#sshlocalhost就好,这是针对单机配置,如果是cluster,就需要配置namenode到datanode的访问权限,照着单机的类似步骤配置即可,完了使用sshhost验证一下。一个很好的命令jps很好用,这是java1.5之后的版本的才用的,用来查看java虚拟机里面在跑着那些程序。比如使用bin/start-all.sh运行了hadoop后使用jps命令检查一下是不是所有的node和tracker都起来了。

?????????????? 在配置nutch非分布式的时候,注意恢复hadoop-site.xml到hadoop-default.xml的默认值,即都使用本地文件存储。简单的方法就是重命名hadoop-site.xml,全部使用hadoop-default.xml的默认值。所以不要直接改动hadoop-default.xml里面的配置,如果改动太多的话,一个最笨的方法就是直接拷贝一份hadoop-default.xml命名为hadoop-site.xml,然后修改相应的配置。

调试过程中可能会有修改了hadoop-site.xml或者nutch-site.xml后配置不生效的问题,这个主要可能的原因就是别的地方有一份老的hadoo-site.xml或者nutch-site.xml配置,比如jar包里面;比如build目录里面;对于分布式部署,比如job包里面。

hadoop注意如上的一些地方,基本上就可以跑起来,接下来就是nutch了。参考文献有http://wiki.apache.org/nutch/Nutch0.9-Hadoop0.10-Tutorial?highlight=%28hadoop%29%7C%28tutorial%29。不过开始经常会遇到在depth0即停止不抓的情况,以前遇到过几回了,但是没有记录下来,现在有麻烦了。解决过程中……

更多信息请查看?java进阶网?http://www.javady.com

读书人网 >开源软件

热点推荐