Win7环境下配置nutch-1.2
Nutch-1.2的安装测试,在cygwin窗口输入:bin/nutch。
如果出现Usage:nutch[-core] COMMAND等一串信息就表示nutch安装成功。
<!--[endif]-->
?
?
?
运行crawl爬虫命令抓取内容
运行cygwin后,
a)首先切换进入nutch-1.2的目录;
b)运行命令:export LANG="zh_CN.GBK"(设置linux环境变量)
c)运行命令:bin/nutch crawl urls -dir crawled -depth 4 -threads 3-topN 30
<!--[if !supportLineBreakNewLine]-->
?crawl是nutch检索数据命令,后面跟上要检索的URL文件; <!--[endif]-->
?
?
-dir指定抓取内容所存放的目录;
?
-depth表示以要抓取网站顶级网址为起点的爬行深度;
?
-theads指定并发的线程数
?
-topN抓取时每页的最大抓取链接。
运行结果
nutch-1.2的目录下多了个crawled目录,下面有文件如下:
?
?
?
?
?
?