Heritrix 三配置过程

Heritrix 3配置过程

然后运行Heritrix.java，如果一切正常你可以通过：https://localhost:8443访问Heritrix 3.1的管理网站。

不过这时系统里还一片空白，你需要建立一个网页抓取的任务（job）.

4、建立和配置抓取任务

??? 登录管理控制台（用户名admin密码admin），在管理界面首页找到如下图这个位置：

Heritrix 三配置过程

输入一个名称（如myjob）,然后点击“Create”按钮。

这时候根据默认模版生成了一个抓取任务，但还不能抓取任何东西，我们需要通过配置文件的修改告诉服务器，我们要抓取什么。

在管理控制台的Job Directories中选择要配置的job（下图中myjob）

Heritrix 三配置过程

进入myjob的管理界面，如下图：

Heritrix 三配置过程

点击edit按钮，开始编辑配置文件，配置需要修改的地方如下图所示，先从简单的做起：

Heritrix 三配置过程

配置1和3的配置内容是一样的，operatorContactUrl写成http://localhost, jobName和description随便写点东西即可。

配置2则是配置搜索种子网站的列表，我这里先写了一个http://www.sina.com.cn,先抓取新浪网站试试。

点击最上面的“Save changes"保存所有的配置文件。

这三个地方配置好就可以运行这个抓取任务试试了。

这时候需要执行如下操作（回到myjob的配置界面），让任务运行起来：

1）点击“build”编译当前的配置。

2）点击“launch”按钮运行当前任务至挂起状态，如果job已经运行，则先点击“checkpoint”按钮；

3）这时任务处于挂起状态，点击“unpause”即立即启动任务。

如果系统正常运行，会有如下类似提示信息：

Heritrix 三配置过程

在项目的jobs\myjob\20120623061610\warcs目录下有一个逐步增大的文件，这就是抓取下来的网页。

如果要看到每个抓取的页面，可以将配置文件的warcWriter这个bean的class改为 org.archive.modules.writer.MirrorWriterProcessor，这样就下载的网页是以镜像文件的形式保存在，一般存放在项目根目录下的mirror目录下。