读书人

Heritrix源码之 处置链

发布时间: 2012-09-11 10:49:03 作者: rapoo

Heritrix源码之 处理链
heritrix源码真不是一般的复杂,但是一点一点解析的话还是能看懂的
处理链是heritrix里面最重要的地方之一,对页面的操作都通过处理链完成,其配置的灵活程度和通用性十分强大。别的程序也可以借鉴哦~~~

ProcessorChainList
处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每个处理器都做他们的处理,完成整个抓取。处理器链集里面的处理链是用户配置的,也就是说这个处理器链集里面填充的都是在UI里面配置的项。

在初始化的时候读取所有的配置项调用

public void addProcessorMap(String name, List processorMap) {ProcessorChain processorChain = new ProcessorChain(processorMap);ProcessorChain previousChain = getLastChain();if (previousChain != null) {previousChain.setNextChain(processorChain);}chainList.add(processorChain);chainMap.put(name, processorChain);}


读书人网 >互联网

热点推荐