读书人

javascript动态生成网页抓取议案

发布时间: 2013-03-29 14:24:52 作者: rapoo

javascript动态生成网页抓取方案

第一步,用htmlunit将网页抓取下来,htmlunit是一个内置javascript解析引擎的无页面浏览器,不仅可以抓取html内容本身,还可以执行里面的js脚本生成动态页面,这点上比wget、httpclient强。它以jar的形式集成到应用提供api给java调用,执行效率也不错。

?

第二步,用jsoup对htmlunit抓取下来的网页进行解析,jsoup支持采用类似于jquery选择器的方式访问页面上的tag节点,易于操作。

?

读书人网 >JavaScript

热点推荐