读书人

网页抓取时页面包孕的url的处理

发布时间: 2012-09-02 21:00:34 作者: rapoo

网页抓取时,页面包含的url的处理
页面上的url形式多样,建议采用java.net.URL 进行处理:

for (Element link : links) {//System.out.println();String sLink = link.attr("href").trim();//logger.info("sLink: "+sLink);if(sLink==null || sLink.trim().equals("")) continue;try {URL linkUrl = new URL(urlEntry,sLink);// 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;sLink = linkUrl + "";                                        // do something here} catch (MalformedURLException e) {continue;}}

读书人网 >编程

热点推荐