读书人

怎么提取动态网页如新浪网的超链接

发布时间: 2012-03-06 20:47:55 作者: rapoo

如何提取动态网页如新浪网的超链接
目前正在学习网络爬虫,在编写一个小型程序时遇到了这样一个问题,通过http协议下载完一个网页后,需要进行html解析,以提取其中的超链接,对于普通的html文档只需找<a href标签就可以了,可是对于新浪网这种似乎是javascript写的动态网站,我找了半天也没找到这种超链接标签,而且我把新浪网主页保存后打开发现里面有很多文件,请问怎样才能把这些文件都下载下来,并解析它们呢。

[解决办法]
html的可以使用html解析,
js的麻烦了,目前不好处理
[解决办法]
js的确麻烦,你需要根据网页的特点去分析出可用的链接。

读书人网 >网络基础

热点推荐