读书人

用python去抓取google的搜索结果页面失

发布时间: 2012-03-03 15:33:04 作者: rapoo

用python去抓取google的搜索结果页面失败!!
如题,
python代码如下:

Python code
#coding:utf-8from urllib import FancyURLopenerclass MyOpener(FancyURLopener):  version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'myopener = MyOpener()page = myopener.open("http://www.google.com.hk/search?hl=zh-CN&newwindow=1&safe=strict&biw=1164&bih=552&q=%E4%BC%8A%E6%9C%97%E5%A4%96%E4%BA%A4%E9%83%A8%E5%8F%91%E8%A8%80%E4%BA%BA+inurl:http://www.caijing.com.cn/2010-08-30/110508375.html&aq=o&aqi=&aql=&oq=&gs_rfai=")  #抓取该页面for line in page:  print(line)


结果返回302错误,需要重定向,
当就算抓取重定向的页面,也是这样的结果。

请问,这是什么原因?
是我python代码的问题,还是google的手段(似乎是,因为其它网站的页面可以抓取)。
google的这种手法是怎么一回事呢?

[解决办法]
google可能本身为了防止爬虫 做了一次重定向..而你的代码不支持重定向抓取..


[解决办法]
有很多网站都防这样的爬虫的,就像是楼上说的那样。。。你的代码不支持重定向抓取

读书人网 >网络基础

热点推荐