读书人

用python抓取的一个网页本来是简体字

发布时间: 2012-04-11 17:42:33 作者: rapoo

用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,如何转换成简体字
我编了一个python程序来抓取网页内容,
file_url='http://www.....'
urldata = opener.open(file_url)
m=urldata.read()

原始网页是简体字的,charset=UTF-8 可是爬下来之后却是繁体字的,charset=UTF-8
为什么会变成繁体字的呢?
要怎么再转换成简体字网页呢?
新手,多谢高手指导

[解决办法]
设下http header:

Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3

这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。

[解决办法]
gbk啊或者gb2312
sdata = str(urldata,encoding="gbk")
[解决办法]

探讨

设下http header:

Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3

这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。

读书人网 >perl python

热点推荐