读书人

urllib2 编码有关问题

发布时间: 2012-03-01 10:25:47 作者: rapoo

urllib2 编码问题

Python code
def getWebContent(url):    response = urllib2.urlopen(url, timeout=20)    return response.read()if __name__=="__main__":        print(getWebContent("http://www.hao123.com"))



显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />

<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />


请问如何自动判断页面的编码得到正确的中文?




[解决办法]
google urllib2 charset
[解决办法]
python的编码是个复杂的问题,需要先搞清楚,还有你想怎么保存数据,是原样还是统一转换为utf8
[解决办法]
咋编的就咋解...
[解决办法]
解析内容,获取编码
好像返回的头信息里一般也有编码类型,可以getHeader一下
[解决办法]
有的可以通过encode后再decode获取,另外也是html页面charset决定得

读书人网 >perl python

热点推荐