urllib2 编码问题
- Python code
def getWebContent(url): response = urllib2.urlopen(url, timeout=20) return response.read()if __name__=="__main__": print(getWebContent("http://www.hao123.com"))显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />
<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />
请问如何自动判断页面的编码得到正确的中文?
[解决办法]
google urllib2 charset
[解决办法]
python的编码是个复杂的问题,需要先搞清楚,还有你想怎么保存数据,是原样还是统一转换为utf8
[解决办法]
咋编的就咋解...
[解决办法]
解析内容,获取编码
好像返回的头信息里一般也有编码类型,可以getHeader一下
[解决办法]
有的可以通过encode后再decode获取,另外也是html页面charset决定得