写网络爬虫遇到字符集变换的有关问题

写网络爬虫遇到字符集变换的问题
用java写了一个简单的抓取html源文件的程序。
但有的网页抓取下来是乱码，如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-cn" lang="zh-cn">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
<title>宕烘父,宕ぞ绾胯矾琛?父㈡浠?-51766父缃?/title>
<meta name="description" content="宕烘父,宕ぞ宸藉娓搞?哄父绾胯矾琛?ユ娓稿ヤ环锛琛浠ュㄧ嚎ㄨF?">
<LINK REL="SHORTCUT ICON" HREF="http://www.51766.com/www/favicon.ico">

我总结了一下，如果编码方式是utf-8,则会出现这个问题，是gb2312则没有。我在想是不是应该将utf-8转换为gb2312，异或是还有什么更好的办法？

[解决办法]
跟你浏览器的字符编码方式有关系没？你的默认的是什么？
[解决办法]

探讨

这没有关系吧，内容又不是通过浏览器得到的

写网络爬虫遇到字符集变换的有关问题

热点推荐