开发者社区> 问答> 正文

HttpClient 爬数据时 中文编码问题报错 

一、目标网页输出的内容:http://www.test.com/test.html <html> <head> <meta http-equiv="Content-Language" content="zh-cn"> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> <title>中文字库</title><body>中文字,偷偷藏着的Unicode码:蘋</body></html> 二、开始抓取         HttpClient client = new HttpClient();         HttpMethod method = new GetMethod(“http://www.test.com/test.html”);         method.addRequestHeader("Content-Type", "text/html; charset=GB2312");       byte[] html = method.getResponseBody();       String body = new String(html,Charset.forName("GB2312"));       System.out.println(“======”+body); 三、输出结果 <html> <head> <meta http-equiv="Content-Language" content="zh-cn"> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> <title>中文字库</title><body>中文字,偷偷藏着的Unicode码:口</body></html> 抓取到的数据中,隐藏中的Unicode码不是变成方框口,就是变成问号?。 解决办法: String body = new String(html,Charset.forName("GB18030")); 解决的根据如下: 中国国标编码:

  • GB 13000: 完全等同于ISO 10646-1/Unicode 2.1, 今后也将随ISO 10646/Unicode的标准更改而同步更改.
  • GBK: 对GB2312的扩充, 以容纳GB2312字符集范围以外的Unicode 2.1的统一汉字部分, 并且增加了部分unicode中没有的字符.
  • GB 18030-2000: 基于GB 13000, 作为Unicode 3.0的GBK扩展版本, 覆盖了所有unicode编码, 地位等同于UTF-8, UTF-16, 是一种unicode编码形式. 变长编码, 用单字节/双字节/4字节对字符编码. GB18030向下兼容GB2312/GBK. GB 18030是中国所有非手持/嵌入式计算机系统的强制实施标准.                                                        
  • 题外:Eclipse3.4后的默认中文编码是GB18030,之前的的Eclipse版本用的是GBK~~

    展开
    收起
    kun坤 2020-06-10 09:57:26 581 0
    1 条回答
    写回答
    取消 提交回答
    • <meta http-equiv="Content-Type" content="text/html; charset=GB18030"> String body = method.getResponseBodyAsString();######mark,很不错。

      2020-06-11 10:29:55
      赞同 展开评论 打赏
    问答分类:
    问答地址:
    问答排行榜
    最热
    最新

    相关电子书

    更多
    低代码开发师(初级)实战教程 立即下载
    冬季实战营第三期:MySQL数据库进阶实战 立即下载
    阿里巴巴DevOps 最佳实践手册 立即下载