java 读取网页乱码的问题：报错_问答-阿里云开发者社区

String url = "http://www.bnu.edu.cn";//www.bnu.edu.cn"; URL theUrl= new URL(url); openStream = theUrl.openStream(); //<meta http-equiv="Content-Type" content="text/html; charset=utf-8"> //构建输入流的的字符集必须和HTML源码中的 charset一致 bf = new BufferedReader(new InputStreamReader(openStream,"utf-8")); String line = null; while((line = bf.readLine())!=null) { System.out.println(line); }

Socket webClient = new Socket ("www.bnu.edu.cn", 80); PrintWriter result = new PrintWriter(webClient.getOutputStream(), true); BufferedReader receiver = new BufferedReader (new InputStreamReader(webClient.getInputStream())); result.println("GET / HTTP/1.1"); result.println("Host: bnu.edu.cn"); result.println("Connection: Close"); result.println(); boolean bRet = true; StringBuffer sb = new StringBuffer (8096); while (bRet) { if (receiver.ready()) { int idx = 0; while (idx!=-1) { idx = receiver.read(); sb.append((char)idx); } bRet = false; } } byte [] b = (sb.toString()).getBytes("UTF-8");//"GBK", "ISO-88591-1"; String str = new String(b,"GB2312"); System.out.println(str); webClient.close();

sb.toString() 应该已经默认转了一次码了吧

如果不是Linux 系统 ,这里就应该已经乱码了然后在 .getBytes("UTF-8")

然后在gb2312 转回来 ,还转得回来吗??

######

好像浏览器是先在 http头里找 Content-Type 里是否有编码设置, 有的话就按 Content-Type 里编码对

HTML 进行解码 ,没有则根据<meta http-equiv="Content-Type" content="text/html; charset=utf-8"> 这个解码.所以有时看到有的网站响应的编码和 html内容里的编码不一致时,浏览器也能正确识别( 汗,,,不知道咋想的)

最后才是根据网页内容自动识别吧...

不知道这个优先级对不对??

######请用Apache Http Client
######

  result.println("GET / HTTP/1.1");
  result.println("Host: bnu.edu.cn");
  result.println("Connection: Close");
  result.println();

  boolean bRet = true;
  StringBuffer sb = new StringBuffer (8096);
  while (bRet) {
  if (receiver.ready()) {
      int idx = 0;
      while (idx!=-1) {
   idx = receiver.read();
   sb.append((char)idx);
      }
      bRet = false;
  }
  }
  //byte [] b = (sb.toString()).getBytes("UTF-8");//"GBK", "ISO-88591-1";
  //String str = new String(b,"GB2312");
  //String str = new String(b);
  System.out.println(sb.toString());
  webClient.close();

######

在获取字符解码的时候使用UTF-8，它本身是UTF-8的字符，所以不必要在进行转码。直接打印出来就行了

######真接打印出来的话就是乱码，不然的话，也不会想办法转码了。。。
######

问题的原因找到了, 之前直接打印之所以是乱码, 原因在于用的Eclipse在Windows上默认Encoding=GBK, 把默认Encoding改成UTF-8之后, 就如楼上的兄弟们所说, 可以直接打印出正常的字符串了. 非常感谢大家的指引.

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

java 读取网页乱码的问题：报错

相关文章