Java实现中文字符串与Unicode编码的互相转换-开发者社区-阿里云

Unicode编码和中文互转（JAVA实现）

2024-06-13 1051

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Unicode编码和中文互转（JAVA实现）

  /**
   * 获取字符串的unicode编码 汉字“木”的Unicode 码点为Ox6728
   *
   * @param s
   *            木
   * @return \ufeff\u6728 \ufeff控制字符 用来表示「字节次序标记（Byte Order Mark）」不占用宽度
   *         在java中一个char是采用unicode存储的 占用2个字节 比如 汉字木 就是 Ox6728
   *         4bit+4bit+4bit+4bit=2字节
   */
  public static String stringToUnicode(String s) {
    try {
      StringBuffer out = new StringBuffer("");
      // 直接获取字符串的unicode二进制
      byte[] bytes = s.getBytes("unicode");
      // 然后将其byte转换成对应的16进制表示即可
      for (int i = 0; i < bytes.length - 1; i += 2) {
        out.append("\\u");
        String str = Integer.toHexString(bytes[i + 1] & 0xff);
        for (int j = str.length(); j < 2; j++) {
          out.append("0");
        }
        String str1 = Integer.toHexString(bytes[i] & 0xff);
        out.append(str1);
        out.append(str);
      }
      return out.toString();
    } catch (UnsupportedEncodingException e) {
      e.printStackTrace();
      return null;
    }
  }

  /**
   * Unicode转 汉字字符串
   *
   * @param str
   *            \u6728
   * @return '木' 26408
   */
  public static String unicodeToString(String str) {
 
    Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");
    Matcher matcher = pattern.matcher(str);
    char ch;
    while (matcher.find()) {
      // group 6728
      String group = matcher.group(2);
      // ch:'木' 26408
      ch = (char) Integer.parseInt(group, 16);
      // group1 \u6728
      String group1 = matcher.group(1);
      str = str.replace(group1, ch + "");
    }
    return str;
  }

Unicode编码和中文互转（JAVA实现）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Unicode编码和中文互转（JAVA实现）

热门文章

最新文章

相关课程

相关电子书