Java_util_02_Java判断字符串是中文还是英文

简介: 做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。 方法一:字符与字节的长度 依据:一个中文占两个字节,一个英文占一个字节。

做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。

方法一:字符与字节的长度

依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。

示例:

 1  public static boolean isEnglish(String p) {  
 2   byte[] bytes = p.getBytes();  
 3   int i = bytes.length;//i为字节长度  
 4   int j = p.length();//j为字符长度  
 5   if(i==j){
 6   return true;
 7   }else{
 8   return false;
 9   }
10  }  
View Code

 

 

方法二:正则表达式

依据:中文Unicode编码表

字符集 字数 Unicode 编码
基本汉字 20902字 4E00-9FA5
基本汉字补充 38字 9FA6-9FCB
扩展A 6582字 3400-4DB5
扩展B 42711字 20000-2A6D6
扩展C 4149字 2A700-2B734
扩展D 222字 2B740-2B81D
康熙部首 214字 2F00-2FD5
部首扩展 115字 2E80-2EF3
兼容汉 477字 F900-FAD9
兼容扩展 542字 2F800-2FA1D
PUA(GBK)部件 81字 E815-E86F
部件扩展 452字 E400-E5E8
PUA增补 207字 E600-E6CF
汉字笔画 36字 31C0-31E3
汉字结构 12字 2FF0-2FFB
汉语注音 22字 3105-3120
注音扩展 22字 31A0-31BA
1字 3007
 1 package org.liufeng.course.util;
 2 import java.util.regex.Matcher;
 3 import java.util.regex.Pattern;
 4 /**
 5  * Description 提供判断字符串是中文或者是英文的一种思路
 6  * 
 7  */
 8 public class ChineseAndEnglish_Util {
 9     public static void main(String[] args) {
10         String str = "我爱你,!?():;“”、。";
11         char[] charArray = str.toCharArray();
12         for (int i = 0; i < charArray.length; i++) {
13             isChinese(charArray[i]);
14         }
15         String chinese = "中国god damn";
16         System.out.println(isContainChinese(chinese));
17         String english = "dfafdabac";
18         System.out.println(isEnglish(english));
19     }
20     
21     /**
22      * 1.判断字节是否是中文
23      * 
24      * CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码 
25      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS             :4E00-9FBF:CJK 统一表意符号 
26      * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS       :F900-FAFF:CJK 兼容象形文字
27      * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A 
28      * Character.UnicodeBlock.GENERAL_PUNCTUATION                :2000-206F:常用标点 
29      * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION        :3000-303F:CJK 符号和标点 
30      * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS      :FF00-FFEF:半角及全角形式
31      * 
32      */
33     public static boolean isChinese(char c) {
34         Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
35         if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
36                 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
37                 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
38                 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
39                 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
40                 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
41             return true;
42         }
43         return false;
44     }
45     //2.检测是否包含英文
46     public static boolean isEnglish(String charaString) {
47         return charaString.matches("^[a-zA-Z]*");
48     }
49     //3.检测是否包含中文
50     public static boolean isContainChinese(String str) {
51         String regEx = "[\\u4E00-\\u9FA5]+";
52         Pattern p = Pattern.compile(regEx);
53         Matcher m = p.matcher(str);
54         if (m.find()) {
55             return true;
56         } else {
57             return false;
58         }
59     }
60 }
View Code

 

目录
相关文章
|
21天前
|
安全 Java API
【Java字符串操作秘籍】StringBuffer与StringBuilder的终极对决!
【8月更文挑战第25天】在Java中处理字符串时,经常需要修改字符串,但由于`String`对象的不可变性,频繁修改会导致内存浪费和性能下降。为此,Java提供了`StringBuffer`和`StringBuilder`两个类来操作可变字符串序列。`StringBuffer`是线程安全的,适用于多线程环境,但性能略低;`StringBuilder`非线程安全,但在单线程环境中性能更优。两者基本用法相似,通过`append`等方法构建和修改字符串。
44 1
|
26天前
|
Java 编译器
【Java基础面试三十】、 两个字符串相加的底层是如何实现的?
这篇文章解释了Java中两个字符串相加的底层实现:对于字符串直接量的拼接,编译器在编译时会进行优化合并;而对于包含变量的字符串拼接,编译器会采用`StringBuilder`进行优化,自动创建实例并调用`append()`方法来拼接字符串。
|
6天前
|
算法 Oracle Java
Java字符串拼接技术演进及阿里巴巴的贡献
本文主要讲述了Java字符串拼接技术的演进历程,以及阿里巴巴贡献的最新实现 PR 20273。
|
11天前
|
算法 Oracle Java
Java字符串拼接技术演进及阿里巴巴的贡献
本文主要讲述了Java字符串拼接技术的演进历程,以及阿里巴巴贡献的最新实现 PR 20273。
|
23天前
|
存储 Java
|
23天前
|
存储 Java
如何在 Java 中打印字符串数组列表
【8月更文挑战第23天】
26 2
|
22天前
|
存储 Java API
|
26天前
|
安全 Java 编译器
【Java基础面试二十九】、说一说你对字符串拼接的理解
这篇文章讨论了Java中字符串拼接的四种常用方式(使用`+`运算符、`StringBuilder`、`StringBuffer`和`String`类的`concat`方法),每种方式适用的场景,以及在不同情况下的性能考量。
|
25天前
|
Java 测试技术
Java系列之判断字符串是为空或者null
这篇文章介绍了如何在Java中使用`isEmpty()`方法判断字符串是否为空或`null`,并提供了相应的测试用例来演示其用法。