做微信开发,使用百度翻译API时,需要指定译文的语种。这就需要我们判断待翻译内容是中文还是英文,若是中文,则翻译成英文,若是英文则翻译成中文。

方法一:字符与字节的长度

依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。

示例:


Java_util_02_Java判断字符串是中文还是英文_半角Java_util_02_Java判断字符串是中文还是英文_ico_02


1  public static boolean isEnglish(String p) {  
2 byte[] bytes = p.getBytes();
3 int i = bytes.length;//i为字节长度
4 int j = p.length();//j为字符长度
5 if(i==j){
6 return true;
7 }else{
8 return false;
9 }
10 }

View Code

 

 

方法二:正则表达式

依据:中文Unicode编码表

字符集

字数

Unicode 编码

​基本汉字​

20902字

4E00-9FA5

​基本汉字补充​

38字

9FA6-9FCB

​扩展A​

6582字

3400-4DB5

​扩展B​

42711字

20000-2A6D6

​扩展C​

4149字

2A700-2B734

​扩展D​

222字

2B740-2B81D

​康熙部首​

214字

2F00-2FD5

​部首扩展​

115字

2E80-2EF3

​兼容汉​

477字

F900-FAD9

​兼容扩展​

542字

2F800-2FA1D

​PUA(GBK)部件​

81字

E815-E86F

​部件扩展​

452字

E400-E5E8

​PUA增补​

207字

E600-E6CF

​汉字笔画​

36字

31C0-31E3

​汉字结构​

12字

2FF0-2FFB

​汉语注音​

22字

3105-3120

​注音扩展​

22字

31A0-31BA

1字

3007



Java_util_02_Java判断字符串是中文还是英文_半角Java_util_02_Java判断字符串是中文还是英文_ico_02


1 package org.liufeng.course.util;
2 import java.util.regex.Matcher;
3 import java.util.regex.Pattern;
4 /**
5 * Description 提供判断字符串是中文或者是英文的一种思路
6 *
7 */
8 public class ChineseAndEnglish_Util {
9 public static void main(String[] args) {
10 String str = "我爱你,!?():;“”、。";
11 char[] charArray = str.toCharArray();
12 for (int i = 0; i < charArray.length; i++) {
13 isChinese(charArray[i]);
14 }
15 String chinese = "中国god damn";
16 System.out.println(isContainChinese(chinese));
17 String english = "dfafdabac";
18 System.out.println(isEnglish(english));
19 }
20
21 /**
22 * 1.判断字节是否是中文
23 *
24 * CJK的意思是“Chinese,Japanese,Korea”的简写 ,实际上就是指中日韩三国的象形文字的Unicode编码
25 * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS :4E00-9FBF:CJK 统一表意符号
26 * Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS :F900-FAFF:CJK 兼容象形文字
27 * Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A :3400-4DBF:CJK 统一表意符号扩展 A
28 * Character.UnicodeBlock.GENERAL_PUNCTUATION :2000-206F:常用标点
29 * Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION :3000-303F:CJK 符号和标点
30 * Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS :FF00-FFEF:半角及全角形式
31 *
32 */
33 public static boolean isChinese(char c) {
34 Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
35 if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
36 || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
37 || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
38 || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
39 || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
40 || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
41 return true;
42 }
43 return false;
44 }
45 //2.检测是否包含英文
46 public static boolean isEnglish(String charaString) {
47 return charaString.matches("^[a-zA-Z]*");
48 }
49 //3.检测是否包含中文
50 public static boolean isContainChinese(String str) {
51 String regEx = "[\\u4E00-\\u9FA5]+";
52 Pattern p = Pattern.compile(regEx);
53 Matcher m = p.matcher(str);
54 if (m.find()) {
55 return true;
56 } else {
57 return false;
58 }
59 }
60 }

View Code