前几天在工作中遇到一个问题

  在一个程序中进行Excel的导入,将Excel中的一系列城市编码在程序中解析,转换为int型,因为Excel中的部分城市编码带有空格,因此需要在代码中将其转换为String类型,再进行字符串的trim()操作,结果发现trim()操作后并不能除去空格,又试着用正则表达式匹配替换,str = str .replaceAll("\\s*", ""); 但是依然不行,突然想到了空格有分为全角空格和半角空格,因此从服务器上把报错的字符串拷贝到idea里,发现字符串长度是一样的。

java全角 半角 java 全角空格_服务器

因此以为从Excel转入的多余空格是全角的,因此从网上搜索去除全角空格的办法,就是下面这些,

public static String removeAllBlank(String s){
    String result = "";
    if(null!=s && !"".equals(s)){
        result = s.replaceAll("[ *| *| *|//s*]*", "");
    }
    return result;
}
  网上这些是匹配半角空格和全角空格的方法,理论上是可行的,但是用在项目上还是报错,于是还是不断的在网上查找删除全角空格的方法,结果全部失败,最后取了一个巧,将所有非数字的字符全部替换成空格并去除空格,没办法,时间紧急只能这么做了。
  今天再此回顾,终于知道原因了。首先我们做一个equals。
public static void test9(){
        String test1 = "652900  ";  //服务器上拷来的
        String test2 = "652900  ";  //本地打出的全角空格
        System.out.println(test1.equals(test2));
    }

  返回结果为false。如果这样不清楚,那下面这些代码可能就更清楚些了。

public static void test9(){
        String test1 = "652900  ";  //服务器上拷来的
        String test2 = "652900  ";  //本地打出的全角空格
        char[] arr1 = test1.toCharArray();
        for (int i=arr1.length;--i>=0;){
            System.out.println(arr1[i]+"->"+(int)arr1[i]);
        }
        char[] arr2 = test2.toCharArray();
        for (int i=arr2.length;--i>=0;){
            System.out.println(arr2[i]+"->"+(int)arr2[i]);
        }
    }

   结果如下:

java全角 半角 java 全角空格_服务器_02

   由于java中int型和char型之间存在转换关系,从服务器上拷贝来的字符对应的int是160,而本地打印出来的全角空格转化为int型之后是12288,因此,这两个空格并不是同一个字符。

补充一点java字符方面的基础知识

  java使用Unicode4.0来表示字符,char类型使用16位,即两个字节来表示,可以表示的长度范围是0-65535,可以在java中通过如下代表反映

System.out.println((int)Character.MAX_VALUE);  //65535
System.out.println((int)Character.MIN_VALUE);  //0

  但是char类型并不能涵盖所有的Unicode4.0的范围,因此剩余的部分可以用int型来表示,int类型由4个字节32位,即0-232来表示。所以本质来说char类型就是整数类型,char类型和int类型之间可以自由强制转换,也可以使用unicode转意符来表示unicode字符,如:

char word = '\u0041';

  通常把一个英文字符所占的位置称为半角,一个汉字占用两个位置,所以汉字都是全角的,对于数字和符号类型,全角占用两个位置。经过测试发现,半角字符是从33开始到126结束,而全角字符是从65281开始到65374结束。