一、char[]、String、byte[]转换
首先需要清楚JAVA中这3种类型的区别
byte是字节,byte[]是字节数组,是字符在计算机中的实际存储。字节如何转换成字符,要看用什么编码。如果用UTF-8编码的话,一个字节是不能转成一个中文字符的
char是字符,char[]是字符数组,其实也就是字符串。String本质上就是char[]。char[]和String之间的转换,不需要指定编码
从char[]转换成String
char[] c = new char[] { 0x5c71,0x4456,0x1234 };
String s = new String(c);
从String转换成char[]
String s = "这是一个字符串";
char[] c = s.toCharArray();
可以看到,上面2种转换,都不涉及编码的问题
从byte[]转换成String
byte[] b = getBytes();// 某个方法返回了byte[]
String s = new String(b, "UTF-8");
这是从byte[]得到String,用UTF-8进行解码
从String转换成byte[]
String s = "这个一个字符串";
byte[] b = s.getBytes(Charset.forName("UTF-8"));
这是从String得到byte[],用UTF-8编码
byte[]和char[]之间,不知道用什么方法可以直接转,一般用String作为过渡
可以用一句话总结:
“字符编码就变成字节;字节解码就变成字符”
二、BIO常用API简介
本文不涉及NIO,只总结BIO的常用API
JAVA IO主要有2套基本的API,一套用于读写字节;另一套用于读写字符,可以认为是前者的快捷方式
读写字节的基本接口是InputStream和OutputStream,InputStream从输入流中读出字节,读出后需要选择编码方式进行decode;OutputStream往输出流中写入字节,写入前需要选择编码方式进行encode
读写字符的基本接口是InputStreamReader和OutputStreamWriter,InputStreamReader从输入流中读出字符;OutputStreamWriter往输出流中写入字符。编码方式在创建实例的时候已经指定了
三、写数据的例子
OutputStream的例子:
String file = "/home/xxx/fortest.txt";
String charset = "UTF-8";
FileOutputStream fos = new FileOutputStream(file);
fos.write("這是要保存的中文字符串".getBytes(charset));
fos.close();
这里调用了基本的write(byte[])方法,将一个字符串编码后,写到文件里
用针对字符的OutputStreamWriter的话,可以省去自行编码的步骤:
String file = "/home/xxx/fortest.txt";
String charset = "UTF-8";
FileOutputStream fos = new FileOutputStream(file);
OutputStreamWriter writer = new OutputStreamWriter(fos,charset);
writer.write("这是要保存的中文字符串");
writer.close();
可以看到,调用write()方法时,不需要再调用getBytes()方法,因为在创建OutputStreamWriter的时候,已经指定了编码
四、读数据的例子
前面2个是写的例子,比较简单;读要稍微麻烦一点
下面是InputStream的例子:
FileInputStream fis = new FileInputStream(file);
StringBuilder sb = new StringBuilder();
byte[] buffer = new byte[68];// 这行代码有BUG
int count = 0;
while ((count = fis.read(buffer)) != -1) {
sb.append(new String(buffer, 0, count, charset));
}
fis.close();
System.out.println(sb.toString());
这里的read方法是read(byte[] b),会将读取到的内容写到字节数组b里,并返回此次读取的字节数。如果已经读完,则返回-1;此外还有一个重载方法read(),一次只读一个字节,返回的是读取到的字节内容。前者是比较常用的。(所以我觉得JDK这里的设计不太好,重载的方法,返回值的含义却完全不同,很容易造成误导)
这个例子主要就是从InputStream中循环读取字节,然后decode为String。这里定义了一个count变量,String的构造方法也比较特殊。是因为最后一次读取时,往往不会读到字节数组的容量上限的内容,只有从0到count-1的内容才是最后一次读取的实际字节。所以需要用这个不常用的构造方法,把从count到size-1的部分排除掉
但是这个方法有一个bug,就是定义byte[]那一行。如果定义的byte[]容量够大的话,一次性把输入流里的字节全部读出来了,那就没有问题;但是只要输入流一大,一般都会分若干次读取,那么就非常容易截断,造成decode失败。比如aa bb cc dd ee ff,前3个字节aa bb cc可以decode成一个字符,后3个字节dd ee ff可以decode成另一个字符。但是有可能aa bb cc dd先读出来,ee ff在下一个循环才读出来,那decode后就会形成乱码
所以读字符的话,一般用InputStreamWriter会好一点,可以避免这个问题
FileInputStream fis = new FileInputStream(file);
InputStreamReader reader = new InputStreamReader(fis, charset);
StringBuffer sb = new StringBuffer();
char[] buf = new char[64];
int count = 0;
while ((count = reader.read(buf)) != -1) {
sb.append(buf,0,count);// 截取掉buf中,最后一次循环的冗余部分
// sb.append(buf);
}
reader.close();
System.out.println(sb.toString());
和上面的例子很相像,区别在于定义的是char[]数组,而不是byte[]数组。在调用InputStreamReader类的read()方法时,已经将字节decode为字符了,所以不会出现InputStream中字节错误截断的问题
调用StringBuffer的append()方法时,同样要注意截取掉最后一次循环中的冗余数据,这个和上一个例子是一样的