编码表
由字符及其对应的数值组成的一张表。
计算机只能识别二进制数据,早期由来是电信号。为了方便应用计算机,让它可以识别各个国家的文字,就将各个国家的文字用数字来表示,并一一对应,形成一张表。
常见编码表
ASCII:美国标准信息交换码。(用一个字节的7位可以表示。)
ISO8859-1:拉丁码表。欧洲码表。(用一个字节的8位表示。)
GB2312:中国的中文编码表。
GBK:中国的中文编码表升级,融合了更多的中文文字符号。
GB18030:GBK的取代版本。
BIG-5码 :通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。
Unicode:国际标准码,融合了多种文字。(所有文字都用两个字节来表示,Java语言使用的就是unicode。)
UTF-8:最多用三个字节来表示一个字符。
UTF-8不同,它定义了一种“区间规则”,这种规则可以和ASCII编码保持最大程度的兼容:
- 它将Unicode编码为00000000-0000007F的字符用单个字节表示
- 它将Unicode编码为00000080-000007FF的字符用两个字节表示
- 它将Unicode编码为00000800-0000FFFF的字符用三个字节表示
字符串中的编码问题
编码:把看得懂的变成看不懂的
String --> byte[]
byte[] getBytes(String charsetName)//使用指定的字符集合把字符串编码为字节数组
解码:把看不懂的变成看得懂的
byte[] --> String
String(byte[] bytes, String charsetName)//通过指定的字符集解码字节数组
发电报
发送端:今天 -- 数值 -- 二进制 -- 发出去
接收端:接收 -- 二进制 -- 十进制 -- 数值 -- 字符 -- 今天
编码问题简单,只要编码解码的格式是一致的。
转换流:InputStreamReader/OutputStreamWriter
由于字节流操作中文不是特别方便,所以,java就提供了转换流。
字符流 = 字节流 + 编码表
InputStreamReader(InputStream is)//用默认的编码读取数据
InputStreamReader(InputStream is,String charsetName)//用指定的编码读取数据
OutputStreamWriter(OutputStream out)//根据默认编码把字节流的数据转换为字符流
OutputStreamWriter(OutputStream out,String charsetName)//根据指定编码把字节流数据转换为字符流
字符流:Reader/Writer
为什么不用flush()数据进不去呢?
原因是:1字符 = 2字节,文件中数据存储的基本单位是字节。
close()和flush()的区别?
close()关闭流对象,但是先刷新一次缓冲区。关闭之后,流对象不可以继续再使用了。
flush()仅仅刷新缓冲区,刷新之后,流对象还可以继续使用。
字符缓冲流:BufferedReader/BufferedWriter
BufferedReader:
public String readLine()//一次读取一行数据
包含该行内容的字符串,不包含任何行终止符,如果已到达流末尾,则返回 null
BufferedWriter:
public void newLine()//根据系统来决定换行符
复制文件
public static void copy(String srcString, String destString) throws IOException {
// 封装数据源
BufferedReader br = new BufferedReader(new FileReader(srcString));
// 封装目的地
BufferedWriter bw = new BufferedWriter(new FileWriter(destString));
// 读写数据
String line = null;
while ((line = br.readLine()) != null) {
bw.write(line);
bw.newLine();
bw.flush();
}
// 释放资源
bw.close();
br.close();
}
小结