一、编码解码&码表

1、常见的编码表:
   ASCII:美国标准信息交换码---用一个字节的7位可以表示。
   ISO8859-1:拉丁码表---欧洲码表用一个字节的8位表示,负数。
   GB2312:中国的中文编码表---每个文字用两个字节表示,两个都是负数,且该码表兼容ASCII码表。
   GBK:中国的中文编码表升级,融合了更多的中文文字符号---同上。
   Unicode:国际标准码,融合了多种文字---所有文字都用两个字节来表示,Java语言使用的就是unicode
   UTF-8:根据投标来确定是用一个、两个还是三个字节来表示一个字符。
2、编码与解码:
   编码    字符串---->字节数组
   解码    字节数组---->字符串

二、转换流与码表的融合

1、InputStreamReader:字节流通向字符流的桥梁:它使用指定的 charset 读取字节并将其解码为字符。它使用的字符集可以由名称指定或显式给定,或者可以接受平台默认的字符集。
   OutputStreamWriter:字符流通向字节流的桥梁:可使用指定的 charset 将要写入流中的字符编码成字节。它使用的字符集可以由名称指定或显式给定,否则将接受平台默认的字符集。

2、转换流工作原理:

public class TransitionStreamDemo {
		public static void main(String[] args){
			OutputStreamWriter iswUtf = null;
			InputStreamReader isrUtf = null;
			try {
				//编码码表指定为utf-8
				iswUtf = new OutputStreamWriter(new FileOutputStream("utf.txt"), "utf-8");
				iswUtf.write("你好");
			} catch (Exception e) {
				throw new RuntimeException("文件创建异常");
			}finally{
				try {
					if (iswUtf != null)
						iswUtf.close();
				} catch (Exception e2) {
					throw new RuntimeException("关闭输出流异常");
				}
			}
			char[] buf = new char[3];
			int len = 0;
			try {
				//解码码表指定为utf-8
				isrUtf = new InputStreamReader(new FileInputStream("utf.txt"), "utf-8");
				len = isrUtf.read(buf);
				System.out.println(new String(buf, 0, len));
			} catch (Exception e) {
				throw new RuntimeException("文件读取异常");
			}finally{
				try {
					if (isrUtf != null)
						isrUtf.close();
				} catch (Exception e2) {
					throw new RuntimeException("关闭输入流异常");
				}
			}
		}
	}

程序执行流程按下图①-⑤所示的顺序进行:

java字符串的编码格式 java字符编码表_System

 三、乱码异常分析

1、UTF-8&GBK相关异常

public class CodingEncoding {
		public static void main(String[] args) throws IOException {
			
			OutputStreamWriter iswUtf =			//指定编码码表为utf-8
					new OutputStreamWriter(new FileOutputStream("utf.txt"),"utf-8");
			OutputStreamWriter iswGbk =			//指定编码码表为gbk
					new OutputStreamWriter(new FileOutputStream("gbk.txt"),"gbk");
			
			iswUtf.write("你好");
			iswUtf.close();
			
			iswGbk.write("你好");
			iswGbk.close();
			
			char[] buf = new char[3];
			int len = 0;
			
			InputStreamReader isrUtf =	//编码时指定码表为utf-8,解码时指定码表为gbk
					new InputStreamReader(new FileInputStream("utf.txt"),"gbk");
			InputStreamReader isrGbk =	//编码时指定码表为gbk,解码时指定码表为utf-8
					new InputStreamReader(new FileInputStream("gbk.txt"),"utf-8");

			len = isrUtf.read(buf);
			isrUtf.close();
			System.out.println(new String(buf,0,len));
			
			len = isrGbk.read(buf);
			isrGbk.close();
			System.out.println(new String(buf,0,len));
			
		}
	}

本程序运行结果如下:

java字符串的编码格式 java字符编码表_java字符串的编码格式_02

    

这种情况的其实就是编码码表与解码码表的不一致性引起的,而且这中间也是有规律可循的,一般若编码时指定码表为

utf-8,解码时指定码表为gbk,那么解码会出现汉字或其他乱码而不是?,如果反过来的情况一般大部分都是问号,具体

原理看下图:

java字符串的编码格式 java字符编码表_码表_03

 2、ISO8859-1相关异常及解决办法

public class StringCoding {
	
		public static void main(String[] args) throws Exception{
			String str = "你好";
			//使用GBK字符集来对字符串进行编码
			byte[] GBKByte = str.getBytes("GBK");
			System.out.println(Arrays.toString(GBKByte));//打印结果:[-60, -29, -70, -61]
			
			String ISOString = new String(GBKByte,"ISO8859-1");
			System.out.println(ISOString);//打印结果:全是?,且个数为4
			
			//使用ISO8859-1字符集进行重新编码
			byte[] ISOByte = ISOString.getBytes("ISO8859-1");
			System.out.println(Arrays.toString(ISOByte));//打印结果:[-60, -29, -70, -61]
			
			//使用GBK字符集解码
			String GBKString = new String(ISOByte,"GBK");
			System.out.println(GBKString);//打印结果:你好
		}
	}

本程序的基本原理如下图

java字符串的编码格式 java字符编码表_java字符串的编码格式_04

3、修改版UTF-8注意点
   首先看一下修改版的编码规则:

java字符串的编码格式 java字符编码表_字符串_05

修改版UTF-8在进行编码时,会参考表示头信息进行字节数的控制,就像上图所示,当读取到一个字节的首位为0,则这个字节单独表示一个字符;当读取的字节以110开头,如果是就以两个字节表示一个字符,且第二个字符一10开头;同理,当读取的字节以1110开头时,就会用三个字节表示一个字符,且后两个字节都是以10开头。一个很特殊的案例就是"联想"用GBK编码以后的字节码为"11000001","10101010","11001101","10101000"这四个字节正好符合修改版UTF-8中用两个字节表示一个字符的规则,所以当当用记事本来保存"联想"以后再打开时,记事本就会查找修改版UTF-8的码表进行解码,所以会出现乱码。