1.编码的产生:我们的存储的基本单元是一个byte字节,然而人类的语言太多,无法用一个基本单元来表示,然而为了拆分或者一些相应的翻译工作,导致了编码的产生
2.常见的编码格式
ASCll :用一个字节的低7位共128个来表示,0-31表示控制字符,32-126表示打印字符, ASCll的二进制第一位也就是最高位,目的是用来做奇偶检验的,所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位添1;看到这是似乎对奇偶检验还是较为模糊,不大明白,例如字母A的ASCII码为1000001,若使用偶校验的结果是:01000001,奇检验的结果是11000001;奇偶检验是事先设定好了的,当CPU读取存储的数据时,它会再次把前8位中存储的数据相加,计算结果是否与校验位相一致。从而一定程度上能检测出内存错误,奇偶校验只能检测出错误而无法对其进行修正,同时虽然双位同时发生错误的概率相当低,但奇偶校验却无法检测出双位错,检验到错误的时候,接收数据方就会要求发送方重新传数据
范例:
串行数据在传输过程中,由于干扰,可能使位变为1,(为什么不变0?脉冲)这种情况,称为出现了"误码"。传输中的错误,叫"检错"。发现错误后消除错误叫"纠错"。最简单的检错方法是"奇偶校验",一般在同步传输方式中常采用奇校验,而在异步传输方式中常采用偶校验
ISO-8859-1:由于128字符不够用,于是ISO组织在ASCll的基础上制定一系列的标准来拓展ASCll编码(ISO-8859-1~ISO-8859-15),ISO-8859-1也是作为java web中默认的解析方式
GB2312:全称是《信息交换用汉字编码字符奇基本集》,占两个字节,其中A1~A9是符号区,B0~F7是汉字区
GBK:全称《汉字内码拓展规范》,是对GB2312的拓展,它的编码是与GB2312相兼容的,也就是说用GB2312编码的汉字可以用GBK来编码而不会乱码
GB18030:我国强制标准,可能是单字节 双字节 四个字节,与GB2312编码是兼容的,我国标准,但是使用并不广泛
UTF-16:定义了Unicode(世界上所有的语言都可以用这本字典来相互翻译,是java和xml的基础)在计算机中的存取方法,用两字节来表示Unicode的转换格式,在表示上相对来说简单方便,但是相对于UTF-8来内存空间增大了很多
UTF-8:对每个编码区域有不同的字码长度,不同类型字符可以有1-6个字节组成
UTF-8的编码原则:
如果是一个字节,最高位为0,
如果一个字节以11开头,表示相应的首字节
如果以10开始,则表示他不是首字节,需要向前查找才能得到当前字符的首字符
例如:
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
说明:UTF-8用来表示字符编码的实际位数最多有31位,即上表中x所表示的位。除去那些控制位(每字节开头的10等),这些x表示的位与UNICODE编码是一一对应的,位高低顺序也相同。 将UNICODE转换为UTF-8编码时应先去除高位0,然后根据所剩编码的位数决定所需最小的UTF-8编码位数(ASCll标准编码为7位)。
3.本地io流的编解码
1)乱码的原因
文件的传输时使用二进制数传输(备注:字符的显示是经过相应的转换之后得到的结果),在转换成二进制的过程中具有编码和解码两个过程,编码与解码一致那么就不会乱码,假如不一致就会乱码。例如传入的文件java默认使用的是gbk解码,而我们原本使用的是utf8编码,那么在解码的时候会相应的乱码。
2)解决方法
a)在知道原文件的编码的情况下
InputStreamReader isr = new InputStreamReader(new FileInputStream(""),"utf-8");
b)在不知道编码的情况下获取本地文件的编码方法如下
//简写EncodingDetect的使用方法
String pathname = "F:/test/file1/file2.txt";
//获取编码格式
String encode = EncodingDetect.getJavaEncode(pathname);
System.out.println(encode);
EncodingDetect.readFile(pathname, encode);
c)在不知道编码的情况下获取网络文件的编码方法如下
public static String getFileEncode(String path) {
/*
* detector是探测器,它把探测任务交给具体的探测实现类的实例完成。
* cpDetector内置了一些常用的探测实现类,这些探测实现类的实例可以通过add方法 加进来,如ParsingDetector、
* JChardetFacade、ASCIIDetector、UnicodeDetector。
* detector按照“谁最先返回非空的探测结果,就以该结果为准”的原则返回探测到的
* 字符集编码。使用需要用到三个第三方JAR包:antlr.jar、chardet.jar和cpdetector.jar
* cpDetector是基于统计学原理的,不保证完全正确。
*/
CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
/*
* ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于
* 指示是否显示探测过程的详细信息,为false不显示。
*/
detector.add(new ParsingDetector(false));
/*
* JChardetFacade封装了由Mozilla组织提供的JChardet,它可以完成大多数文件的编码
* 测定。所以,一般有了这个探测器就可满足大多数项目的要求,如果你还不放心,可以
* 再多加几个探测器,比如下面的ASCIIDetector、UnicodeDetector等。
*/
detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar
// ASCIIDetector用于ASCII编码测定
// detector.add(ASCIIDetector.getInstance());
// UnicodeDetector用于Unicode家族编码的测定
// detector.add(UnicodeDetector.getInstance());
java.nio.charset.Charset charset = null;
URL url=null;
try {
url = new URL(path);
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
try {
charset = detector.detectCodepage(url);
} catch (Exception ex) {
ex.printStackTrace();
}
if (charset != null)
return charset.name();
else
return null;
};
备注:本地文件可以使用EncodingDetect jar包来获取文件的编码,利用统计学得出的结论,并不是百分百正确,但是准确率在百分之99以上,网络爬虫可以使用cpdetector_1.0.10.jar*,基于统计学。
4.mysql数据库乱码
解决方法:如下
useUnicode=true&characterEncoding=utf8&characterSetResults=utf8 //需要与数据的编码集一致,否则可能插入出错(例如数据库是latin1,而我们设置的utf-8),数据库的字符集可以设置也可以查看。(mysql数据库中)
含义如下:本质:useUnicode=true&characterEncoding=utf- 8的作用是指定character_set_client和character_set_connection的值,characterSetResults=utf8对应character_set_results
5.web乱码
1)post请求方式乱码
原因:默认使用的iso-8859-1解析,导致乱码//客户端需要与服务器端保持编解码一致
解决方法:采用request.setcharacter(“utf-8”)(request.setCharacterEncoding()是在接受数据之后进行相应的解码),或者是response.setcharacter(“utf-8”),也可是以response.setContentType("text/json; charset=UTF-8")来解决,可以使用拦截器拦截设置编码;
a)基于配置的springframework内置拦截器如下,需要放在所有的拦截的最前面,防止在正确解码前以及被解码导致乱码
<filter>
<filter-name>characterEncodingFilter</filter-name>
<filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
<init-param>
<param-name>encoding</param-name>
<param-value>utf-8</param-value>
</init-param>
<init-param>
<param-name>forceRequestEncoding</param-name>
<param-value>true</param-value>
</init-param>
<init-param>
<param-name>forceResponseEncoding</param-name>
<param-value>true</param-value>
</init-param>
</filter>
b)在spring中不基于配置的方式配置拦截器如下
在类路径下建立meta-inf文件夹,然后新建services,然后建立一个文件(javax.servlet.ServletContainerInitializer),在文件中写下全类名(cn.test.config.MainConfig)
package cn.test.config;
import org.springframework.web.filter.CharacterEncodingFilter;
import javax.servlet.*;
import javax.servlet.annotation.HandlesTypes;
import java.util.EnumSet;
import java.util.Set;
public class MainConfig implements ServletContainerInitializer {
@Override
public void onStartup(Set<Class<?>> c, ServletContext ctx) throws ServletException {
// characterEncodingFilter添加拦截器
FilterRegistration.Dynamic characterEncodingFilter = ctx.addFilter("characterEncodingFilter", CharacterEncodingFilter.class);
characterEncodingFilter.setInitParameter("encoding","utf-8");
characterEncodingFilter.setInitParameter("forceRequestEncoding", "true");
characterEncodingFilter.setInitParameter("forceResponseEncoding","true");
characterEncodingFilter.addMappingForUrlPatterns(EnumSet.of(DispatcherType.REQUEST),true,"/*");
}
}
2)get请求方式乱码(post的解决方法对get无效)
原因:对于get方法表单提交的内容在URL解析开始时就已经解码,所以setCharacterEncoding()无效。
解决方法:
在Tomcat的server.xml中的:
<Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" URIEncoding="GBK" />