1、编码基础知识

ISO-8859-1编码


ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号;

单字节,即一个字节对应一个编码,不能编码汉字

GB2312

能编码汉字,一个汉字用2个字节编码;

GBK

1) 能编码汉字,一个汉字用2个字节编码;

2) 编码的汉字比GB2312更多;

UTF-8

1)能编码汉字,一个汉字用3个字节编码;

2) 范围包含汉字,字母,特殊符号,gbk和utf-8之间是可以相互转换的;

2、WEB系统转换编码

原理

我们以服务端和客户端的模式来做分析,例如,浏览器是客户端,web服务器是服务端。

这里有个编码和解码的过程,客户端端需要将字符串编码成字节,可以是iso-8859-1,utf-8,gbk等,默认为iso-8859-1,

且转换成字节的过程中不能丢失编码。服务端需要用发送端同样的编码方式进行解码,否则将出现乱码。

一般由服务端确定一种编码和解码的方式,然后告知客户端编码和解码的方式。

Servlet 网络传输编码

接收浏览器POST请求

以JSP为例,服务端将JSP生成HTML发送给客户端。

注:关于JSP页面中的pageEncoding和contentType两种属性的区别:

pageEncoding是jsp文件本身的编码;

contentType的charset是指服务器发送给客户端时的内容编码。

当jsp编译成java时,根据pageEncoding设定的编码方式转化成UTF-8编码;当java编译成字节码时,编码全部是UTF-8;当输出页面时,容器利用contentType中设置的编码方式输出;

设置浏览器编码和解码方式为UTF-8

例如:

<%@ page pageEncoding="utf-8" contentType="text/html;charset=utf-8" language="java"%>

服务端解码方式1: 

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

服务端解码方式2: 

request.setCharacterEncoding("UTF-8");

接收浏览器GET请求

如:http://localhost:8888/webtest/EncodeServlet?name=你好

浏览器将会对url进行urlEncode,编码方式为UTF-8

服务端解码方式:

String name = new String(request.getParameter("name").getBytes("ISO-8859-1"),"UTF-8");

此处用request.setCharacterEncoding("UTF-8");来设置解码,不能奏效,原因是get请求将参数拼在url后面进行url encode,而web容器对url的解码是在调用servlet之前,且默认解码方式是iso-8859-1;

响应给浏览器

Response设置编码:

Response是指响应给客户端时,字节的编码方式,默认为ISO-8859-1;

可用如下方法查看:

response.getCharacterEncoding();

设置响应流的编码方式:

response.setCharacterEncoding("UTF-8");//设置http响应的编码,如果之前使用response.setContentType设置编码格式,则此处会覆盖其编码格式

设置浏览器的编码和解码方式:

response.setContentType("text/html;charset=UTF-8");

jsp设置:

<%@page pageEncoding="utf-8" contentType="text/html;charset=utf-8" language="java"%>

pageEncoding:设置jsp文件存储编码;

contentType里面的charset:设置浏览器端传输的编码和解码;

解析响应时解码,发送请求时编码;要保持响应流编码和浏览器解码方式一致,才能不乱码;

Struts2控制编码

Struts.xml中做如下配置:

<!-- 此编码要跟页面中的编码一致才不会造成中文乱码,同时,需要在web.xml中加上过滤器 --> <constant name="struts.i18n.encoding" value="utf-8"></constant>

Web.xml中配置如下:

<!-- 编码过滤器必须加载在struts之前才能生效 -->
<filter>
    <filter-name>encodingFilter</filter-name>
    <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
    <init-param>
        <param-name>encoding</param-name>
        <param-value>UTF-8</param-value>
    </init-param>
</filter>
<filter-mapping>
    <filter-name>encodingFilter</filter-name>
    <url-pattern>/*</url-pattern>
</filter-mapping>

<filter>
    <filter-name>struts2</filter-name>
    <filter-class>org.apache.struts2.dispatcher.FilterDispatcher</filter-class>
</filter>

Spring控制编码

Web.xml中配置如下:

<filter>
    <filter-name>encodingFilter</filter-name>
    <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>
    <init-param>
        <param-name>encoding</param-name>
        <param-value>UTF-8</param-value>
    </init-param>
    <init-param>
        <param-name>forceEncoding</param-name>
        <param-value>true</param-value>
    </init-param>
</filter>


其中encoding设置服务端编码和解码的方式;

forceEncoding表示强制编码的方式。

3、字符串转字节转码

String s = "s汉";
byte[] bytes1 = s.getBytes("ISO-8859-1");//丢失字符
byte[] bytes2 = s.getBytes("GBK");
byte[] bytes3 = s.getBytes("UTF-8");

4、字节转字符串转码

String s1 = new String(bytes1,"utf-8");//丢失
String s2 = new String(bytes2,"GBK");
String s3 = new String(bytes3,"utf-8");