PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展 ASCII 码, 中国的 GB2312-80,日本的 JIS 等。作为该国家/区域内信息处理的基础,字符编码集起着统一编码的重要作用。字符编码集按长度分为 SBCS(单字节字符集),DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本 (L10N),为了区分,引进了 LANG, Codepage 等概念。但是由于各个本地字符集代码范围重叠,相互间信息交换困难; 软件各个本地化版本独立维护成本较高。因此有必要将本地化工作中的共性抽取出来,作一致处理,将特别的本地化处理内容降低到最少。这也就是所谓的国际化 (118N)。各种语言信息被进一步规范为 Locale 信息。处理的底层字符集变成了几乎包含了所有字形的 Unicode。 现在大部分具有国际化特征的软件核心字符处理都是以 Unicode 为基础的,在软件运行时根据当时的ocale/Lang/Codepage 设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现 Unicode 和本地字符集的相互转换,甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。
数据库中的字符集编码问题 流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8 等都是可选的数据库字符集编码; 当然我们也可以选择 ISO8859-1 (8-bit),只是我们得在应用程序写数据之前先将 16Bit 的一个汉字或 Unicode 拆分成两个 8-bit 的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的 SBCS 字符,因此我们并不推荐采用 ISO8859-1 作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。
PHP 程序在查询数据库之前,首先执行 mysql_query("SET NAMES xxxx"); 其中 xxxx 是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则 xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,几乎所有 WEB 程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。
SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES 'utf-8' 语句告诉服务器“将来从这个客户端传来的信息采用字符集 utf-8”。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个 SELECT 语句,它表示列值使用了什么字符集)。
定位问题时常用的技巧 : 定位中文编码问题通常采用最笨的也是最有效的办法―在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以发现什么时候中文字符被转换成 Unicode,什么时候Unicode 被转回中文内码,什么时候一个中文字成了两个 Unicode 字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……
取用合适的样本字符串也有助于区分问题的类型。如:"aa啊 aa?@aa" 等中英相间,GB、GBK特征字符均有的字符串。一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。
解决各种应用的乱码问题
1) 使用 标签设置页面编码
这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管 xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。 请注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML 信息传到了浏览器。
2) header("content-type:text/html; charset=xxx") 这个函数 header() 的作用是把括号里面的信息发到 http 标头。如果括号里面的内容为文中所说那样,那作用和标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的 xxx 编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了:
http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。而 标签是属于 HTML 信息的,所以 header() 发送的内容先到达浏览器,通俗点就是 header() 的优先级高于 (不知道可不可以这样讲)。假如一个 php 页面既有header("content-type:text/html; charset=xxx"),又有,浏览器就只认前者 http 标头而不认 meta 了。当然这个函数只能在 php 页面内使用。
同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache 的原因了。
3) AddDefaultCharset Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。 用文本编辑器打开 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。有这行,就相当于给每个文件都加了一行 header("content-type:text/html; charset=xxx")。这下就明白为什么明明设置了是 utf-8,可浏览器始终采用 gb2312 的原因。
如果网页里有 header("content-type:text/html; charset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把 AddDefaultCharset xxx 前面加个"#",注释掉这句,而且页面里不含 header("content-type…"),那这个时候就轮到 meta 标签起作用了。
下面列出以上的优先顺序: .. header("content-type:text/html; charset=xxx") .WVE .. AddDefaultCharset xxx
.. 如果你是 web 程序员,建议给你的每个页面都加个header("content-type:text/html; charset=xxx"),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。
4) php.ini 中的 default_charset 配置: php.ini 中的 default_charset = "gb2312" 定义了 php 的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。
结束语
其实 php 开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是 php 编程,中文信息处理中的问题还是会存在一段时间的。
要说mysql乱码,得先从mysql的几个参数说起,从mysql5开始,多了几个设置字符集的系统变量:
character_set_client 客户端字符集
character_set_connection 客户端与服务器端连接采用的字符集
character_set_results SELECT查询返回数据的字符集
character_set_database 数据库采用的字符集
乱码问题一般是由于以上几个变量设置错误照成的,很多人在请教乱码问题的时候,一般都会得到一个这样的答案:“你先set names一下”。那么set names是什么呢? set names实际上就是同时设置了character_set_client, character_set_connection, character_set_results这三个系统变量。
例如set names 'gbk'等同于:
set @@character_set_client = 'gbk'
set @@character_set_connection = 'gbk'
set @@character_set_results = 'gbk'
很多情况下,这样设置了之后就能把乱码问题解决了。但是还是不能完全避免出现乱码的可能,为什么呢?
因为character_set_client,character_set_connection这两个变量仅用于保证与character_set_database编码的一致,而character_set_results则用与保证SELECT返回的结果与程序的编码一致。
例如,你的数据库(character_set_database)用的是utf8的字符集,那么你就要保证character_set_client,character_set_connection也是utf8的字符集。而你的程序也许采用的并不是utf8,比如你的程序用的是gbk,那么你若把character_set_results也设置为utf8的话就会出现乱码问题。此时你应该把character_set_results设置为gbk。这样就能保证数据库返回的结果与你的程序的编码一致。
下面我给出一段用于设置字符集的代码(其中用到了一个我自己写的db库,相信应该不影响阅读):
<?
//假设我们的程序采用的是utf8的字符集
$program_char='utf8';
//先检查mysql的版本号,如果版本号大于4我们才可以设置这些系统变量(mysql4还没有这些系统变量)
$version=current($db->fetch_one('SELECT VERSION()'));
if(substr($version,0,1) >4)
{
//取出当前数据库的字符集
$sql='SELECT @@character_set_database';
$char=current($db->fetch_one($sql));
//将客户端字符集(character_set_client)和连接字符集(character_set_connection)设置为与数据库字符集(character_set_database)一致
$db->query('SET @@character_set_client = "'.$char.'"');
$db->query('SET @@character_set_connection = "'.$char.'"');
//将SELECT查询返回数据的字符集设置为与当前程序的字符集一致
$db->query('SET @@character_set_results = "'.$program_char.'"');
}
?>
1、要保证数据库中存的数据与数据库编码一致,即数据编码与character_set_database一致;
2、要保证通讯的字符集与数据库的字符集一致,即character_set_client, character_set_connection与character_set_database一致;
3、要保证SELECT的返回与程序的编码一致,即character_set_results与程序编码一致;
4、要保证程序编码与浏览器编码一致,即程序编码与<meta http-equiv="Content-Type" content="text/html; charset=?"/>一致。
解决 mysql 中文乱码的终极方案
I promise this is gonna be the last time on it
自从写完下面两篇文章:
wordpress 1.5升级注意事项-中文乱码篇
MySQL(和PHP搭配之最佳组合) 4.1中文乱码第二击
~
过去几个月就不断有来信询问各种MySQL(和PHP搭配之最佳组合)中文相容的问题,所以有机会看到许多玩家们用的各式连接法与程式,实在太开眼界。
最近因为转换到flex 2做为开发平台并重写一些产品,许多去年写的framework就无法使用,而其中有部份专门处理多国语系的library也随之失效,导致我得重新面对这个问题,所以正好籍此机会将一些新心得整理出来。
*MySQL(和PHP搭配之最佳组合)中文乱码的原因
MySQL(和PHP搭配之最佳组合)会出现中文乱码的原因不外乎下列几点:
-MySQL(和PHP搭配之最佳组合) server本身设定问题,例如还停留在latin1
-MySQL(和PHP搭配之最佳组合) table的语系设定问题(包含character与collation)
-客户端程式(例如php)的连线语系设定问题
在之前的两篇文章中已介绍过如何设定MySQL(和PHP搭配之最佳组合) server/table的character/collation。
接下来只需要补充几点注意事:
*MySQL(和PHP搭配之最佳组合)中文乱码必胜解决法
1、MySQL(和PHP搭配之最佳组合)启动时会读取一个预设的config档,一般名称为my.ini,而它会到下列两位置去寻找这个档案:
C:\windows\my.ini也就是作业系统的安装目录,也有可能是C:\winnt\my.ini
C:\:my.cnf也就是C disk的根目录
注意不同位置里的档案suffix(后缀)不一样,这点在之前的文章中没有特别强调,因此那时我是用更复杂的方法直接重新将MySQL(和PHP搭配之最佳组合)注册到service里面,并在那里指定my.ini的位置。
2、my.ini里的内容为:
[MySQL(和PHP搭配之最佳组合)d]
default-character-set=utf8
[client]
default-character-set=utf8
init_connect='SET NAMES utf8'
其中MySQL(和PHP搭配之最佳组合)d是指定server启动时要用的语系,但如果这里设定为utf8可能会让许多英文软体不开心,例如osCommerce/mediaWiki,所以这里建议设成latin1。
下面的client则是设定当client连线时要使用什么语系,但可惜的是这个设定不是每个client都会鸟它,基本上只有MySQL(和PHP搭配之最佳组合)自已家的程式,例如MySQL(和PHP搭配之最佳组合).exe, MySQL(和PHP搭配之最佳组合)d.exe, MySQL(和PHP搭配之最佳组合)admin.exe或是MySQL(和PHP搭配之最佳组合) Control Center这种程式会去读取这个设定档然后改用utf8连线。
note:感谢b6s桑热情相助提供第二行指令,据说比一支支php程式去设定connection setting更快,这样应该也可以顺便解决phpmyadmin无法正确显示unicode中文的问题(不过amfphp到是不吃这套,一定要乖乖的自已设定语系才行)
但大部份工程师应该都是自已写php/jsp(SUN企业级应用的首选)程式去连线,此时自然不会读取这个设定而继续使用预设的语系- latin1。
这也正是八成来信朋友阵亡的地方。
通常我会用一个独立的档案来处理MySQL(和PHP搭配之最佳组合) connection的设定,例如:
PLAIN TEXT
<?
//database connection details.
$host = "localhost";
$link = MySQL(和PHP搭配之最佳组合)_connect($host, "xxx", "xxx");
MySQL(和PHP搭配之最佳组合)_query("SET NAMES 'utf8'");
MySQL(和PHP搭配之最佳组合)_select_db("your_table_name_here", $link);
?>
请注意在MySQL(和PHP搭配之最佳组合)_connect后第五行的地方有加上一个"set names 'utf8' "的指令,告诉MySQL(和PHP搭配之最佳组合)这个connection之后的连线内容都要使用utf8,经过这样设定后,通常就可以解决大部份问题。
从这里也可以推想得知,如果你有用某种custom connection pooling机制,就要记得在每次建立新的connection后立即设定为utf8。
这组设定经过几天的反覆测试(使用中文繁、简、日文、韩文)后已经证实完全不会有乱码或是某些字变成"口"。
例子:试者输入这几个字「不道可否啰」如果它们能正确进入MySQL(和PHP搭配之最佳组合)再被读出来,那就是中文没问题了,如果读出来后变成『口』字那就是革命还未成功同志仍需努力...orz
当然我也顺便验证了flex2 - amfphp - php - MySQL(和PHP搭配之最佳组合)来回传resultset也不再会有中文乱码问题,可以安心使用啰。
解决 mysql 中文乱码的终极方案
I promise this is gonna be the last time on it
自从写完下面两篇文章:
wordpress 1.5升级注意事项-中文乱码篇
MySQL 4.1中文乱码第二击
~
过去几个月就不断有来信询问各种MySQL中文相容的问题,所以有机会看到许多玩家们用的各式连接法与程式,实在太开眼界。
最近因为转换到flex 2做为开发平台并重写一些产品,许多去年写的framework就无法使用,而其中有部份专门处理多国语系的library也随之失效,导致我得重新面对这个问题,所以正好籍此机会将一些新心得整理出来。
*MySQL中文乱码的原因
MySQL会出现中文乱码的原因不外乎下列几点:
-MySQL server本身设定问题,例如还停留在latin1
-MySQL table的语系设定问题(包含character与collation)
-客户端程式(例如php)的连线语系设定问题
在之前的两篇文章中已介绍过如何设定MySQL server/table的character/collation。
接下来只需要补充几点注意事:
*MySQL中文乱码必胜解决法
1、MySQL启动时会读取一个预设的config档,一般名称为my.ini,而它会到下列两位置去寻找这个档案:
C:\windows\my.ini也就是作业系统的安装目录,也有可能是C:\winnt\my.ini
C:\:my.cnf也就是C disk的根目录
注意不同位置里的档案suffix不一样,这点在之前的文章中没有特别强调,因此那时我是用更复杂的方法直接重新将MySQL注册到service里面,并在那里指定my.ini的位置。
2、my.ini里的内容为:
[MySQLd]
default-character-set=utf8
[client]
default-character-set=utf8
init_connect='SET NAMES utf8'
其中MySQLd是指定server启动时要用的语系,但如果这里设定为utf8可能会让许多英文软体不开心,例如osCommerce/mediaWiki,所以这里建议设成latin1。
下面的client则是设定当client连线时要使用什么语系,但可惜的是这个设定不是每个client都会鸟它,基本上只有MySQL自已家的程式,例如MySQL.exe, MySQLd.exe, MySQLadmin.exe或是MySQL Control Center这种程式会去读取这个设定档然后改用utf8连线。
note:感谢b6s桑热情相助提供第二行指令,据说比一支支php程式去设定connection setting更快,这样应该也可以顺便解决phpmyadmin无法正确显示unicode中文的问题(不过amfphp到是不吃这套,一定要乖乖的自已设定语系才行)
但大部份工程师应该都是自已写php/jsp(SUN企业级应用的首选)程式去连线,此时自然不会读取这个设定而继续使用预设的语系- latin1。
这也正是八成来信朋友阵亡的地方。
通常我会用一个独立的档案来处理MySQL connection的设定,例如:
PLAIN TEXT
<?
//database connection details.
$host = "localhost";
$link = MySQL_connect($host, "xxx", "xxx");
MySQL_query("SET NAMES 'utf8'");
MySQL_select_db("your_table_name_here", $link);
?>
请注意在MySQL_connect后第五行的地方有加上一个"set names 'utf8' "的指令,告诉MySQL这个connection之后的连线内容都要使用utf8,经过这样设定后,通常就可以解决大部份问题。
从这里也可以推想得知,如果你有用某种custom connection pooling机制,就要记得在每次建立新的connection后立即设定为utf8。
这组设定经过几天的反覆测试(使用中文繁、简、日文、韩文)后已经证实完全不会有乱码或是某些字变成"口"。
例子:试者输入这几个字「不道可否啰」如果它们能正确进入MySQL再被读出来,那就是中文没问题了,如果读出来后变成『口』字那就是革命还未成功同志仍需努力...orz
当然我也顺便验证了flex2 - amfphp - php - MySQL来回传resultset也不再会有中文乱码问题,可以安心使用啰。