字符编码发展史
- 1.什么是字符编码
- 2.字符编码表的发展史
- 2.1 一家独大
- 2.2 诸侯割据,天下大乱
- 2.2.1 GB-2312 和 GBK 编码
- 2.2.2 同时期的各国编码
- 2.3 分久必和
- 2.3.1 unicode
- 2.3.2 utf-8编码
- 3. Python中的编码
- 3.1 Python中声明编码集
- 3.2 Python 中的编解码函数
1.什么是字符编码
字符编码(character encoding)是将人类语言中的字符与计算机中的二进制数之间建立映射关系的过程。由于计算机只能识别二进制数,而人类语言中则包含了很多的字符、符号、数字等元素,这些元素需要通过某种方式转换成二进制数,才能在计算机中被存储和处理。字符编码就是将人类语言中的字符转换成计算机中的二进制数的过程,不同的字符编码方式所使用的二进制数位数、编码范围、表示方式等都有所不同。常见的字符编码方式有ASCII码、Unicode、UTF-8等。
2.字符编码表的发展史
2.1 一家独大
现代计算机起源于美国,所以最先考虑仅仅是让计算机识别英文字符,于是诞生了ASCII表
#ASCII表的特点:
1、只有英文字符与数字的一一对应关系
2、一个英文字符对应1Bytes,1Bytes=8bit,8bit最多包含256个数字,可以对应256个字符,足够表示所有英文字符
2.2 诸侯割据,天下大乱
2.2.1 GB-2312 和 GBK 编码
为了让计算机能够识别中文和英文,中国人定制了GB-2312编码。
gb-2312编码,由国家信息标准委员会制作(1980年)。
gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。
在与二进制做对应关系时,由如下逻辑:
- 单字节表示,用一个字节表示对应关系。2**8 = 256
- 双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。
2.2.2 同时期的各国编码
每个国家都各自的字符,为让计算机能够识别自己国家的字符外加英文字符,各个国家都制定了自己的字符编码表。
如日本韩国等等。
#Shift_JIS表的特点:
1、只有日文字符、英文字符与数字的一一对应关系
Euc-kr表的特点:
1、只有韩文字符、英文字符与数字的一一对应关系。
此时无论是存还是取由于采用的字符编码表一样,所以肯定不会出现乱码问题,但问题是在美国人用的计算机里只能输入英文字符,而在中国人用的计算机里只能输入中文字符和英文字符。
2.3 分久必和
2.3.1 unicode
unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。
- ucs2
用固定的2个字节去表示一个文字。
00000000 00000000 悟
...
2**16 = 65535
- ucs4
用固定的4个字节去表示一个文字。
00000000 00000000 00000000 00000000 无
...
2**32 = 4294967296
文字 十六进制 二进制
ȧ 0227 1000100111
ȧ 0227 00000010 00100111 ucs2
ȧ 0227 00000000 00000000 00000010 00100111 ucs4
乔 4E54 100111001010100
乔 4E54 01001110 01010100 ucs2
乔 4E54 00000000 00000000 01001110 01010100 ucs4
😆 1F606 11111011000000110
😆 1F606 00000000 00000001 11110110 00000110 ucs4
无论是ucs2和ucs4都有缺点:浪费空间?
文字 十六进制 二进制
A 0041 01000001
A 0041 00000000 01000001
A 0041 00000000 00000000 00000000 01000001
unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。
2.3.2 utf-8编码
包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码(站在巨人的肩膀上功成名就)。
本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。
unicode码位范围 utf-8
0000 ~ 007F 用1个字节表示
0080 ~ 07FF 用2个字节表示
0800 ~ FFFF 用3个字节表示
10000 ~ 10FFFF 用4个字节表示
具体压缩的流程:
- 第一步:选择转换模板
码位范围(十六进制) 转换模板
0000 ~ 007F 0XXXXXXX
0080 ~ 07FF 110XXXXX 10XXXXXX
0800 ~ FFFF 1110XXXX 10XXXXXX 10XXXXXX
10000 ~ 10FFFF 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
例如:
"B" 对应的unicode码位为 0042,那么他应该选择的一个模板。
"ǣ" 对应的unicode码位为 01E3,则应该选择第二个模板。
"武" 对应的unicode码位为 6B66,则应该选择第三个模板。
"沛" 对应的unicode码位为 6C9B,则应该选择第三个模板。
"齐" 对应的unicode码位为 9F50,则应该选择第三个模板。
😆 对应的unicode码位为 1F606,则应该选择第四个模板。
注意:一般中文都使用第三个模板(3个字节),这也就是平时大家说中文在utf-8中会占3个字节的原因了。
- 第二步:在模板中填入数据
- "武" -> 6B66 -> 110 101101 100110
- 根据模板去套入数据
1110XXXX 10XXXXXX 10XXXXXX
1110XXXX 10XXXXXX 10100110
1110XXXX 10101101 10100110
11100110 10101101 10100110
在UTF-8编码中 ”武“ 11100110 10101101 10100110
- 😆 -> 1F606 -> 11111 011000 000110
- 根据模板去套入数据
11110000 10011111 10011000 10000110
3. Python中的编码
3.1 Python中声明编码集
在头部插入以下代码
# coding: 当初文件写入硬盘时采用的编码格式
或者
# -*- coding:utf-8 -*-
3.2 Python 中的编解码函数
# 1、unicode格式------编码encode-------->其它编码格式
>>> x='上' # 在python3在'上'被存成unicode
>>> res=x.encode('utf-8')
>>> res,type(res) # unicode编码成了utf-8格式,而编码的结果为bytes类型,可以当作直接当作二进制去使用
(b'\xe4\xb8\x8a', <class 'bytes'>)
# 2、其它编码格式------解码decode-------->unicode格式
>>> res.decode('utf-8')
'上'