1.字符问题
“字符串”是一个相对简单的概念,一个字符串代表一个字符序列。但是问题出在“字符”的定义上。在Unicode标准中,对字符地标识和字节的具体表述进行了详细的划分。
字符的标识,即码位,是0-1114111的数字(十进制),在Unicode标准中码位以4-6个十六进制数字表示,而且要加上前缀“U+”。例如,A的码位为U+0041。
字符的具体表述则取决于所用的编码。编码是在码位和字节序列之间转换时所用到的算法。例如,在UTF-8编码中,A(U+0041)码位编码成单个字节\x41。
综上,将码位转换成字节序列的过程称为编码,将字节序列转换成码位的过程称之为解码。编码(.encode())是将人类可读的文本转换成机器可读的字符序列。解码(.decode())是将机器可读的字符序列转换成人类可读的文本。
s = 'cafe'
b = s.encode('utf8')
print(b)
c = b.decode('utf8')
print(c)
2.字节概要
bytes和bytearray对象的各元素是介于0-255之间(也就是range(0,256))的整数,但是二进制序列的切片始终是同一类型的二进制序列,包括长度为1的切片,只不过该序列中存放的元素还是整数。
cafe = bytes('cafe', encoding='utf8')
print(cafe)
print(cafe[0])
print(cafe[:1])
构建bytes和bytearray实例可以还可以调用各自的构造方法。一般传入下述的参数就可:
(1)一个str对象,一个encoding关键字参数,就是采用的编码算法。
(2)一个可迭代的对象,提供0-255之间的一个整数。
(3)一个实现了缓冲协议的对象(如bytes、bytearray),此时,会把源对象序列中的字节序列复制到新的二进制序列中。
import array
numbers = array.array('h', [-2,-1,0,1,2])
octets = bytes(numbers)
print(octets)
使用缓冲类对象创建bytes和bytearray对象时,始终复制的是源对象中的字节序列。与之相反的是,memoryview对象允许在二进制数据结构之间共享内存。
3.结构体和内存视图
struct模块提够了一些函数,把打包的序列转换成不同类型字段组成的元组,以及一些反向转换的函数。struct模块能够处理bytes、bytearray和memoryview等对象。
import struct
# 其中<代表小字节序,3s3s代表两个三字节序列,HH代表两个16位二进制整数
fmt = '<3s3sHH'
with open('filter.gif', 'rb') as fp:
img = memoryview(fp.read())
# 使用切片在创建一个对象
header = img[:10]
# 转换为字节序列
a = bytes(header)
# 以fmt构建的形式对header进行拆包
b = struct.unpack(fmt, header)
#删除引用释放内存
del header
del img
4.处理文本文件
处理文本的最佳实践是“Unicode三明治”,即要尽早把输入的字节序列解码成字符串,尽量晚的把字符串编码成字节序列。在处理文本文件时,要注意,一定不要依赖默认编码,打开文件时,始终应该明确地传入encoding=参数,因为系统不一样默认的编码方法也是不一样的,这会导致一些兼容性问题。
在Python中,locale.getpreferredencoding()返回的编码是最重要的,它是打开文件的默认编码,也是重定向文件的默认编码。但是在不同的系统中设置起来会比较麻烦,所以,最好的建议是别依赖默认值。
5.为了正确比较而规范化Uniccode字符串
因为Unicode有组合字符,所以字符串比较起来会比较麻烦。因为同一个词会有多种表示方法。为了解决这个问题,我们一般使用unicodedata.normalize()函数提供的规Unicode规范化。该函数的第一个参数有四种,即:NFC(推荐使用),NFD,KNFC,KNFD。NFC参数表示是用最少的码位构成等价的字符串。NFD把组合字符分解成基字符和单独的组合字符。KNFC和KNFD为更严格的规范化形式,一般不使用。
from unicodedata import normalize
s1 = 'cafe\u0301'
s2 = 'café'
print(len(normalize('NFC', s1)), len(normalize('NFC', s2)))
print(s1, s2)
print(len(s1), len(s2))
print(s1 == s2)
此外,规范化时,还要注意将大小写进行折叠,就是把所有文本都变成小写,再做一些其它转变。这个功能由str.casefold()来实现。
6.Unicode文本排序
一般来说,我们使用PyUCA库来实现排序算法。但是它没有考虑区域设置,如果想定制排序方式,可以把自定义的排序表路径传给collator构造方法。