Python有两种类型可以表示字符序列:一种是bytes,另一种是str。bytes 实例包含的是原始数据,即8位的无符号(通常按照ASCII编码标准来显示)。
a=b'h\x65llo'
print(list(a))
print(a)
>>>
[104, 101, 108, 108, 111]
b'hello'
str实例包含的是Unicode码点(code point,也叫代码点),这些码点与人类语言中的文本文字相对应。
a='a\u0300 propos'
print(list(a))
print(a)
>>>
['a', '̀', ' ', 'p', 'r', 'o', 'p', 'o', 's']
à propos
大家一定要记住:str实例不一定非要用某一种固定的方式编码成二进制数据,bytes实例也不一定非要按照某一种固定的方案编码查成二进制数据,bytes实例也不一定非要按照某一种固定的方案解码成字符串。要把Unicode数据转换成二进制数据,必须调用str的encode方法。要把二进制数据转换成Unicode数据,必须调用bytes的decode方法。调用这些方法的时候,可以明确自己要使用的编码方案,也可以采用系统默认的方案,通常是指UTF-8(但有时也不一定,下面就会讲到这个问题)。
编写Python程序的时候,一定要把解码和编码的操作放在界面最外层来做,让程序的核心部分可以使用Unicode数据来运作,这种办法通常叫做Unicode三明治(Unicode sandwich)。程序核心部分,应该用str类型来表示Unicode数据,并且不要锁定到某种字符编码上面。这样可以让程序接受许多种文本编码(例如Latin-1、Shift JIS及Big5),并把它们都转化成Unicode,也能保证输出的问泵信息都是同一种标准(最好是UTF-8)编码的。
两种不同的字符类型与Python中两种常见的使用情况相对应:
- 开发者需要操作原始8位值序列,序列里面的这些8位值合起来表示一个应该按UTF-8或其他标准编码的字符串
- 开发者需要操作通用的Unicode字符串,而不是操作某种特定编码的字符串
我们通常需要编写两个辅助函数(helper function),以便在这两种情况之间相互转换,确保输入值类型符合开发者的预期形式。
第一个辅助函数接受bytes或str实例,并返回str:
def to_str(bytes_or_str):
if isinstance(bytes_or_str,bytes):
value = bytes_or_str.decode('utf-8')
else:
value = bytes_or_str
return value #Instanse of str
print(repr(to_str(b'foo')))
print(repr(to_str('bar')))
>>>
'foo'
'bar'
第二个辅助函数也接受bytes或str实例,但它返回的是bytes:
def to_bytes(bytes_or_str):
if isinstance(bytes_or_str,str):
value = bytes_or_str.encode('utf-8')
else:
value = bytes_or_str
return value #Instanse of bytes
print(repr(to_bytes(b'foo')))
print(repr(to_bytes('bar')))
在Python中使用原始8位值与Unicode字符串时,有两个问题要注意。
第一个问题是,bytes与str这两种类型似乎是以相同的方式工作的,但其实例并不相互兼容,所以在传递字符序列的时候必须考虑好其类型。
可以用+操作符讲bytes添加到bytes,str也可以这样。
print(b'one' + b'two')
print('one' + 'two')
>>>
b'onetwo'
onetwo
但是不能将str实例添加到bytes实例:
b'one' + 'two'
>>>
Traceback ...
TypeError: can't concat str to bytes
也不能将bytes实例添加到str实例:
'one' + b'two'
>>>
Traceback ...
TypeError: can only concatenate str (not "bytes") to str
bytes与bytes之间可以用二元操作符(binary operator)来比较大小,str与str之间也可以:
assert 'red' > 'blue'
assert b'red' > b'blue'
但是str实例不能与bytes实例比较:
assert 'red' > b'blue'
>>>
Traceback...
TypeError: '>' not supported between instances of 'str' and 'bytes'
反过来也一样,也就是说bytes实例不能与str实例比较。
判断bytes与str实例是否相等,总是会评估为假(False),即便这两个实例表示的字符完全相同,它们也不相等。例如,在下面这个例子里,它们表示的字符床都相当于ASCLII编码之中的foo。
print(b'foo' == 'foo')
>>>
False
两种类型的实例都可以出现在%操作符的右侧,用来替换左侧那个格式字符串(format string)里面的%s。
print(b'red %s' % b'blue')
print('red %s' % 'blue')
>>>
b'red blue'
red blue
如果格式字符串是bytes类型,那么不能用str实例来替换其中的%s,因为Python不知道这个str应该按照什么方案来编码。
print(b'red %s' % 'blue')
>>>
Traceback ...
TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'str'
但反过来却可以,也就是说如果是格式字符串是str类型,则可以用bytes实例来替换其中的%s,问题是,这可能和你想要的结果不一致。
print('red %s' % b'blue')
>>>
red b'blue'
这样做,会让系统在bytes实例上面调用_repr_方法,然后用这次调用所得到的结果替换格式字符串里的%s,因此程序会直接输出b’blue’,而不是像你想象的那样,输出blue本身。
第二个问题发生在操作文件句柄的时候,这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作,而不能采用原始的bytes。习惯了Python 2的开发者,尤其容易碰到这个问题,进而导致程序出现奇怪的错误。例如,像文件写入二进制数据的时候,下面这种写法其实是错误的。
with open('data.bin.', 'w') as f:
f.write(b'\xf1\xf2\xf3\xf4\xf5')
>>>
Traceback ...
TypeError: write() argument must be str, not bytes
程序发生异常是因为在调用open函数时,指定的是‘w’模式,所以系统要求必须以文本模式写入,如果想用二进制模式,那应该指定‘wb’才对。在文本模式下,write方法接受的是包含Unicode数据的str实例,不是包含二进制数据的bytes实例。所以,我们得把模式改成‘wb’来解决问题。
with open('data.bin.', 'wb') as f:
f.write(b'\xf1\xf2\xf3\xf4\xf5')
读取文件的时候也有类似的问题。例如,如果要把刚才写入的二进制文件读出来,那么就不能用下面这种写法。
with open('data.bin', 'r') as f:
data = f.read()
>>>
Traceback ...
UnicodeDecodeError: 'gbk' codec can't decode byte 0xf5 in position 4: incomplete multibyte sequence
程序出错,是因为在调用open函数时指定的是‘r’模式,所以系统要求必须以文本模式来读取。若要用二进制格式读取,应该指定‘rb’。为了修正错误,需要把模式改为‘rb’。
另一种改法是在调用open函数的时候,通过encoding参数明确指定编码标准,以确保平台特有的一些行为不会干扰代码的运行效果。例如,假设刚才写到文件里的那些二进制数表示的是一个采用‘cp1252’标准(cp1252是一种老式的Windows编码方案)来编码的字符串,则可以这样写:
with open('data.bin', 'r', encoding='cp1252') as f:
data = f.read()
这样程序就不出现异常了,但返回的字符串也与读取原始字节数据所返回的有很大区别。通过这个例子,我们要提醒自己注意当前操作系统默认的编码标准(可以执行python3 -c 'import locale; print(locale.getpreferredencoding())'
命令查看,了解它与你所期望的是否一致。如果不确定,那就在调用open 时明确指定encoding参数。