学习内容:

  • Python学习之【字符串】

学习产出:

字符串为不可变序列

一、字符串驻留机制:

只保留 一份相同且不可变字符串的方法,不同的值被存放在字符串的驻留池中。
Python的驻留机制对相同的字符串只保留一份拷贝,后续创建相同字符串时,不会开辟新空间,而是把字符串的地址赋值给新创建的变量。

1.驻留机制的几种情况(交互模式)

1). 字符串的长度为0或1时

str1 = ''
    str2 = ''
    str3 = ''
    str4 = ''
    print(str1 is str2, str3 is str4) #True True

2). 符合标识符的字符串(数字、字母、下划线)

str1 = 'abc%'
    str2 = 'abc%'
    print(str1 is str2) #False

3). 字符串只在编译时进行驻留,而非运行时

a = 'abc'
	b = 'ab' + 'c'
	c = ''.join('abc')
	print(a is b) #True
	print(a is c) #False

4). [-5, 256]之间的整数数字

str1 = -5
	str2 = -5
	print(str1 is str2) #True
	str3 = -66
	str4 = -66
	print(str3 is str4) #False

2.sys中的intern()强制两个字符串指向同一个对象

str1 = 'abc%'
str2 = 'abc%'
print(str1 id str2) #False
import sys
str1 = sys.intern(str2)
print(str1 is str2) #True

PyCharm对字符串进行了优化处理

str1 = 'abc%'
str2 = 'abc%'
print(str1 is str2) #True

3.字符串驻留的优缺点

1.当需要值相同的字符串时,可以直接从字符串池中拿来使用,避免频繁的创建和销毁,提升效率和节约内存,因此拼接字符串和修改字符串是会比较影响性能的。
2.在需要进行字符串拼接时,建议使用str类型的join方法,而非+,因为join()是先计算出所有字符串中的长度,然后再拷贝,只new一次对象,效率比+高。

二、常用方法

1.查询

index:查找子串substr第一次出现的位置,如果查找的字串不存在,抛异常ValueError ;
 rindex:查找字串substr最后一次出现的位置,如果查找的字串不存在,抛异常ValueError ;
 find:查找子串substr第一次出现的位置,如果查找的字串不存在,返回-1 ;
 rfind:查找子串substr最后一次出现的位置,如果查找的字串不存在,返回-1;

2.大小写,创建新对象

upper:全大写 ;
 lower:全小写 ;
 swapcase:所有大写转小写,所有小写转大写;
 capitalize:第一个字符转大写,其余所有转小写;
 title:每个单词的第一个字符为大写,每个单词剩余字母转为小写;

3.内容对齐

center:居中对齐,第一个参数指定宽度,第二个参数指定填充符(可选),默认是空格,如果指定宽度小于等于实际宽度则返回原字符串;
 ljust:左对齐,第一个参数指定宽度,第二个参数指定填充符(可选),默认是空格,如果指定宽度小于等于实际宽度则返回原字符串;
 rjust:右对齐,第一个参数指定宽度,第二个参数指定填充符(可选),默认是空格,如果指定宽度小于等于实际宽度则返回原字符串;
 zfill:右对齐,左边用0填充,只接受一个参数来指定字符串宽度,如果指定宽度小于等于字符串长度,则返回字符串本身;

4.劈分操作

split:从字符串左边开始劈分,默认劈分字符是空格,返回值是列表;参数step指定劈分符;通过参数maxsplit指定最大劈分次数,剩余字串单独作为一部分。
rsplit:从字符串右边开始劈分,默认劈分字符是空格,返回值是列表;参数step指定劈分符;通过参数maxsplit指定最大劈分次数,剩余字串单独作为一部分。

5.判断

isidentifier:判断指定的字符串是不是合法的标识符;
 isspace:判断指定的字符串否是全部由空白字符组成(回车、换行、水平制表符);
 isalpha:判断指定的字符串是否全部由字母组成;
 isdecimal:判断指定的字符串是否全部由十进制数字组成;
 isnumeric:判断指定的字符串是否全部由数字组成;
 isalnum:判断指定的字符串是否全部由数字和字母组成;

6.其他方法

replace:替换。第一个参数指定被替换的子串,第二个参数指定替换后子串,第三个参数指定最大替换次数;
 join:合并。将列表或元组中的字符串合并成一个字符串

三、字符串的比较操作

运算符: >, >=, <, <=, ==, !=
1.比较规则:

首先比较两个字符串中的第一个字符,如果相等则继续比较下一个字符, 依次比较下去,直到两个字符串中的字符不相等时,其比较结果就是两个字符串的比较结果,后续字符将不再被比较

2.比较原理:

两个字符比较时,比较的是原始值ordinal value,内置函数ord()可以得到指定字符的原始值;chr()函数可以得到原始值对应的字符。

3.is和 == 的区别:

is比较的是id;
==比较的是value

四、字符串的切片操作

[start : end : step]


切片会产生新的对象

五、格式化字符串

1.% 占位符:

%d 整数;
%s 文字

name = '小明'
age = 18
print('我的名字叫%s, 今年%d岁' % (name, age))

宽度为10位:

print('%10d' % 99) #        99
print('0123456789')

保留3位小数:

print('%.3f' % 3.1415926) #3.142

同时表示宽度和精度:

print('%10.3f' % 3.1415926) #     3.142

2. {}占位符 下标只有一个时可以不写

print('我叫{0}, 今年{1}岁'.format(name, age))

保留3位数字:

print('{0:.3}'.format(3.1415926)) #3.14

保留3位小数:

print('{:.3f}'.format(3.1415926)) #3.142

同时表示宽度和精度:

print('{:10.3f}'.format(3.1415926)) #     3.142

3.f-string占位符

print(f'我叫{name}, 今年{age}岁')

六、字符串编码与解码

s = '天涯共此时'

编码

GBK编码格式中,一个中文占两个字节:

byte_g = s.encode(encoding='GBK') #b'\xcc\xec\xd1\xc4\xb9\xb2\xb4\xcb\xca\xb1'
print(byte_g)

UTF-8编码格式中,一个中文占三个字节:

byte_u = s.encode(encoding='UTF-8') #b'\xe5\xa4\xa9\xe6\xb6\xaf\xe5\x85\xb1\xe6\xad\xa4\xe6\x97\xb6'
print(byte_u)

解码

byte = byte_g.decode(encoding="GBK")
print(byte)
byte = byte_u.decode(encoding="UTF-8")
print(byte)