Python爬虫开发实战营 - Day2:入门爬虫数据提取 - 创客学院直播室www.makeru.com.cn
Python一直在满足社区需求,并且将成为未来使用最多的语言。Python的下一个版本带来了更快速的进程释放,性能的提升,简便的新字符串函数,字典并集运算符以及更兼容稳定的内部API。文章将涉及:字典并集和可迭代更新
字符串方法
类型提示
新的数学函数
新的解析器
IPv6范围内的地址
新模块:区域信息
其他语言更改
字典并集和可迭代更新
字典并集我最喜欢的新特性之一是流畅的语法。Python 3.9 dict类。如果有两个字典a和b,则现在可以使用这些运算符进行合并和更新。我们有合并运算符|:
还有更新运算符| =,它会更新原始字典:
a = {1: 'a', 2: 'b', 3: 'c'}b = {4: 'd', 5: 'e'}a |= bprint(a){1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}
如果我们的词典共享一个公用密钥,那么第二个词典中的键值对将会被使用:
a = {1: 'a', 2: 'b', 3: 'c', 6: 'in both'}b = {4: 'd', 5: 'e', 6: 'but different'}print(a | b){1: 'a', 2: 'b', 3: 'c', 6: 'but different', 4: 'd', 5: 'e'}
使用Iterables进行字典更新| =运算符的另一个很棒的性能是能够使用可迭代对象(如列表或生成器)用新的键值对来更新字典:
a = {'a': 'one', 'b': 'two'}b = ((i, i**2) for i in range(3))a |= bprint(a){'a': 'one', 'b': 'two', 0: 0, 1: 1, 2: 4}
如果我们尝试使用标准的并集运算符|,则会提示类型错误,因为它仅允许dict类型之间的并集。
字符串方法
removeprefix()和removesuffix()str.removeprefix(substring:string)字符串方法:如果str以它开头的话,将会返回一个修改过前缀的新字符串,否则它将返回原始字符串。str.removesuffix(substring:string)字符串方法:如果str以其结尾,则返回带有修改过后缀的新字符串,否则它将返回原始字符串。
这两个函数执行的操作将使用string [len(prefix):]作为前缀,string [:-len(suffix)]作为后缀。
这些是非常简单的操作,因此实现的也是非常简单的功能,但是考虑到可能会经常执行这些操作,最好有一个内置的函数可以完成此操作。
类型提示
Python是动态类型的,动态地为变量指定数据类型,意味着我们无需在代码中指定数据类型。但有时可能会造成混淆!对于数据类型的静态分配,通常使用类型提示。这是在Python 3.5中引入的。从3.5开始,我们可以指定类型,但这是比较麻烦的。这项更新真正改变了这一点,现在可以将内置集合类型(List和Dict)用作泛型类型。之前,必须通过输入来调用大写类型List和Dict。
ef greet_all(names: list[str]) -> None:for name in names:print("Hello", name)
现在,无需从typing.List来调用List
新的数学函数
数学模块添加和改进了许多辅助功能,从对现有功能的改进开始。
import math#Greatest common divisormath.gcd(80, 64, 152)#8
以前计算最大公因数的gcd函数只能应用于2个数字,迫使程序员在处理更多数字时必须执行类似math.gcd(80,math.gcd(64,152))的操作。从Python 3.9开始,我们可以将其应用于任意数字的值。math模块中第一个新添加的是math.lcm函数:
#Least common multiplemath.lcm(4, 8, 5)#40
math.lcm计算其参数的最小公倍数。与GCD一样,它允许可变数量的参数。
新解析器
这部分更多是视线之外的改变,但有可能成为Python未来发展中最重大的改变之一。Python 3.9使用了一个新的基于PEG的解析器。以前Python使用LL(1),在构建该语言的新功能时,PEG比LL(1)更灵活。官方文档中表示,这种灵活性将在Python 3.10及更高版本中体现出来。ast模块使用新的解析器,并产生与旧解析器相同的AST。
IPv6范围的地址
Python 3.9的另一个变化是可以指定IPv6地址的范围。IPv6范围用于指定相应IP地址在Internet的哪个部分有效。范围可以使用%符号在IP地址的末尾指定——例如:3FFE:0:0:1:200:F8FF:FE75:50DF%2——因此该IP地址在范围2中,即链接本地地址。因此,如果需要使用Python处理IPv6地址,现在可以这样处理:
from ipaddress import IPv6Addressaddr = IPv6Address('ff02::fa51%1')print(addr.scope_id)#"1" - interface-local IP address
注意使用基本的Python运算符进行比较时,两个具有不同范围的地址是不相同的。
新模块
区域信息zoneinfo模块将IANA时区数据库的支持引入标准库。它添加了zoneinfo.ZoneInfo,这是一个由系统时区数据支持的具体的datetime.tzinfo实现。
其他变化
__import __()现在增加了ImportError以替代ValueError,通常在相对导入超出其顶级包时发生。“” .replace(“”,s,n)现在对于所有非零n返回s而不是空字符串。现在它与““ .replace(”“,s)相一致。默认状态下,Python变得更快Python的每个修订版与以前的版本相比都有性能改进。Python 3.9进行了两项重大改进,可以提高性能但无需对现有代码进行任何更改。第一个改进更多涉及矢量调用协议的使用,通过最小化或消除临时对象进行许多常见函数的调用。Python 3.9引入了几个新的内置函数,包括range、tuple、set、frozenset、list、dict ——使用vectorcall可以加快执行速度。Python切换到年度发布周期到目前为止,Python已经以18个月的节奏进行了开发和发布。PEP 602提议Python开发团队采用年度发布周期,并且该提议已被接受。
结语
随着每个新版本的发布,Python都变得越来越快速和强大,操作常见的数据类型也变得越来越简单。可能并不是所有这些更改都与大家的日常编程相关,但是我认为至少要意识到这是一件好事,因为它们可能会在某些时候派上用场。