一、简介
和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据,lxml只会局部遍历,而Beautiful Soup是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存的开销都会大很多,所以性能要低于lxml.
二、安装Beautiful Soup
windows:win+r ---->cmd---->pip install bs4
linux: pip install bs4
三、四个常用的对象
Beautiful Soup将复杂的HTML文档转换成一个复杂的树形结构,每一个节点都是Python对象,所有对象可归纳为四种:Beautiful Soup、Tag、NavigatableString、Comment.
四、创建Beautiful Soup对象frombs4 importBeautifulSoup
soup = BeautifulSoup('text','lxml') #
注意:(1)BeautifulSoup这个类的父类是Tag,因此Tag里面能用的方法BeautifulSoup都能用。(2)部分网站的代码不规范,明明写的解析没有问题,但是程序找不到结点,这时候我们用html5lib进行解析。
五、Tag对象
5.1 Tag通俗讲是HTML中的一个个标签。soup = BeautifulSoup('Extremely bold')
tag = soup.b
type(tag) #
5.2 Tag中的两个属性
每个tag都有自己的名字,通过name来获取:tag.name #'b'
一个tag可能有多个属性,tag的属性操作方法与字典相同tag['class'] #'boldest'tag.attrs # {'class':['boldest']}
六、.NavigatableString对象
如果拿到标签后,还想获取标签中的内容,name可以通过tag.string获取标签中的文字soup = BeautifulSoup('Extremely bold')
print(soup.string) #Extremely boldprint(type(soup.string)) #
七、Comment对象
标签内字符串注释部分markup = ''soup = BeautifulSoup(markup)
comment = soup.b.string
type(comment) #
八、四个解析库
8.1 find()和find_all()
(1): find方法是找到一个满足条件的标签后立即返回,只返回一个元素
(2): find_all方法是把所有满足条件的标签选取到,然后返回回去
8.2 select_one()和select()
使用上面这两种方法可以方便找出元素,但有时使用css选择器的方式更加方便。
(1): 通过标签查找print(soup.select('a)
(2): 通过类名查找print(soup.select('.sister'))
(3):通过id查找print(soup.select('#link1')
(4):组合查找#查找p标签中,id=link1的内容,二者要用空格分开print(soup.select('p #link1')
#直接子标签查找,则用>分割print(soup.select("head > title"))
(5):通过属性查找#属性需要用中括号括起来,注意属性和标签属于一个节点print(soup.select('a[href="http//example.com]/elsie"]'))
九、获取属性值和文本
9.1 获取标签属性
(1)通过下标获取:href=a["href"]
(2)通过attrs属性获取:href=a.attrs['href']
9.2 获取标签文本
(1)string:获取某个标签下的非标签字符串(NavigatableString类型)
(2)strings:获取某个标签下的子孙非标签字符串(返回的是迭代器,里面可能包含换行)
(3)stripeed_strings:获取某个标签下的子孙非标签字符串(返回的是迭代器,可以通过list转换为列表)
(4)get_text:获取某个标签下的子孙非标签字符串,直接返回字符串,它可以获得\n这样的,string不可以。