ChromeDriver的安装

前面我们成功地安装好了Selenium,但是它是一个自动化测试工具,需要浏览器来配合使用,本节我们来介绍一下Chrome浏览器及ChromeDriver驱动的配置。

首先下载chrome浏览器,这里方法太多了,我们就不做介绍;我们介绍一下安装ChromeDriver。因为只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作,下面我们来介绍一下怎么安装ChromeDriver。

首先查看Chrome的版本;点击Chrome菜单中的“Chrome”—>“关于Google Chrome”,即可查看Chrome的版本号:

查看chrome版本号

这里我的版本号是71.0。请记住Chrome版本号,因为选择ChromeDriver版本时需要用到。

下载ChromeDriver

打开ChromeDriver的官方网站,找到对应的版本号:

chromedriver的版本号

我们找到我们对应的版本号之后就可以进行相应的下载啦:

选择自己合适的系统进行下载

下载完成后,将ChromeDriver的可执行文件配置到环境变量下;在windows下,建议直接将chromedriver.exe人间拖到Python的Scripts目录下即可;在Linux或Mac下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里。例如,要移动文件到/usr/bin目录,首先需要在命令行模式下进入其所在路径,然后将其移动到/usr/bin中:

sudo mv chromedriver /usr/bin。

验证安装

配置完成后,就可以在命令行在直接执行chromedriver命令了:chromedriver

如果控制台有类似于下面的输出,那么就证明ChromeDriver的环境变量配置好了:

控制台输出

解析库的安装

抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式多种多样,可以使用正则表达式来提取,但是写起来相对比较繁琐。这里还有许多强大的解析库,如lxml、Beautiful Soup、pyquery等。此外,还提供了非常强大的解析方式,如Xpath解析和CSS选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息。

lxml库的安装

lxml是Python中的一个解析库,支持HTML和XML的解析。支持XPath解析方式,而且解析率非常高。本节中,我们了解一下lxml库的安装方式。我们还是可以首先尝试pip安装,命令如下:pip3 insatll lxml

安装完成之后,我们可以验证安装,在python命令行中输入:import lxml

结果没有任何错误报出就证明库已经安装好了:

验证安装

Beautiful Soup的安装

Beautiful Soup是python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式,本节就来了解一下它的安装方式。

Beautiful Soup的HTML和XML解析库是依赖于lxml库的,所以在此之前请确保已经成功安装好了lxml库。目前,Beautiful Soup的最新版本是4x版本,这里推荐使用pip安装:pip install beautifulsoup4

命令执行完毕即可完成安装。

验证安装时,可以运行这段代码来测试一下:

测试代码

正确输出Hello,就代表我们安装成功了。下一章节,我们将正式地介绍爬虫的基础知识,还有一些相关的库,在用到时会让大家进行安装。