python爬虫可以获取很多想要的资源,那么作为一个动漫的爱好者,除了看动画之外,追漫画才能算是真正的真爱粉。那么,如何使用python爬虫我们想要的漫画呢?

python爬虫

首先,我们要使用python爬虫的网站就是腾讯动漫网了,实现python爬虫的第一步,我们来分析下这个页面的结构。

python爬取漫画网站图片并保存 python爬取付费漫画_python爬虫

python爬虫

我们在一个漫画图片上右键,选择审查元素(可以快速定位),然后我们看到这一部部的漫画被组织在一个个li标签中,也就是通过一个列表来组织的。然后我们点开一个li标签,开始寻找这个漫画的url地址。

python爬取漫画网站图片并保存 python爬取付费漫画_动漫_02

python爬虫

然后我们可以找到通过这样的一个链接标签可以跳转到我们想要的漫画页面。当我们来到选定漫画的页面时,我们还需要知道如何获取章节的url地址,这样才能实现我们的python爬虫。

python爬取漫画网站图片并保存 python爬取付费漫画_java 如何爬腾讯漫画_03

python爬虫

我们点击审查元素之后,很容易就能找到,这里也有一个链接标签,通过这个标签可以跳转到我们想要的章节的地址页面。我们可以发现,这些漫画章节的内容通过li元素组织,在每个li元素中有多个p标签,这些p标签对应着不同具体章节,然后再p标签下有着一个链接a标签,通过a标签就能跳转到章节地址。

python爬取漫画网站图片并保存 python爬取付费漫画_a标签_04

python爬虫

当我们到了这个页面的时候,关键问题来了,在这个页面我们不能直接查看网页的源代码,但是我们可以使用快捷键ctrl+shift+i来看到源代码。

python爬取漫画网站图片并保存 python爬取付费漫画_java 如何爬腾讯漫画_05

python爬虫

当我们看到了这个页面的源代码之后,我们试图获取漫画的图片。但是我们会发现这个页面只有前面的图片是加载出来的,后面的图片内容是个gif,而这个gif不是我们的漫画图片,而是漫画的加载动画。当我们将页面滚动到底部之后,会发现所有的漫画图片都加载出来了,这是因为腾讯动漫采用了js异步加载的方式。因此,我们想要实现python爬虫来获取这样的内容,可以使用selenium自动化测试工具。

由于篇幅有限,加上大家也有过使用python爬虫的经验了,我们直接附上代码,代码有详细的注释,相信大家可以理解的~(#^.^#)

python爬取漫画网站图片并保存 python爬取付费漫画_a标签_06

python爬虫源码

python爬取漫画网站图片并保存 python爬取付费漫画_java 如何爬腾讯漫画_07

python爬虫源码

为了便于大家更好的理解,这里简要说明下python爬虫代码整体思路。我们使用xpath提取漫画的url地址。这个很简单,不知道的小伙伴可以看看之前我发的xpath基础使用的文章。然后我们同样使用xpath提取了漫画的内容页,章节名称。最后,就是我们爬虫的关键操作使用谷歌浏览器驱动和selenium工具来模拟真实用户操作(滚动条),等待图片加载完成后,下载我们想要的图片就好了。

最后,享受学习python爬虫带来的成果吧~