python爬虫怎么找pdf下载路径爬虫下载pdf文件

转载

代码探险家 2024-02-05 20:26:38

文章标签 python爬虫怎么找pdf下载路径 python 爬虫 selenium request 文章分类 Python 后端开发

selenium下载图片和PDF的文件的方式有很多种，可以使用自带的下载方式，也可以使用模拟鼠标右键点击的方式去储存和下载不过这两种方式都不太推荐使用，因为我们的使用

selenium的目的主要是为了做一些爬虫，爬虫多数时候需要下载大量的图片和文件，这里就需要使用其他的方式来进行下载文件

Python爬虫（6）-selenium用requests、wget、urllib3、Boto3、asyncio5种方法搞定图片和PDF文件下载

1.使用requests下载文件

下载图片
下载PDF文件

2.使用wget下载文件

下载图片
下载PDF文件

3.使用urllib3下载文件

下载图片
下载PDF文件

下载前的工作，需要定位好图片的地址

python爬虫怎么找pdf下载路径爬虫下载pdf文件_爬虫

完成定位之后我们需要获取到图片的地址也就是src

from selenium import webdriver
from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
opt = ChromeOptions()            # 创建Chrome参数对象
opt.headless = False            # 把Chrome设置成可视化无界面模式，windows/Linux 皆可
driver = Chrome(options=opt)
driver.get('https://www.pexels.com/zh-cn/photo/931177/')
ab = driver.find_element(By.XPATH,'//*[@id="__next"]/main/div/div[2]/div/div/img').get_attribute('src')
print(ab)

获取到src之后我们就可以进行下一步操作

python爬虫怎么找pdf下载路径爬虫下载pdf文件_爬虫_02

1.使用requests下载文件

下载图片

首先导入requests，把定位找到的图片地址传入dowlimg，写入文件，即可将下载好的文件存入本地

import requests
dowlimg = requests.get(ab)
open('imgtest.jpeg','wb').write(dowlimg.content)
driver.close()

python爬虫怎么找pdf下载路径爬虫下载pdf文件_python_03

下载PDF文件

下载PDF文件也是一个道理只要你能够通过selenium定位获取到地址，传入给request就能够把文件给下载下来

import requests
url = 'https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf'
dowlimg = requests.get(url)
open('PDF.pdf','wb').write(dowlimg.content)

2.使用wget下载文件

下载图片

使用wget下载有个麻烦点就是有些网站设置了反爬虫时会出现403拒绝的情况，尝试用了用户代理那些都失败，只能用于下载没有反爬虫的网站图片

import wget
url = "https://s2.51cto.com/images/blog/202310/09011555_6522e3cb6277910514.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk="
wget.download(url,'image.jpeg')

下载PDF文件

import wget
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"
wget.download(url,'pdf1.pdf')

python爬虫怎么找pdf下载路径爬虫下载pdf文件_python爬虫怎么找pdf下载路径_04

3.使用urllib3下载文件

下载图片

import urllib
url = "https://s2.51cto.com/images/blog/202310/09011555_6522e3cb6277910514.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk="
urllib.request.urlretrieve(url, 'img1.jpeg')

下载PDF文件

import urllib
url = "https://pdf.dfcfw.com/pdf/H2_AN202302051582783380_1.pdf?1675614279000.pdf"
urllib.request.urlretrieve(url, 'img1.jpeg')

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：falcon架构 fabric技术架构

下一篇：python模拟高考志愿投档 python进高考

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯