python实现网页局部截图 python 网站截图_Powered by 金山文档


2017年,Chrome发布了无头(无GUI)功能,能够从指定的视口截取单个网页的屏幕截图。这有助于保留存档以进行版本比较、监视和面向客户端的可交付成果。因为它是一个无头功能,所以非常适合与Python一起使用。在短短几行中,我们将运行无头Chrome,截取屏幕截图,对其进行优化,然后我们准备对其进行其他操作。它有助于检测更改和寻找性能机会。让我们开始吧!

要求和假设

  • 已安装 Python 3 并理解基本的 Python 语法
  • 访问 Linux 安装(我推荐 Ubuntu)
  • 已安装的浏览器

启动脚本

首先,让我们导入优化图像(命令行)模块,将屏幕截图压缩到优化的 PNG 文件中。

pip3 install optimize-images

接下来,我们导入所需的模块。在核心 Python 之外,我们只需要时间、日期时间和操作系统模块来运行优化图像模块。请记住,它是一个命令行模块,因此我们需要将其作为可执行文件运行。

import os
from datetime import datetime
import time

让我们设置一些我们需要的变量。创建屏幕截图文件名时将使用 name 变量。将 name 变量重新分配给您的网站名称,不要有空格。将 URL 重新分配给要截取屏幕截图的页面的地址。

name = "importsem"
url = "https://importsem.com"
getdate = datetime.now().strftime("%m-%d-%y")

截取屏幕截图

现在我们可以继续使用 os 模块在无头模式下运行 Chrome,隐藏滚动条以获得更好的图像,并设置窗口大小。窗口大小是您必须根据您的布局进行调整的东西。请务必交换屏幕截图目标路径。我们将使用 15 秒的延迟来确保文件已准备就绪,然后再继续。因此,我们可以将原始大小与优化大小进行比较,我们将使用 os.stat() 函数来获取文件大小。

try:
 stream = os.popen("chromium-browser --headless --hide-scrollbars --screenshot='/PATH_TO_DESTINATION/" + name + "_org_" + getdate + ".png' --window-size=1920,1200 " + url)
 time.sleep(15)
 org_png = os.stat('/PATH_TO_DESTINATION/" + name + "_org_" + getdate + ".png').st_size

优化截图图片

现在我们有了屏幕截图PNG,我们应该对其进行优化以节省一些文件大小。我们将使用优化图像模块。在文档中,您可以使用一些配置来获得更好的压缩。我只是将它们保留为默认值。我通常保存大约 10-15% 的文件大小。再次确保更改代码中的目标路径。我们将使用 20 秒的延迟来确保文件已准备就绪,然后再继续。

stream = os.popen("optimize-images /PATH_TO_DESTINATION/" + name + "_op_" + getdate + ".png") 
 time.sleep(20)
 op_png = os.stat('/PATH_TO_DESTINATION/" + name + "_op_" + getdate + ".png').st_size

现在我们关闭尝试/除非捕获任何错误。

except:
 print("Screenshot failed")

比较两个图像

最后,让我们比较文件大小并报告压缩节省的字节数。首先,我们检查图像是否存在于我们期望的位置。然后我们打印出每个图像尺寸并计算差异。

if os.path.isfile() == true and os.path.isfile() == true:
 print("Original Image: " + org_png)
 print("Optimized Image" + op_png)
 print("Saved: " + org_png-op_png)
else:
 print("One of the files doesn't exist")