不知道你有没有这样的场景,在网页上看到一篇很好的文章,你就很想把它保存下来,并对其中重要的内容进行高亮标记。
这样的工具有很多,像「印象笔记」就可以“剪藏”网页内容到笔记中。
不过,「印象笔记」的存储空间是有限的,普通用户为60MB/月,如果保存的内容图片很多的话,能够保存的文章很有限。
这时,我们可以选择Python的第三方库pdfkit,这个模块可以将网页、html文件以及字符串生成pdf文件。
把我们想要的网页保存到本地PDF文件,再结合PDF神器(Adobe Acrobat Pro DC)高亮标记文章的重点内容,很舒服~
下面介绍一下使用pdfkit保存网页、html文件为pdf文件的具体过程。
1、使用pip安装pdfkit库
pip install pdfkit
2、安装wkhtmltopdf.exe文件
pdfkit是基于wkhtmltopdf的python封装,需要安装wkhtmltopdf.exe。wkhtmltopdf是轻量级软件,非常很容易安装。
下载地址:
https://wkhtmltopdf.org/downloads.html
下载后,保存到了如下图的目录下,这个目录可以自己选择。
将安装目录下的bin添加到环境变量的path中。
环境变量配置在Windows上的步骤依次为:右键“此电脑”->属性->高级系统设置->环境变量->系统变量->Path
以我的为例:
D:\Anaconda\wk\wkhtmltopdf\bin\
至此,完成了工具的准备及配置部分,接下来,可以上代码了。
3、使用pdfkit库生成pdf文件
网页生成pdf:pdfkit.from_url()
html文件生成pdf:pdfkit.from_file()
字符串生成pdf:pdfkit.from_string()
其中,第一个参数为准备保存的链接地址或者html文件,第二个参数为保存的文件路径。
# 导入库
import pdfkit
# 这里传入我知乎专栏文章url,转换为pdf
pdfkit.from_url(r'https://zhuanlan.zhihu.com/p/90004310', 'tianzuo.pdf')
pdfkit.from_file('wenzhang.html','tianzuo1.pdf')
pdfkit.from_string('Hello Pdf!','tianzuo2.pdf')
以我的知乎文章为例,保存后的效果如下图所示,这样就可以高亮文章内容,并反复查看文章的重点了。
文中提到的PDF高亮神器,有需要的朋友可以留个言哈,或者你有啥好用的PDF工具分享给我呗~