python 解析 pdf 带坐标 python pdf解析库

转载

技术博客达人 2024-07-25 07:43:26

文章标签 python 解析 pdf 带坐标 python读取pdf表格 python java 数据 文章分类 Python 后端开发

pdf 是个异常坑爹的东西，有很多处理 pdf 的库，但是没有完美的。

一、pdfminer3k

pdfminer3k 是 pdfminer 的 python3 版本，主要用于读取 pdf 中的文本。

网上有很多 pdfminer3k 的代码示例，看过以后，只想吐槽一下，太复杂了，有违 python 的简洁。

from pdfminer.pdfparser importPDFParser, PDFDocumentfrom pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreterfrom pdfminer.converter importPDFPageAggregatorfrom pdfminer.layout importLAParams, LTTextBoxfrom pdfminer.pdfinterp importPDFTextExtractionNotAllowed

path= "test.pdf"

#用文件对象来创建一个pdf文档分析器

praser = PDFParser(open(path, 'rb'))#创建一个PDF文档

doc =PDFDocument()#连接分析器与文档对象

praser.set_document(doc)

doc.set_parser(praser)#提供初始化密码#如果没有密码就创建一个空的字符串

doc.initialize()#检测文档是否提供txt转换，不提供就忽略

if notdoc.is_extractable:raisePDFTextExtractionNotAllowedelse:#创建PDf 资源管理器来管理共享资源

rsrcmgr =PDFResourceManager()#创建一个PDF设备对象

laparams =LAParams()

device= PDFPageAggregator(rsrcmgr, laparams=laparams)#创建一个PDF解释器对象

interpreter =PDFPageInterpreter(rsrcmgr, device)#循环遍历列表，每次处理一个page的内容

for page indoc.get_pages():

interpreter.process_page(page)#接受该页面的LTPage对象

layout =device.get_result()#这里layout是一个LTPage对象，里面存放着这个 page 解析出的各种对象

#包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等

for x inlayout:ifisinstance(x, LTTextBox):print(x.get_text().strip())

pdfminer 对于表格的处理非常的不友好，能提取出文字，但是没有格式：

pdf表格截图：

python 解析 pdf 带坐标 python pdf解析库_python读取pdf表格

代码运行结果：

python 解析 pdf 带坐标 python pdf解析库_java_02

想把这个结果还原成表格可不容易，加的规则太多必然导致通用性的下降。

二、tabula-py

tabula 是专门用来提取PDF表格数据的，同时支持PDF导出为CSV、Excel格式，但是这工具是用 java 写的，依赖 java7/8。tabula-py 就是对它做了一层 python 的封装，所以也依赖 java7/8。

代码很简单：

importtabula

path= 'test.pdf'df= tabula.read_pdf(path, encoding='gbk', pages='all')for indexs indf.index:print(df.loc[indexs].values)#tabula.convert_into(path, os.path.splitext(path)[0]+'.csv', pages='all')

虽然号称是专业处理 pdf 中的表格的，但实际效果也不咋地。还是 pdfminer 中使用的 pdf，运行结果如下：

python 解析 pdf 带坐标 python pdf解析库_python_03

这结果真的很尴尬啊，表头识别就错了，还有 pdf 中有两张表，我没发现怎么区分表。

三、pdfplumber

pdfplumber 是按页来处理 pdf 的，可以获得页面的所有文字，并且提供的单独的方法用于提取表格。

importpdfplumber
path= 'test.pdf'pdf=pdfplumber.open(path)for page inpdf.pages:#获取当前页面的全部文本信息，包括表格中的文字
#print(page.extract_text())
for table inpage.extract_tables():#print(table)
for row intable:print(row)print('---------- 分割线 ----------')
pdf.close()

得到的 table 是个 string 类型的二维数组，这里为了跟 tabula 比较，按行输出显示。

python 解析 pdf 带坐标 python pdf解析库_python 解析 pdf 带坐标_04

可以看到，跟 tabula 相比，首先是可以区分表格，其次，准确率也提高了很多，表头的识别完全正确。对于表格中有换行的，识别还不是很正确，但至少列的划分没问题，所以还是能处理的。

importpdfplumberimportre
path= 'test1.pdf'pdf=pdfplumber.open(path)for page inpdf.pages:print(page.extract_text())for pdf_table inpage.extract_tables():
table=[]
cells=[]for row inpdf_table:if notany(row):#如果一行全为空，则视为一条记录结束
ifany(cells):
table.append(cells)
cells=[]elifall(row):#如果一行全不为空，则本条为新行，上一条结束
ifany(cells):
table.append(cells)
cells=[]
table.append(row)else:if len(cells) ==0:
cells=rowelse:for i inrange(len(row)):if row[i] is notNone:
cells[i]= row[i] if cells[i] is None else cells[i] +row[i]for row intable:print([re.sub('\s+', '', cell) if cell is not None else None for cell inrow])print('---------- 分割线 ----------')
pdf.close()

经过处理后，运行得到结果：

python 解析 pdf 带坐标 python pdf解析库_python_05