关于从PDF文件中提取表格

山神 · 发表于 2022-10-3 18:38:04

增值税申报完毕后税局会提供电子版的申报表想从表格里面准确的提取表格信息来研究了pdfplumber 发现很奇怪的一个现象

以增值税纳税申报表（一般纳税人适用）为例，江阴税务局的申报表导出后如果直接用
tables = new_page.extract_table() 返回NONE 没有识别到表格
为了准确的识别表体的内容，我定位了申报表的表体，通过text进行分列，得到了结果
words = page.extract_words()
for word in words:
if '（一）按适用税率计税销售额' in word['text']:
      x0 = word['x0']
      top = word['top']
for word in words:
if '地方教育附加本期应补（退）' in word['text']:
      bottom = word['bottom']
new_page = page.within_bbox((x0, top, x1, bottom))
tables = new_page.extract_table(table_settings={
"vertical_strategy": "text",
"horizontal_strategy": "text",
})

但是问题是，结果表的列数不对，多了3列空值，感觉是图中3个居中的文字引起的（奇怪的是明明这部分不在(x0, top, x1, bottom)的范围内)

完整代码及文件已上传，请大神帮忙看看。

		自动登录	找回密码
密码			立即注册

[求助] 关于从PDF文件中提取表格