找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 752|回复: 0

[求助] 关于从PDF文件中提取表格

1

主题

1

帖子

1

积分

贫民

积分
1
山神 发表于 2022-10-3 18:38:04 | 显示全部楼层 |阅读模式
增值税申报完毕后税局会提供电子版的申报表 想从表格里面准确的提取表格信息来 研究了pdfplumber 发现很奇怪的一个现象

以增值税纳税申报表(一般纳税人适用)为例,江阴税务局的申报表导出后如果直接用
tables = new_page.extract_table() 返回NONE 没有识别到表格
为了准确的识别表体的内容,我定位了申报表的表体,通过text进行分列,得到了结果
words = page.extract_words()
for word in words:
    if '(一)按适用税率计税销售额' in word['text']:
        x0 = word['x0']
        top = word['top']
for word in words:
    if '地方教育附加本期应补(退)' in word['text']:
        bottom = word['bottom']
new_page = page.within_bbox((x0, top, x1, bottom))
tables = new_page.extract_table(table_settings={
    "vertical_strategy": "text",
    "horizontal_strategy": "text",
})

但是问题是,结果表的列数不对,多了3列空值,感觉是图中3个居中的文字引起的(奇怪的是明明这部分不在(x0, top, x1, bottom)的范围内)

完整代码及文件已上传,请大神帮忙看看。

代码.txt

572 Bytes, 下载次数: 5

代码

A.pdf

69.65 KB, 下载次数: 7

附件

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表