|
增值税申报完毕后税局会提供电子版的申报表 想从表格里面准确的提取表格信息来 研究了pdfplumber 发现很奇怪的一个现象
以增值税纳税申报表(一般纳税人适用)为例,江阴税务局的申报表导出后如果直接用
tables = new_page.extract_table() 返回NONE 没有识别到表格
为了准确的识别表体的内容,我定位了申报表的表体,通过text进行分列,得到了结果
words = page.extract_words()
for word in words:
if '(一)按适用税率计税销售额' in word['text']:
x0 = word['x0']
top = word['top']
for word in words:
if '地方教育附加本期应补(退)' in word['text']:
bottom = word['bottom']
new_page = page.within_bbox((x0, top, x1, bottom))
tables = new_page.extract_table(table_settings={
"vertical_strategy": "text",
"horizontal_strategy": "text",
})
但是问题是,结果表的列数不对,多了3列空值,感觉是图中3个居中的文字引起的(奇怪的是明明这部分不在(x0, top, x1, bottom)的范围内)
完整代码及文件已上传,请大神帮忙看看。
|
-
-
代码.txt
572 Bytes, 下载次数: 5
代码
-
-
A.pdf
69.65 KB, 下载次数: 7
附件
|