找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 3125|回复: 2

[求助] Python与pdfplumber读取电子发票问题

1

主题

2

帖子

2

积分

贫民

积分
2
safin 发表于 2020-7-30 18:21:38 | 显示全部楼层 |阅读模式
老师有问题 想请教一下:就是用Python 与pdfplumber模块读取电子发票时,有些发票数据读不出来, 但是如果是别的PDF 竟然可以完全识别,这是什么情况
# -*- coding: UTF-8 -*-
import os
import re
import pdfplumber as pdf
filename="fapiao001.pdf"
file=pdf.open(filename)
for page in file.pages:   
    print("+"*25)
    text=page.extract_text()
    print(text)
    print("+"*25)        
    words=page.extract_words()  
    print(words)
    print("+"*25)
    for tb in page.extract_table():
        print(tb)


回复

使用道具 举报

0

主题

956

帖子

956

积分

圣骑士

积分
956
sheeboard 发表于 2020-8-4 08:39:27 | 显示全部楼层
可能因为是图片,所以处理不了,需要ocr。
回复 支持 反对

使用道具 举报

1

主题

2

帖子

2

积分

贫民

积分
2
safin  楼主| 发表于 2020-8-11 12:37:34 | 显示全部楼层
sheeboard 发表于 2020-8-4 08:39
可能因为是图片,所以处理不了,需要ocr。

中石油的发票只能识别一部分数据,可以把日期与金额、加密码还有税号识别出来,但是 发票号码 代码 企业名称 等发票信息识别不了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表