办公利器！用Python批量识别发票并录入到Excel表格-低调大师

办公利器！用Python批量识别发票并录入到Excel表格

2021-06-29 1194

辰哥今天来分享一篇办公干货文章：**用Python批量识别发票并录入到Excel表格**。对于**财务专业**等学生或者**公司财务**人员来说，将报账发票等汇总到excel简直就是一个**折磨**。尤其是到**年底**的时候，公司的财务人员面对一大堆的发票简直就是**苦不堪言**。正好我们学会了Python，我们应该将Python的优势发挥起来。$# # 01.场景描述这里有以四张发票为例（辰哥网上搜的），将发票图片放到pic文件夹下。 ![](https://img-blog.csdnimg.cn/img_convert/255b3896077d650c79dc28d31f7c463d.png) 随便打开一张发票 ![](https://img-blog.csdnimg.cn/img_convert/4de536970979c6726ac5723a857db1bb.png) 提取目标：**金额**、**名称**、**纳税人识别号**、**开票人**。 ![](https://img-blog.csdnimg.cn/img_convert/efafbeecf8e69701bc2f80624d82edcf.png) 最后将每一张发票的这四个内容保存到excel中： ![](https://img-blog.csdnimg.cn/img_convert/ca2adf9314cd633183ccf762966b2228.png) # 02.准备环境需要用到的库如下： ```python from PIL import Image as PI import pyocr import pyocr.builders from cnocr import CnOcr ``` 安装的命令如下： ```python pip install pyocr pip install cnocr ``` 发票中含有中文内容，我们需要对图片中的中文进行识别，那么 cnocr 是一个不错的选择。 **提示**：安装好上面的库之外，还需要安装额外的exe文件，不然会出现下面这种错误 ![](https://img-blog.csdnimg.cn/img_convert/6798095d3b1ba69f0902fb18c8ba2b48.png) 需要安装的exe文件： #### 1. ImageMagick #### 2. tesseract-OCR 这两个软件的安装过程就不再赘述了，大家可以自行搜索教程进行安装。 # 03.提取内容下面以其中一张图片为例，讲解如何提取目标内容：**金额**、**名称**、**纳税人识别号**、**开票人**。 ![](https://img-blog.csdnimg.cn/img_convert/e97440a0f26ae9a03f20995f37be43a7.png) 读取图片：**pic/pic1.jpg** ```python tool = pyocr.get_available_tools()[0] img_url = "pic/pic1.jpg" with open(img_url, 'rb') as f: a = f.read() new_img = PI.open(io.BytesIO(a)) ``` ### 1.提取金额需要截取到发票中**金额**的位置 ```python ## 金额 left = 741 top = 420 right = 850 bottom = 445 image_text1 = new_img.crop((left, top, right, bottom)) #展示图片 image_text1.show() ``` 这里的left、top、right、bottom的数值是通过**多次修改定位而来**。大家根据自己的发票内容去定位即可。 ![](https://img-blog.csdnimg.cn/img_convert/42d91d19ffa105cb91ce1c90a204a248.png) 接着将**图片中的数字提取出来** ![](https://img-blog.csdnimg.cn/img_convert/be45e5041d427d3cff2ec075e013d885.png) 同样的，下面继续提取：**名称** ### 2.提取名称 ```python left = 155 top = 450 right = 450 bottom = 470 image_obj2 = new_img.crop((left, top, right, bottom)) image_obj2.show() ``` ![](https://img-blog.csdnimg.cn/img_convert/583079eb502f76a17989a44ae63c54bf.png) 这里的名称是中文的，咱们不能再像提取金额（**数字**）操作。需要使用到cnocr去将图片中的中文取出。 ```python image_obj2.save("tmp.jpg") ocr = CnOcr() res = ocr.ocr("tmp.jpg") print("".join(res[0])) ``` ![](https://img-blog.csdnimg.cn/img_convert/3e7859ed55e5b3066547f4de69e250f5.png) ### 3.提取纳税人识别号 ```python #纳税人识别号 left = 155 top = 470 right = 450 bottom = 490 image_text3 = new_img.crop((left, top, right, bottom)) #展示图片 image_text3.show() ``` ![](https://img-blog.csdnimg.cn/img_convert/3d6622c3cbe8c0dc2b2e739e5eea18a5.png) ```python txt3 = tool.image_to_string(image_text3) print(txt3) ``` 将图片中的纳税人识别号提取出来，结果如下： ![](https://img-blog.csdnimg.cn/img_convert/812cc9821533f34933b8f5f6ad84cf79.png) ### 4.提取开票人 ```python left = 528 top = 550 right = 670 bottom = 600 image_obj4 = new_img.crop((left, top, right, bottom)) image_obj4.show() ``` ![](https://img-blog.csdnimg.cn/img_convert/a8cff1f3a479f8522d6b4e545d87c6f8.png) ```python image_obj4.save("tmp.jpg") ocr = CnOcr() res = ocr.ocr("tmp.jpg") print("".join(res[0])) ``` 由于有中文，咱们这里同样和提取**名称**一样，使用cnocr将图片中的中文取出。 ![](https://img-blog.csdnimg.cn/img_convert/04710e8e3863635c0cebb82aac0300e1.png) ok这样我们就将发票中的四个目标内容提取出来，接着将**文件夹pic**下的所有发票，进行识别将内容保存到excel。 # 04.批量识别发票并保存到excel 在读取图片之前，先将上面的四个操作封装成函数，方便每一种发票对象进行调用。 ![](https://img-blog.csdnimg.cn/img_convert/00b9ea7ddd36e7cc2bf74eeef04e6a12.png) 读取文件夹下的所有图片。 ```python filePath = 'pic' pic_name = [] for i,j,name in os.walk(filePath): pic_name = name for i in pic_name: print(i) ``` ![](https://img-blog.csdnimg.cn/img_convert/48a2c675ad65b196ede82eec2366bbc0.png) 开始进行识别，并将结果写入到excel中。 ```python for i in pic_name: img_url = filePath+"/"+i with open(img_url, 'rb') as f: a = f.read() new_img = PI.open(io.BytesIO(a)) ## 写入csv outws.cell(row=count, column=1, value=text2(new_img)) outws.cell(row=count, column=2, value=text3(new_img)) outws.cell(row=count, column=3, value=text1(new_img)) outws.cell(row=count, column=4, value=text4(new_img)) count = count + 1 outwb.save("发票汇总-李运辰.xls") # 保存结果 ``` 最后保存为：发票汇总-李运辰.xls，其结果如下： ![](https://img-blog.csdnimg.cn/img_convert/9d7646a9dab35514b94a24c832060b96.png) # 05.发票验证真伪在辰哥的交流群里，和小伙伴聊到这个内容时，小伙伴建议可以加一个功能：**发票验证真伪**。 ![](https://img-blog.csdnimg.cn/img_convert/c53fa87c47132e8f88e8a1f087368c85.png) 所有在上面的开始识别之前（自己公司的发票可能不需要查验这步），先调用一下第三方的接口，对发票进行识别，识别通过之后再将其提取发票中目标内容。 ### 1.申请百度AI应用 ![](https://img-blog.csdnimg.cn/img_convert/00db50394942a052c738ea21cc12dc33.png) ### 2.获取token ```python # client_id 为官网获取的AK， client_secret 为官网获取的SK host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】' response = requests.get(host) if response: print(response.json()['access_token'] ``` 这里的client\_id 为官网获取的AK， client\_secret 为官网获取的SK，是上面申请好应用即可获取 ### 3.查验 ![](https://img-blog.csdnimg.cn/img_convert/2811d37cbd78cd47df83af179f2b1362.png) 咱以这张图片为例，进行查验 ![](https://img-blog.csdnimg.cn/img_convert/b8c0c0d708702fd8e5668cefea136a5b.png) 其中的发票类型对应如下： ![](https://img-blog.csdnimg.cn/img_convert/1e17a4122840c543ac9a1cef72e7697c.png) 结果如下： ![](https://img-blog.csdnimg.cn/img_convert/aed5a3a1982043e5dbb2f595fd706b95.png) 感觉这个结果查询不是很好（不详细）。下面还可以去**税务局**查询 ### 4.税务局查询发票 ![](https://img-blog.csdnimg.cn/img_convert/611442867475c793bb38dbb8a85ae2fb.png) 同样以这张图片为例，进行查验 ![](https://img-blog.csdnimg.cn/img_convert/84aa0f8c849205e43a5d09c302f71d38.png) 填写好信息点击查验，结果如下： ![](https://img-blog.csdnimg.cn/img_convert/7f46688e1fca56c40c6390f4057d8001.png) 再税务局查验更加清晰。读者可以根据自己的情况去选择自己的方式去查验。 # 06.小结本文基本就成功实现目标要求，从效果来看还是非常不错的！完整源码可由文中代码组合而成（已全部分享在文中），感兴趣的读者可以自己尝试！一定要**动手尝试****！**一定要**动手尝试****！**一定要**动手尝试！** 最后想说的是，其实本文的案例可以**应用再其他方面**，例如 - **批量计算发票金额汇总** - **根据发票类型批量分类** - **........**

微信关注我们

原文链接：https://blog.51cto.com/u_11949039/2945493

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

升级需要多久?Windows 11现显示设备安装更新预估时间

在今天发布的 Windows 11 首个预览版更新中，微软对 Windows Update 功能进行了升级，能够让用户知道重启设备以安装更新需要离线多长时间。换句话说，每当你的设备收到新的更新，那么 Windows 11 将会显示完成安装更新所需要的预估时间。该时间会出现在 Windows Update 页面以及开始菜单的电源选项菜单中。正如你在上面截图中所看到的，预估时间会显示在相关的电源选项旁边。至于估计时间值到底有多准确，这很难说，尽管我相信这些数字是基于系统的实际性能。然而，在我的情况下，更新安装在不到一分钟内完成，而 Windows 11 估计整个事情需要 5 分钟才能结束。最有可能的是，微软将在未来的 Windows 11 预览版中进一步完善这一功能，所以当新的操作系统准备推出到生产设备时，一切都应该在整体上更可靠一点。该公司解释说：“我们提供的是为更新而重启需要多长时间的估计。当你的电脑因质量更新而等待重启时，你将能够在开始下的电源菜单、重启通知、Windows Update设置页面和显示在任务栏右下方的Windows Update图标内看到估计时间。这项功能一开始...

2021-06-29

538

**痛点：** 相信大家都会遇到一种**场景**。老师/上司要求你把**某个文件转为pdf**，并且是一批（不止一个，一个的话手动就可以搞定），并且这种是枯燥无聊的工作，既没有什么技术含量又累。试想一下，如果我把这些文件**放到一个文件夹下，执行一下程序**，几分钟后这些文件就转好。这样半天的活，只要**花几分钟就解决**了。岂不是美滋滋！！！今天辰哥就教大家将任意文件批量转为PDF，这里以日常办公的**word**、**excel**、**ppt**为例，这三种格式的文件转为PDF。 # 01、word转PDF 这里借助Python的docx2pdf去完成转换操作，该库的安装命令如下： ```python pip install docx2pdf ``` **目标**：读取文件夹下的全部word文件，然后进行转换，最后保存到对应的文件夹中。 ![](https://oscimg.oschina.net/oscnet/up-aaad299d732187c30ab9bb969ad8b663c9e.png) 这里辰哥新建两个word文件作为演示，打开其中一个word看看 ![](htt...

2021-06-29

678

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。