用OpenCV先去除边框线,以提升OCR准确率

在OpenCV的魔力下,我们如魔法师般巧妙地抹去表格的边框线,让文字如诗如画地跃然纸上。

e0c56a8fac7db8922a2521759981dde8.jpeg 首先,我们挥动魔杖,将五彩斑斓的图像转化为单一的灰度世界,如同将一幅绚丽的油画化为水墨画,通过`cv2.cvtColor()`函数的施展,我们实现了这一华丽的转变。


接着,我们施展边缘检测的法术,运用Canny边缘检测算法,如同在黑夜中点亮的繁星,清晰地勾勒出表格的边界,让我们一览无余地看到其轮廓。

然后,我们借助`cv2.findContours()`函数,探寻这些边缘背后的神秘轮廓,它们如同地图上的隐秘路线,引导我们深入未知的境地。

在这迷宫般的轮廓中,我们寻觅着真正的主角——表格的边框。这是一场人海中的寻觅,我们凭借面积、宽高比等线索,筛选出心中的目标。

随后,我们在原始图像上细细描绘这些筛选后的轮廓,如同在绘画一幅精美的图案,`cv2.drawContours()`函数如同我们的画笔,轻轻描绘,让轮廓在图像上跃然而出。

接着,我们用纯净的白色填充这些轮廓区域,如同用雪花覆盖大地,将那些烦人的表格线一一抹去,让图像呈现出清新脱俗的美感。

最后,我们将这处理过的图像交给Tesseract这位识画之人,让它为我们解读其中的文字奥秘。如同将一幅被迷雾笼罩的画卷交给识画之人,让真相大白于天下。

以下是这段美妙过程的代码诠释:


```python
import cv2
import numpy as np

# 读取图像,如同打开一幅尘封已久的画卷
image = cv2.imread('table_image.jpg')

# 将图像转化为灰度,如同将油画转化为水墨画
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 施展边缘检测的法术,寻找图像中的边缘
edges = cv2.Canny(gray, 50, 150, apertureSize=3)

# 寻找边缘背后的轮廓,如同探寻地图上的路线
contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

# 在原始图像上描绘筛选后的轮廓,如同在绘画一幅精美的图案
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
cv2.rectangle(image, (x, y), (x + w, y + h), (255, 255, 255), -1)

# 保存处理后的图像,如同将一幅精美的画作妥善保存
cv2.imwrite('processed_image.jpg', image)

# 在这里,你可以添加Tesseract识别的代码
# 将处理过的图像交给Tesseract解读,如同将画卷交给识画之人
```
如此,我们便在OpenCV的引领下,如同魔法师般成功地抹去了表格中的边框线,让文字如诗如画地呈现在我们的眼前。

最后,用OCR接口,建议用金鸣表格文字识别系统,它是一款基于AI和OCR的表格文字识别软件,既可以将PDF直接转为word/excel,也可以通过OCR方案将PDF中的图片转为word/excel,她主要有以下优势:
一、采用超前AI技术,经深度学习,识别率高。
金鸣识别系统采用超前AI技术,程序经深度学习,识别精准,能有效解决传统文字识别软件对复杂图片的文字识别率低、效果差等弊端。
二、效果好,还原排版,识别后编辑内容少。
金鸣识别除了支持通用的文字识别和表格识别外,还支持高精结构还原、智能分段、保留印章和商标LOGO,同时支持近百种票据和证件结构化识别,功能强大,种类齐全丰富,基本上能满足各种不同需求的人群。
三、多人共用,多端通用,使用方便。
金鸣识别同时具备电脑网页版、客户端和移动端的APP、小程序,一个账户可通用各种不同的设备,既支持直接用扫描仪扫描识别,也支持用手机直接拍照识别,同时支持直接添加已有的图片或PDF进行识别,使用方便快捷。
四、支持大批量合并
支持上百张图片合并转到一个excel表中,或一个word文档里,word文档还支持分页合并和连续合并。这样可大大提高工作效率。
五、支持API接口
对于有编程技术的用户,我们提供了API接口,可以直接返回excel或json,以供您集成到自有的程序中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/583874.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

主机ping不通虚拟机/虚拟机ping不通主机/xhell连接不了虚拟机/win10或win11系统升级导致无法连接到虚拟机

解决方案 重置网卡 找虚拟机ip,第二个inet对应的就是虚拟机ip地址 xshell连接 参考: 主机ping不通虚拟机

认识认识DHCP

文章目录 认识认识DHCP一、什么是DHCP?1.1、为什么要使用DHCP?1.2、DHCP是怎么工作的?1.2.1、客户端首次接入网络的工作原理1.2.2、客户端重用曾经使用过的地址的工作原理1.2.3、客户端更新租期的工作原理 二、配置DHCP Server,为…

电子式汽车机油压力传感器的接线方法及特点

电子式机油压力传感器由厚膜压力传感器芯片、信号处理电路、外壳、固定电路板装置和两根引线(信号线和报警线)组成。信号处理电路由电源电路、传感器补偿电路、调零电路、电压放大电路、电流放大电路、滤波电路和报警电路组成。 厚膜压力传感器是20世纪…

【UE5】动态播放媒体

最近项目中有一个需求,需要将场景中的42块屏幕都显示媒体内容,想着如果每一块屏幕都创建一个MediaPlayer资产、一个MediaSource资产、一个MediaTexture资产及创建对应的Material,就是4*42168个资产需要维护了,所以想着就全部采用动…

如何看待Agent AI智能体的未来

Agent AI智能体的未来 Agent AI智能体,也称为自主代理或智能代理,是指能够自主执行任务、与环境交互并作出决策的计算机程序或系统。这些智能体通常具备学习、适应和推理的能力,能够在复杂和不确定的环境中执行任务。随着技术的进步&#xf…

【OC和红移的双面材质】

OC和红移的双面材质 2021-12-23 18:36 rs oc 评论(0)

TiDB 利用binlog 恢复-反解析binlog

我们知道TiDB的binlog记录了所有已经执行成功的dml语句,类似mysql binlog row模式 ,TiDB官方也提供了reparo可以进行解析binlog,如下所示: [2024/04/26 20:58:02.136 08:00] [INFO] [config.go:153] ["Parsed start TSO"] [ts449…

Linux网络抓包工具tcpdump是如何实现抓包的,在哪个位置抓包的?

Linux网络抓包工具tcpdump是如何实现抓包的,在哪个位置抓包的? 1. tcpdump抓包架构2. BPF介绍3. 从内核层面看tcpdump抓包流程3.1. 创建socket套接字3.2. 挂载BPF程序 4. 网络收包抓取5. 网络发包抓取6. 疑问和思考6.1 tcpdump抓包跟网卡、内核之间的顺序…

golang beego结合wire依赖注入及自动路由

1 安装wire 1.1 通过命令直接安装 go install github.com/google/wire/cmd/wirelatest 1.2 通过go get方式安装 go get github.com/google/wire/cmd/wire进入目录编译 cd C:\Users\leell\go\pkg\mod\github.com\google\wirev0.6.0\cmd\wire go build 然后将wire.exe移动到…

C++中list的使用

文章目录 一、 list简介二、 构造函数1. 默认构造函数2. 拷贝构造3. 迭代器区间初始化4. 插入n个值为x的数据5. 代码示例 三、 容量和元素访问1. empty()2. size()3. max_size()3. back()4. front()5. 代码示例 四、 增删查改1. push_back()2. push_front()3. emplace_back()4.…

设计模式之装饰者模式DecoratorPattern(四)

一、模板模式介绍 模板方法模式(Template Method Pattern),又叫模板模式(Template Pattern), 在一个抽象类公开定义了执行它的方法的模板。它的子类可以更需要重写方法实现,但可以成为典型类中…

d16(149-153)-勇敢开始Java,咖啡拯救人生

跳过了p151 四小时的讲题我不敢听:) Stream Stream流,是JDK8后新增的API,可以用于操作集合或者数组的数据 优势:大量结合了Lambda的语法风格,该方式更强大更简单,代码简洁,可读性好 常用方法 …

Mycat(三)读写分离双主双从

文章目录 搭建双主双从双主机配置双从机配置双从配置两个主机互相复制停止从服务复制功能重新配置主从 修改 Mycat 的集群配置实现多种主从双主双从集群角色划分增加两个数据源修改集群配置文件读写分离配置扩展(1)读写分离(一主一从,无备)(m是主,s是从)…

Grafana页面嵌入自建Web应用页面

目录 一、应用场景 二、实现方式 1、修改Grafana配置文件 2、获取监控页面url 3、隐藏左侧和顶部菜单 一、应用场景 需要将Grafana监控页面嵌入自建Web应用页面,使Grafana监控页面成为自建Web应用的一部分。 二、实现方式 总体思路:修改Grafana配…

刷机维修进阶教程-----红米note7 修复基带 更改参数 nv损坏故障 实例步骤操作解析

在前面的博文中我有说过。不管刷更改参数还是修复基带,尽可能的情况下备份一些主要分区,上期讲了小米6x 小米5 小米6这些机型更改参数的具体步骤。今天的教程以红米note7为例解析下改参数和修复nv损坏的具体步骤,两者操作实际没有什么冲突。有兴趣的友友建议多看下我关于…

10G MAC层设计系列-(2)MAC RX模块

一、概述 MAC RX模块的需要进行解码、对齐、CRC校验。 因为在空闲的时候10G PCS/PMA会一直向外吐空闲符(x07)所以需要根据开始符、结束符将有效数据从码流中截取,也就是解码。 因为开始字符的所在位置有两种形式,而结束字符的位…

大数据学习笔记14-Hive基础2

一、数据字段类型 数据类型 :LanguageManual Types - Apache Hive - Apache Software Foundation 基本数据类型 数值相关类型 整数 tinyint smallint int bigint 小数 float double decimal 精度最高 日期类型 date 日期 timestamps 日期时间 字符串类型 s…

UE C++ 链表

目录 概要单链表双向链表头插入尾插入中间插入删除查找 小结 概要 链表 简单说明,链表有单链表,双向链表,循环链表(本篇文章以UE c代码说明)。链表的操作,插入,删除,查找。插入,删除效率高&…

练习题(2024/4/29)

在深度优先遍历中:有三个顺序,前中后序遍历 这里前中后,其实指的就是中间节点的遍历顺序,只要记住 前中后序指的就是中间节点的位置就可以了。 如图 1二叉树的前序遍历 给你二叉树的根节点 root ,返回它节点值的 前…

【项目】仿muduo库One Thread One Loop式主从Reactor模型实现高并发服务器(Http测试板块)

【项目】仿muduo库One Thread One Loop式主从Reactor模型实现高并发服务器(Http测试板块) 一、使用Http网页界面1、main.cc原码和index.html原码2、运行结果(1)测试结果1:用index.html内部的代码(2&#xf…