使用paddleocr实现图片文字智能提取

1 OCR介绍

OCR(Optical Character Recognition)即光学字符识别,是一种将不同类型的文档(如扫描的纸质文件、PDF文件或图像文件中的文本)转换成可编辑和可搜索的数据的技术。OCR技术能够识别和转换印刷或手写文字,广泛应用于数据录入、文档数字化和自动化处理领域。

OCR技术已经成为数字化时代不可或缺的一部分,它极大地方便了文本的转换和处理,为各个行业的数字化转型做出了贡献。随着技术的不断进步,OCR的应用范围将进一步拓宽,为更多领域带来便利和效率的提升。

1.1 基本原理

OCR技术通常涉及以下几个步骤:

  • 图像获取:首先获取文档的图像,这可以通过扫描纸质文档或拍摄图片来实现。

  • 预处理:对图像进行预处理,以提高识别的准确性。这包括去噪、调整对比度、校正扭曲、二值化等。

  • 文本检测与分割:在预处理后的图像中检测文本区域,并将其分割为行、单词或字符。

  • 字符识别:利用模式识别技术,识别分割出的字符或单词。

  • 后处理:将识别结果进行校正和格式化,例如修正拼写错误、保持文本的结构和格式等。

1.2 技术发展

  • 早期技术:早期的OCR系统依赖于简单的模板匹配技术,只能处理特定字体和格式。

  • 进阶技术:随着机器学习和人工智能的发展,OCR技术引入了更复杂的算法,如神经网络,大大提高了识别的准确率和灵活性。

  • 深度学习:最近,深度学习在OCR领域的应用取得了显著的进步,特别是在处理复杂场景和手写文本方面。

1.3 应用领域

  1. 文档自动化处理:在办公自动化和文档管理系统中,OCR被用于快速输入和处理纸质文档。

  2. 银行和金融:银行使用OCR技术处理支票和其他金融文件。

  3. 法律和医疗领域:OCR有助于快速转换和管理大量的法律和医疗记录。

  4. 教育和研究:在教育和学术研究中,OCR可用于数字化历史文档和图书。

  5. 无障碍服务:OCR技术有助于为视觉障碍人士提供无障碍阅读服务。

1.4 挑战与限制

  • 识别准确率:虽然现代OCR技术已经很先进,但仍然可能在复杂的布局或低质量图像中遇到识别准确性的问题。

  • 语言和字体多样性:对于一些较少使用的语言或特殊的字体,OCR软件可能难以准确识别。

  • 手写文本识别:手写文本的变化性和复杂性使得其识别难度较高。

1.5 未来发展方向

  • 技术改进:不断改进OCR技术,提高对复杂文本和图像的处理能力。

  • 深度学习的应用:利用深度学习模型进一步提升识别准确率和速度。

  • 多语种支持:增强对多种语言和方言的支持能力。

  • 集成与应用拓展:将OCR技术与其他技术结合,如自然语言处理(NLP),扩展到更多应用场景。

2 paddleocr介绍

PaddleOCR是由百度开发的一款开源光学字符识别(OCR)工具,基于PaddlePaddle深度学习框架。它专注于提供轻量级、灵活且高效的OCR解决方案,旨在帮助开发者和研究人员在各种应用场景中快速部署OCR功能。PaddleOCR涵盖了OCR的全流程,包括文本检测、文本识别和文本校正等环节。

PaddleOCR是一个功能强大且灵活的OCR工具,它基于深度学习技术,提供了高效和准确的文字识别能力。它的轻量级设计、多语种支持和易用性使其适用于多种应用场景。作为一个开源项目,PaddleOCR持续发展和完善,是构建OCR应用的优秀选择。随着技术的不断进步和应用需求的日益增长,PaddleOCR将在自动化处理和智能识别领域发挥更大的作用。

项目地址:https://github.com/PaddlePaddle/PaddleOCR

体验地址:https://aistudio.baidu.com/application/detail/7658

2.1 核心特性

  • 多语种支持: PaddleOCR支持多种语言的识别,包括英文、中文、日文、韩文等,满足全球化应用的需求。

  • 高识别准确率: 基于先进的深度学习模型和算法,PaddleOCR在多个公开数据集上展现出优秀的识别性能。

  • 轻量化模型: 提供了轻量级模型,适用于移动设备和边缘计算场景,能够在资源受限的环境中快速运行。

  • 灵活易用: PaddleOCR提供了简洁的API和丰富的文档,使得开发者可以轻松集成OCR功能到自己的应用中。

  • 开源社区: 作为一个开源项目,PaddleOCR拥有活跃的社区支持,持续更新和改进。

2.2 技术组成

  • 文本检测: PaddleOCR使用深度学习模型来检测图像中的文本区域。它支持检测多种形状和布局的文本,如水平文本、倾斜文本和弯曲文本。

  • 文本识别: 在检测出文本区域后,PaddleOCR使用文本识别模型来识别这些区域中的文字内容。

  • 文本校正: 对于检测或识别过程中的错误,PaddleOCR提供了文本校正功能,以提高最终识别结果的准确性。

2.3 应用场景

  • 文件数字化: PaddleOCR可用于将纸质文件或PDF文档转换为可编辑的数字格式。

  • 身份验证: 在身份验证和KYC(了解你的客户)流程中,PaddleOCR可以用来识别身份证件上的信息。

  • 自动化办公: 在自动化办公系统中,PaddleOCR可以用于自动处理和分析文档中的文字。

  • 智能交通: 在智能交通系统中,PaddleOCR可以用于车牌识别和交通标志识别。

  • 零售和商业分析: PaddleOCR可以应用于零售场景,用于识别收据、发票和产品标签上的信息。

2.4 性能优化和部署

  • 模型优化: PaddleOCR针对不同的应用场景提供了多种优化后的模型,以满足性能和资源消耗之间的平衡。

  • 跨平台部署: PaddleOCR支持在多种平台上部署,包括服务器、云平台、移动设备和IoT设备。

  • 容器化和云服务: PaddleOCR支持容器化部署,也可以作为云服务提供OCR能力。

2.5 社区和支持

  • 开源协作: 作为一个开源项目,PaddleOCR鼓励社区成员参与贡献,包括代码贡献、问题反馈和功能建议。

  • 文档和示例: PaddleOCR提供了详细的文档、快速入门指南和丰富的应用示例,帮助开发者快速上手。

3 使用paddleocr进行文字识别

3.1 conda环境准备

conda环境准备详见:annoconda

3.2 运行环境构建

conda create --name paddleocr python=3.8
conda activate paddleocr

git clone https://github.com/PaddlePaddle/PaddleOCR
cd PaddleOCR

pip install paddlepaddle==2.5.2 -i https://mirror.baidu.com/pypi/simple
pip install -r requirements.txt


pip install paddleocr==2.7.0.3 -i https://mirror.baidu.com/pypi/simple

3.3 模型下载

PP-OCR系列模型列表

模型简介模型名称推荐场景检测模型方向分类器识别模型
中英文超轻量PP-OCRv4模型(15.8M)ch_PP-OCRv4_xx移动端&服务器端推理模型 / 训练模型推理模型 / 训练模型推理模型 / 训练模型
中英文超轻量PP-OCRv3模型(16.2M)ch_PP-OCRv3_xx移动端&服务器端推理模型 / 训练模型推理模型 / 训练模型推理模型 / 训练模型
英文超轻量PP-OCRv3模型(13.4M)en_PP-OCRv3_xx移动端&服务器端推理模型 / 训练模型推理模型 / 训练模型推理模型 / 训练模型
  • 超轻量OCR系列更多模型下载(包括多语言),可以参考PP-OCR系列模型下载,文档分析相关模型参考PP-Structure系列模型下载

PaddleOCR场景应用模型

行业类别亮点文档说明模型下载
制造数码管识别数码管数据合成、漏识别调优光功率计数码管字符识别下载链接
金融通用表单识别多模态通用表单结构化提取多模态表单识别下载链接
交通车牌识别多角度图像处理、轻量模型、端侧部署轻量级车牌识别下载链接
  • 更多制造、金融、交通行业的主要OCR垂类应用模型(如电表、液晶屏、高精度SVTR模型等),可参考场景应用模型下载

根目录下创建models目录

mkdir models

下载检测模型:ch_PP-OCRv4_det_infer.tar

下载方向分类器:ch_ppocr_mobile_v2.0_cls_infer.tar

下载识别模型:ch_PP-OCRv4_rec_infer.tar

下载完成后,解压存储到models目录中

3.4 识别效果展示

3.4.1 文字检测

python tools/infer/predict_det.py --image_dir="./doc/imgs_en/img_10.jpg" --det_model_dir="./models/ch_PP-OCRv4_det_infer"

3.4.2 端到端识别

python tools/infer/predict_system.py --image_dir="./doc/imgs/00006737.jpg" --det_model_dir="./models/ch_PP-OCRv4_det_infer" --rec_model_dir="./models/ch_PP-OCRv4_rec_infer" --cls_model_dir="./models/ch_ppocr_mobile_v2.0_cls_infer"

其他识别结果展示

3.5 代码调用进行识别

from paddleocr import PaddleOCR
from PIL import Image
import numpy as np


image = Image.open('../data/credit01.jpg')
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False, ocr_version='PP-OCRv3')
text = ocr.ocr(np.asarray(image), cls=True)
for t in text[0]:
    print(t[1])

输入图片:

识别结果:

('浦发银行', 0.9934564232826233)
('UnionPay', 0.9892090559005737)
('银联', 0.9966715574264526)
('SPDBANK', 0.9192584156990051)
('45641880010', 0.8774389624595642)
('010', 0.9592215418815613)
('4564', 0.95279860496521)
('MONTH/YEAR', 0.9459193348884583)
('MONTH/YEAR', 0.9803943634033203)
('00/00', 0.9096955060958862)
('VALID', 0.9954994320869446)
('00/00', 0.901260256767273)
('VALID', 0.8590766787528992)
('FROM', 0.8717232942581177)
('THRU', 0.8828291296958923)
('VISA', 0.9928451180458069)
('WANGWANGWANG', 0.9333059191703796)
('信用卡', 0.9985775947570801)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/189413.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Drools Rule Language 学习笔记

Drools Rule Language 1 Packages in DRL 可以有多个packages但推荐只用一个packageexample: package org.mortgages; 2 Import statements in DRL 2.1 You specify the package and data object in the format packageName.objectName, with multiple imports …

访谈 破风之人毛京波,选择难而正确的路

“无论是在燃油时代还是电动时代,我们所做的一切,只为回归纯粹的驾驶乐趣。”履新路特斯中国总裁整整一年的毛京波,从不放过任何一个展示路特斯品牌驾驭精神的机会。 11月17日,广州车展开幕首日,位于5.2馆的路特斯“冠…

云计算学习哪些技术

1. 虚拟化技术 虚拟化是云计算的基础,因此了解虚拟化技术至关重要。学习虚拟化技术时,需要掌握以下知识点: - 操作系统虚拟化:了解基于宿主机和客户机的虚拟化技术,如VMware、Hyper-V等。 - 容器化技术:学习…

图片处理工具JixiPix Pastello mac中文版功能特色

JixiPix Pastello mac是一款数字绘画软件,它可以将照片转换为仿佛是手绘的油画、粉笔画、素描等风格的艺术作品。该软件提供了多种绘画效果和工具,例如颜料、画笔、纸张等,让用户可以轻松地调整画作的亮度、色彩和细节等参数,从而…

java_基础_关键字

1.关键字的字母全部都是小写. 2.常用的代码编辑器(Notepad),针对关键字有特殊的颜色标记,非常的直观.

【anaconda】numpy.dot 向量点乘小技巧

假设向量A[1,1], 向量B[2,3]。如果想知道他们的内积就可以输入如下代码: 当然,如果是两个列向量相乘,肯定是不对的 但是如果没有维度也一样可以求得内积,而且结果不会套在列表里

IO和NIO的区别 BIO,NIO,AIO 有什么区别? Files的常用方法都有哪些?

文章目录 IO和NIO的区别BIO,NIO,AIO 有什么区别?Files的常用方法都有哪些? 今天来对java中的io, nio, bio, aio进行了解,有何区别。 IO和NIO的区别 NIO与IO区别 IO是面向流的,NIO是面向缓冲区的Java IO面向流意味着每次从流中读一个或多个字…

SSF-CNN:空间光谱融合的卷积光谱图像超分网络

SSF-CNN: SPATIAL AND SPECTRAL FUSION WITH CNN FOR HYPERSPECTRAL IMAGE SUPER-RESOLUTION 文章目录 SSF-CNN: SPATIAL AND SPECTRAL FUSION WITH CNN FOR HYPERSPECTRAL IMAGE SUPER-RESOLUTION简介解决问题网络框架代码实现训练部分运行结果 简介 ​ 本文提出了一种利用空…

YOLOv5轻量化改进之MobileNetv3

目录 一、原理 二、代码 三、应用到YOLOv5 一、原理 我们提出了基于互补搜索技术和新颖架构设计相结合的下一代mobilenet。MobileNetV3通过硬件网络架构搜索(NAS)和NetAdapt算法的结合来调整到移动电话cpu,然后通过新的架构进步进行改进。本文开始探索自动搜索算法和网络设计…

5 个适用于 Windows 的顶级免费数据恢复软件

对于计算机来说,最重要的是用户数据。除了您的数据之外,有关计算机的其他所有内容都是可替换的。这三个是数据丢失的最常见原因: 文件/文件夹删除丢失分区分区损坏 文件/文件夹删除 文件/文件夹删除是最常见的数据丢失类型。大多数时候&am…

Matplotlib网格子图_Python数据分析与可视化

Matplotlib网格子图 plt.subplot()绘制子图调整子图之间的间隔plt.subplots创建网格 plt.subplot()绘制子图 若干彼此对齐的行列子图是常见的可视化任务,matplotlib拥有一些可以轻松创建它们的简便方法。最底层且最常用的方法是plt.subplot()。 这个函数在一个网格…

零基础学Linux内核:1、Linux源码组织架构

文章目录 前言一、Linux内核的特征二、Linux操作系统结构1.Linux在系统中的位置2.Linux内核的主要子系统3、Linux系统主要数据结构 三、linux内核源码组织1、下载Linux源码2、Linux版本号3、linux源码架构目录讲解 前言 这里将是我们从零开始学习Linux的第一节,这节…

【Kotlin】类与接口

文章目录 类的定义创建类的实例构造函数主构造函数次构造函数init语句块 数据类的定义数据类定义了componentN方法 继承AnyAny:非空类型的根类型Any?:所有类型的根类型 覆盖方法覆盖属性覆盖 抽象类接口:使用interface关键字函数:funUnit:让…

C++ 通过SQLite实现命令行工具

本文介绍了一个基于 C、SQLite 和 Boost 库的简单交互式数据库操作 Shell。该 Shell 允许用户通过命令行输入执行各种数据库操作,包括添加、删除主机信息,设置主机到特定主机组,以及显示主机和主机组列表。通过调用 SQLite3 库实现数据库连接…

适用于 Mac 和 Windows 的顶级U 盘数据恢复软件

由于意外删除或设备故障而丢失 USB 驱动器中的数据始终是一件令人压力很大的事情,检索该信息的最佳选择是使用优质数据恢复软件。为了让事情变得更容易,我们已经为您完成了所有研究并测试了工具,并且我们列出了最好的 USB 记忆棒恢复软件&…

elasticsearc DSL查询文档

文章目录 DSL查询文档DSL查询分类全文检索查询使用场景基本语法示例 精准查询term查询range查询总结 地理坐标查询矩形范围查询附近查询 复合查询相关性算分算分函数查询1)语法说明2)示例3)小结 布尔查询1)语法示例:2&…

基于C#实现Kruskal算法

这篇我们看看第二种生成树的 Kruskal 算法,这个算法的魅力在于我们可以打一下算法和数据结构的组合拳,很有意思的。 一、思想 若存在 M{0,1,2,3,4,5}这样 6 个节点,我们知道 Prim 算法构建生成树是从”顶点”这个角度来思考的,然…

车载电子电器架构 ——电子电气架构设计方案概述

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 注:本文1万多字,认证码字,认真看!!! 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证…

机器学习探索计划——KNN算法流程的简易了解

文章目录 数据准备阶段KNN预测的过程1.计算新样本与已知样本点的距离2.按照举例排序3.确定k值4.距离最近的k个点投票 scikit-learn中的KNN算法 数据准备阶段 import matplotlib.pyplot as plt import numpy as np# 样本特征 data_X [[0.5, 2],[1.8, 3],[3.9, 1],[4.7, 4],[6.…

FreeRTOS入门教程(任务通知)

文章目录 前言一、什么是任务通知二、任务通知和队列,信号量的区别三、任务通知的优点和缺点1.优点2.缺点 四、任务状态和通知值五、任务通知相关的函数发出通知取出通知 六、任务通知具体使用1.实现轻量级信号量二进制信号量计数型信号量 2.实现轻量级队列 总结 前…