OCR识别系统 YOLOv8 +Paddle 方案落地

YOLOv8 + PaddleOCR 技术方案落地

  • Yolov8相关文档
    • Step 1 证件模型的训练
    • Step 2 Yolov8进行图片推理
    • Step 3 PaddleOCR进行识别
    • Step 4 整合Yolov8 + PaddleOCR 进行OCR

Yolov8相关文档

《yolov8 官方网站》
《Yolov8 保姆级别安装》

Ultralytics YOLOv8 是一款尖端的、最先进的 (SOTA) 模型,它以之前 YOLO 版本的成功为基础,并引入了新功能和改进,以进一步提高性能和灵活性。YOLOv8 旨在快速、准确且易于使用,使其成为各种对象检测和跟踪、实例分割、图像分类和姿势估计任务的绝佳选择

目前市面的OCR功能都已经比较完善了,Paddle也很出众,不过OCR出来后相关字段都是错乱,你通过正则表达式获取也不能满足特殊场景,那么就需要特别的位置检测。yolov家族就是做这个事情的!!,通过图片相关位置截取图片在进行OCR

Step 1 证件模型的训练

1、选取身份证标注 (300张样本,200张测试样本)
2、使用标注软件进行处理数据集(这里我用的是 makesense)
3、yolov8 进行训练模型 (这里可以参考《Yolov8 保姆级别安装》文章 )

yolo detect train model=yolov8n.pt data=idCard.yaml epochs=10 imgsz=640

样图:
在这里插入图片描述

在这里插入图片描述

Step 2 Yolov8进行图片推理

yolo predict model=best.pt  source=image_test imgsz=640 

检测后效果:
在这里插入图片描述

Step 3 PaddleOCR进行识别

paddleocr --image_dir ./imges/test.jpg --use_angle_cls true --use_gpu false 

[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], (‘姓名 xxxxxxx’, 0.9658738374710083)]

到这里相关操作都能正常运行,那么你的虚拟环境就好了。

Step 4 整合Yolov8 + PaddleOCR 进行OCR

1、通过Flask整合,通过http接口进行交互识别

"""
三大核心包
"""
from flask import Flask, request
from ultralytics import YOLO
from paddleocr import PaddleOCR

//yolov 推理
model_idCard = YOLO('best_idCard.pt')
results = model_idCard.predict(img, device='cpu', stream=True)
....

//获取yolov推理后的切片图进行ocr
ocr = PaddleOCR(lang='ch', use_angle_cls=True, enable_mkldnn=True, cpu_threads=8, ocr_version='PP-OCRv4')
result = ocr.ocr(img, cls=True)



@app.route('/idCardOcr', methods=['POST'])
def idCardOcrRequest():
# f = request.files['file']
 json = request.json
 imagePath = 'temp/' + json['fileName']
 # imagePath = 'D:/work_project/useDeviceCloud/temp/' + json['fileName']
 return idCardOcr(imagePath)

yolov8推理出来的切图
在这里插入图片描述
效果:
在这里插入图片描述

效果还是比较可以的,不过低配置的机器可能有点限制。paddle要求比较高后续看看在接入其他的ocr通用版本来替换,让更多的机器能跑起来

看↓↓↓方格或搜索: 码猿趣事,回复关键字:yolov8+OCR持续更新中~。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/885540.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

js将对象的键和值分别归纳进对象,并将多层对象转化成数据的方法

前言: 后端传给我一个没有处理过的json串,但是我要传入el-tree做渲染,此篇来记录一下整个数据处理过程以及el-tree的使用 需求描述: 一、树结构可以展开可以收缩,默认全部展开 二、有一些关键词需要高亮展示红色 …

SW - 装配图旋转到一个想要的正视图

文章目录 SW - 装配图旋转到一个想要的正视图概述笔记将装配图旋转到自己想要的视图的方法保存当前视图选择自己保存的视图END SW - 装配图旋转到一个想要的正视图 概述 在弄装配图。 如果按照SW默认的视图,Y方向是反的。 原因在于我画零件图时,方向就…

从源码中学习动态代理模式

动态代理模式 动态代理是 Java 反射(Reflection)API 提供的一种强大机制,它允许在运行时创建对象的代理实例,而不需要在编译时静态地创建。 Java 提供了两种主要的方式来实现动态代理: 基于接口的动态代理&#xff1a…

GIT安装及集成到IDEA中操作步骤

最近深感GIT使用技能太差,我只会些皮毛,还是得看官网,总结一下常用的操作方法吧。 GIT环境配置到IDEA中安装 一、GIt的基本的安装 这个不在这里赘述了,自己装一个git吧 二、给IDEA指定本地GIT的安装路径 1、下图这个是我本地的…

postgresql僵尸进程的处理思路

简介 僵尸进程(zombie process)是指一个已经终止但仍然在进程表中保留条目的进程。正常情况下,当一个进程完成执行并退出时,操作系统会通过父进程调用的wait()或waitpid()系统调用来收集该子进程的退出状态。如果父进程未及时调用…

CI/CD中的自动化测试:在持续集成/持续部署流程中引入网页自动化测试

目录 引言 一、CI/CD流程概述 1.1 什么是CI/CD 1.2 CI/CD流程的主要阶段 1.3 CI/CD的优点 二、自动化测试基础 2.1 自动化测试概述 2.2 自动化测试的作用 2.3 自动化测试的主要类型 三、Web自动化测试工具 3.1 Selenium 3.1.1 Selenium WebDriver常用API 3.1.2 示例…

【Linux服务器】git和github交互使用

前言:有时候pycharm连接不上github,还是得命令行操作 目录 1. 准备git2. 配置github账户3. 上传项目3.1 创建本地仓库3.2 提交本地代码3.3 上传到github 4. 注意 1. 准备git 下载链接:官网 下载后直接运行安装,cmd输入git --vers…

论文阅读【时间序列】ModerTCN (ICLR2024)

【时间序列】ModerTCN (ICLR2024) 原文链接:ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis 代码仓库:ModerTCN 简易版本实现代码可以参考:(2024 ICLR)ModernTCN:A Mod…

C++在线开发环境搭建(WEBIDE)

C在线开发环境搭建 一、环境说明1.1 系统基础环境说明1.1 docker-ce社区版安装 二、codeserver构建2.1 构建codeserver环境的docker容器2.2 构建docker镜像2.3 运行docker2.4 运行展示 三、构建codeserver中的c开发环境3.1 插件下载3.2 插件安装 四、其他知识4.2 code-server配…

【Android 14源码分析】WMS-窗口显示-流程概览与应用端流程分析

忽然有一天,我想要做一件事:去代码中去验证那些曾经被“灌输”的理论。                                                                                  – 服装…

相亲交友系统的社会影响:家庭结构的变化

随着互联网技术的发展,相亲交友系统已成为许多单身人士寻找伴侣的重要途径。这些平台不仅改变了人们的社交方式,还对家庭结构产生了深远的影响。本文将探讨相亲交友系统如何促使家庭结构发生变化,开发h17711347205并通过简单的Python代码示例…

YashanDB Docker镜像制作

本文作者:YashanDB中级服务工程师鲍健昕 为什么需要Docker部署数据库 常规使用 yasboot 部署数据库的方法,操作流程复杂,需要配置许多配置文件以及环境变量,不同用户使用的环境不同,那么环境配置也会存在差异&#x…

抓取网页重定向之前的接口请求

使用谷歌浏览器,按下F12抓取接口的时候,会遇到无法抓取web页面重定向之前的地址的问题,这个时候可以使用以下两种方式进行抓取: 1.断网操作,选择开发者调试工具下面的,网络离线功能进行离线操作 2.使用保留…

数字货币交易所开发与智能合约交易系统

数字货币交易所作为加密经济的重要组成部分,为用户提供了一个安全、便捷的平台来买卖各种数字资产。随着区块链技术的发展,智能合约在交易所的应用日益普及,使得交易过程更加高效和透明。本文将探讨数字货币交易所的开发过程以及智能合约在交…

jmeter中token测试

案例: 网站:http://shop.duoceshi.com 讲解:用三个接口来讲解 第一个接口code:GET http://manage.duoceshi.com/auth/code 第二个登录接口:http://manage.duoceshi.com/auth/login 第三个接口:http://…

Threejs中使用A*算法寻路导航

<!DOCTYPE html> <html><head><title>Threejs中使用A*算法寻路导航&#xff0c;Threejs室内室外地图导航</title><script type"text/javascript" src"libs/three.js"></script><script type"text/javas…

SpringBoot 使用自定义注解和枚举类对接口入参校验

目录 1. jar包导入2. 自定义注解3. 校验类4. 定义枚举类5. 被校验的实体类6. 全局异常拦截7. controller8. 测试 1. jar包导入 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-validation</artifactId&g…

拯救神经健康!多系统萎缩患者必知的维生素“黄金组合”✨

亲爱的朋友们&#xff0c;今天我们来聊聊一个可能不太为人熟知但极其重要的健康话题——多系统萎缩&#xff08;MSA&#xff09;。面对这一挑战&#xff0c;科学合理的营养补充显得尤为重要。你知道吗&#xff1f;有几种维生素堪称神经系统的“黄金守护者”&#xff0c;它们能在…

【IOS】申请开发者账号(公司)

目录 申请开发者账号前提 查询/申请D-U-N-S 编号 申请开发者 官网&#xff1a;Apple Developer (简体中文) 申请开发者账号前提 如果是第一次申请建议注册一个新的apple id作为组织的开发者账号。&#xff08;确保apple id的个人信息是真实的&#xff0c;不能是网名或者是…

c++第十二章续(队列结构类模拟)

队列类 设计类&#xff0c;需要开发公有接口和私有实现 Queue类接口 公有接口&#xff1a; 默认初始化&#xff0c;和可以用显式初始化覆盖默认值 Queue类的实现 如何表示队列数据&#xff1a; 一种方法是使用new动态分配一个数组&#xff0c;它包含所需的元素数。不过&…