一款强大的开源OCR工具,支持90+语言识别

大家好,今天给大家分享一款功能强大的开源光学字符识别(OCR)工具Surya OCR,它基于先进的深度学习技术,提供了高效的字符识别能力,并支持多种语言的文本检测与识别。

项目介绍

核心功能

1.多语言支持

Surya OCR支持包括中文、英文、日文、韩文、阿拉伯文等在内的90多种语言的字符识别,能够满足全球用户的需求。

2.高效识别

得益于深度学习算法,Surya OCR在处理复杂文本图像时具有较高的识别率,能够准确识别手写体、印刷体、混合体等多种文本形式。

3.布局分析

除了文本识别,Surya OCR还能进行文档布局分析,识别表格、图片、标题等元素,帮助用户更好地理解文档结构。

4.表格识别

Surya OCR特别强化了表格识别功能,能够清晰地识别出表格中的行、列和单元格,以及具体的字符内容,对于处理大量表格数据的用户来说是一大福音。

5.读取顺序检测

具备读取顺序检测功能,可按照正确的阅读顺序提取文本,确保识别出的文本在逻辑上的正确性,对于多栏排版或非标准排版的文档处理尤为重要。

工作原理

Surya OCR 的工作流程主要包括以下几个步骤:

  • 1.图像预处理: 对输入的图像进行预处理,如去噪、二值化、倾斜校正等,以提高识别准确率。

  • 2.文本检测: 利用深度学习模型检测出图像中的文本区域,并确定每个文本行的位置。

  • 3.特征提取: 从检测出的文本区域提取特征,如颜色、形状、纹理等。

  • 4.字符识别: 将提取的特征输入到字符识别模型中,得到最终的识别结果。

  • 5.后处理: 对识别结果进行后处理,如纠错、格式化等。

使用方式:

1.易于使用的接口

提供了简洁明了的 API 接口,开发者可以轻松地将其集成到各类应用中,方便进行二次开发和定制化。无论是简单的文本识别应用,还是复杂的文档处理系统,都能快速接入 Surya OCR 的功能。

2.多种部署方式

提供了命令行指令版和 Python 接口版等多种部署方式,用户可以根据自己的需求和使用场景选择合适的部署方式。例如,对于简单的一次性识别任务,可以使用命令行方式快速完成;对于需要集成到大型应用系统中的情况,可以使用 Python 接口进行深度集成。

应用场景

文档数字化:企业可以利用 Surya OCR 快速将大量的纸质文档转换为可编辑的电子文档,提高文档管理的效率和便捷性,减少人工录入的工作量和错误率。

数据提取:在数据挖掘和分析领域,能够帮助用户从大量的文档中提取关键信息,例如从合同、报告、新闻文章等文档中提取特定的文本内容,为数据分析和决策提供支持。

科研与教育:对于科研人员和教育工作者,Surya OCR 可以用于处理学术文献、教科书等含有复杂图表和公式的文档,方便信息的提取和检索,有助于学术研究和教学工作的开展。

自动化办公:可以集成到办公自动化系统中,实现文档的自动分类、识别和处理,例如自动识别和提取发票信息、合同条款等,提高办公效率和准确性。

安装使用

安装

对于那些想要尝试Surya的开发者和用户来说,安装和使用过程相对简单直接。以下是详细的步骤说明:

1.安装要求

  • Python 3.9+
  • PyTorch(建议先安装CPU版本,除非使用Mac或GPU机器)
  • 推荐使用GPU以获得更好的性能

2.安装命令

pip install surya-ocr

安装完成后,Surya会在首次运行时自动下载所需的模型权重。

使用

Surya提供了多种使用方式,包括命令行接口、Python API和交互式GUI应用。

命令行OCR

surya_ocr DATA_PATH --images --langs hi,en

这个命令会处理指定路径的图像或PDF文件,并输出检测到的文本和边界框信息。

Python API

from PIL import Image
from surya.ocr import run_ocr
from surya.model.detection.model import load_model as load_det_model, load_processor as load_det_processor
from surya.model.recognition.model import load_model as load_rec_model
from surya.model.recognition.processor import load_processor as load_rec_processor

image = Image.open(IMAGE_PATH)
langs = ["en"]  # 指定语言,可选但推荐
det_processor, det_model = load_det_processor(), load_det_model()

rec_model, rec_processor = load_rec_model(), load_rec_processor()

predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor)

交互式GUI

Surya还提供了一个基于Streamlit的交互式应用,允许用户直接在Web界面上测试OCR功能。运行以下命令启动GUI:

pip install streamlit
surya_gui

项目地址

https://github.com/VikParuchuri/surya

一款强大的开源OCR工具,支持90+语言识别 - BTool博客 - 在线工具软件,为开发者提供方便

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/903112.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

破局:DLinear

1. Introduction (1) time series forecasting (TSF); (2) 回顾 “ Transformer (Vaswani et al. 2017) ” 的各领域优秀表现: (3) IMS vs. DMS : → Consequently, IMS forecasting is preferable when there is a highly-accurate single-step fore…

量化交易打怪升级全攻略

上钟! 继续分享量化干货~ 这次要唠的是Stat Arb的新作《Quant Roadmap》(中译名《量化交易路线图》),为了方便,下文就称呼作者为“老S”,根据公开资料显示,他可是正儿八经的的量化研究员出身,在漂亮国头部对…

【electron8】electron实现“图片”的另存为

注:该列出的代码,都在文章内示例出 1. 另存为按钮事件: const saveAsHandler async () > {const { path, sessionId } recordInfoif(typeof message ! string) return;// 因为我的图片是加密的,所以我需要根据接口返回的路…

全国智能手机使用数据集-dta格式(包含2015、2017、2019三个版本)

数据简介:为推动经济社会高质量发展,缓解经济下行压力,中国加大推动5G基建、大数据中心等科技领域基础设施的建设和完善。数字技术深入各行各业,催生了新业态、新模式、新机会和新就业形式。智能手机作为劳动者使用数字技术的重要…

二叉树的存储方式和遍历方式

文章目录 二叉树的存储方式二叉树的遍历方式DFS--递归遍历DFS--迭代遍历BFS--层次遍历 LC102 二叉树的存储方式 链式存储(指针)或 顺序存储(数组) (1)链式存储:通过指针把分布在各个地址的节点串联一起。 (2)顺序存储…

docker上传离线镜像包到Artifactory

docker上传离线镜像包到Artifactory 原创 大阳 北京晓数神州科技有限公司 2024年10月25日 17:33 北京 随着docker官方源的封禁,最近国内资源也出现无法拉取的问题,Artifactory在生产环境中,很少挂外网代理去官方源拉取,小编提供…

大模型面试-Layer normalization篇

1. Layer Norm 的计算公式写一下? 2. RMS Norm 的计算公式写一下? 3. RMS Norm 相比于 Layer Norm 有什么特点? 4. Deep Norm 思路? 5. 写一下 Deep Norm 代码实现? 6.Deep Norm 有什么优点? 7.LN 在 LLMs …

每日一题之电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 示例 1: 输入:digits "23" 输出&#…

微信小程序学习实录11:精通表单数据绑定,构建高效用户界面

微信小程序中的表单数据绑定是一种非常实用的功能,它允许开发者将页面上的表单元素与数据进行关联,从而实现数据的双向绑定。这样做的好处是能够简化代码,提高开发效率,并且让数据管理变得更加直观。 一、基本概念 数据绑定&am…

Spring Cloud +UniApp智慧工地源码,智慧工地综合解决方案,建筑工程云平台源码

Spring Cloud UniApp智慧工地源码,智慧工地全套源代码包含:PC端大屏端移动端 智慧工地解决方案以工程建设现场管理需求为主线,以AI、物联网、BIM技术为手段,对施工现场进行立体化、全方位、全时段管理,实现规范施工管…

解决VMware虚拟机的字体过小问题

前言: (1)先装VMware VMware17Pro虚拟机安装教程(超详细)-CSDN博客 (2)通过清华等镜像网站安装好Ubuntu镜像,下面贴上链接 教程虚拟机配置我没有做,因为学校给了现成的虚拟机~~大家需要的自己…

数据结构之单链表——考研笔记

文章目录 一.单链表定义1.什么是单链表2.代码实现3.不带头结点的单链表4.带头结点的单链表 二.单链表插入删除1.按位序插入(带头结点)2.插入时不带头节点3.指定节点的后插操作4.指定节点的前插操作5.按位序删除(带头结点)6.删除指…

2024年【北京市安全员-A证】找解析及北京市安全员-A证考试试卷

题库来源:安全生产模拟考试一点通公众号小程序 北京市安全员-A证找解析考前必练!安全生产模拟考试一点通每个月更新北京市安全员-A证考试试卷题目及答案!多做几遍,其实通过北京市安全员-A证证考试很简单。 1、【多选题】《中华人…

保姆级教程 | 全流程免费:合并多份长宽不同的PDF成相同大小并进行瘦身

背景 由于老板需要,完成不同PDF文件(a,b,c....)合并,同时要求主文件(A)小于6M。合并过程中发现各个PDF大小(长宽)并不相同,造成合并后效果不好也…

网站安全问题都有哪些,分别详细说明

网站安全问题涉及多个方面,以下是一些常见的网站安全问题及其详细说明: 数据泄露 问题描述:数据泄露是指网站存储的用户敏感信息(如用户名、密码、信用卡信息等)被非法获取。黑客可能通过SQL注入、XSS攻击等手段窃取这…

Unity编辑器界面及其基础功能介绍

文章目录 Unity编辑器界面编辑器默认界面布局打开和关闭编辑界面自定义界面布局Unity资源商店Unity Assets Store什么是资源商店?资源商店中包含哪些东西?如何进行素材导入?Unity官网购买素材或插件导入方法非官网素材导入非官网插件导入 Sce…

【WRF数据准备】基于GEE下载静态地理数据-叶面积指数LAI及绿色植被率Fpar

【WRF数据准备】基于GEE下载静态地理数据 准备:WRF所需静态地理数据(Static geographical data)数据范围说明基于GEE下载叶面积指数及绿色植被率GEE数据集介绍数据下载:LAI(叶面积指数)和Fpar(绿色植被率)数据处理:基于Python处理为单波段LAI数据参考GEE的介绍可参见另…

基于Django+python的酒店客房入侵检测系统设计与实现

项目运行 需要先安装Python的相关依赖:pymysql,Django3.2.8,pillow 使用pip install 安装 第一步:创建数据库 第二步:执行SQL语句,.sql文件,运行该文件中的SQL语句 第三步:修改源…

Spring beanFactoryPostProcessor

项目结构和代码 Component public class CustomerBeanFactoryPostProcessor implements BeanFactoryPostProcessor {Overridepublic void postProcessBeanFactory(ConfigurableListableBeanFactory configurableListableBeanFactory) throws BeansException {System.out.printl…

基于Spring Boot的宿舍管理系统设计与实现(源码+定制+开发)宿舍信息管理平台、智能宿舍系统开发、学生宿舍管理平台设计、宿舍入住与信息管理

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…