❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信订阅号|搜一搜:蚝油菜花
🚀 快速阅读
- Surya 是一款功能强大的开源 OCR 工具包,支持超过 90 种语言的识别。
- Surya 能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内容。
- Surya 完全免费且用于商业用途,支持跨平台运行,包括 Windows、Mac 和 Linux 系统,适合处理敏感信息的离线环境。
正文(附运行示例)
Surya 是什么
Surya 是一款功能强大的开源 OCR(光学字符识别)工具包,专门用于文档识别,支持超过 90 种语言的识别。它能准确识别文档中的文本,分析文本的阅读顺序,检测文档中的布局元素(如表格、图片和标题),并识别和解析表格内容。Surya 以其高效的表格识别能力而闻名,性能优于许多现有的开源模型,如 Table Transformer。Surya 完全免费,可用于商业用途,支持在 Windows、Mac 和 Linux 系统上运行,非常适合处理敏感信息的离线环境。
Surya 的主要功能
- 多语言 OCR 识别:Surya 支持超过 90 种语言的光学字符识别,能够处理包括中文、日文、韩文、阿拉伯文等多种语言的文档。
- 表格识别:Surya 强化了表格识别功能,能够识别文档中的行、列和单元格,甚至包括旋转和复杂布局的表格。
- 复杂布局识别:Surya 能够识别文档中的复杂布局,例如标题、图片等,处理文档中的各种元素。
- 文本检测与阅读顺序:Surya 能够进行文本的行级检测,确定文本的阅读顺序,确保输出的文本内容顺序正确。
如何运行 Surya
Surya 的安装和使用都非常简单。首先,你需要安装 Python 3.10+和 PyTorch。然后,你可以使用 pip 安装 Surya:
pip install surya-ocr
模型权重将首次运行 Surya 时自动下载。
OCR(文本识别)
此命令将写入一个包含检测到的文本和边界框的 json 文件:
surya_ocr DATA_PATH
DATA_PATH
可以是图像、PDF 或图像/PDF 文件夹--langs
是一个可选的(但建议)参数,用于指定 OCR 的语言。你可以用逗号分隔多种语言。使用语言名称或来自此处的双字母 ISO 代码。Surya 支持languages.py
中的 90 多种语言。
文本行检测
此命令将写入一个包含检测到的边界框的 json 文件。
surya_detect DATA_PATH
布局分析
此命令将写入一个包含检测到的布局的 json 文件。
surya_layout DATA_PATH
阅读顺序
此命令将写入一个包含检测到的阅读顺序和布局的 json 文件。
surya_order DATA_PATH
表格识别
此命令将写入一个包含检测到的表格单元格和行/列 ID 的 json 文件,以及行/列边界框。
surya_table DATA_PATH
资源
- Surya 的 GitHub 仓库:https://github.com/VikParuchuri/surya
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信订阅号|搜一搜:蚝油菜花