深度学习数据集—文本、数字、文字识别大合集

最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!!

1、500张手写拼音数据集

500张手写拼音数据集,包含对应txt格式标注及图片,,并提供lmdb数据格式转换脚本。

数据获取地址:https://www.dilitanxianjia.com/2540/

2、大规模金融领域中文语义解析数据集

数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,选手需要构建模型将用户的自然语言问句转换成结构化查询语句(Structured Query Language, SQL)。AntSQL数据集由蚂蚁财富提供,由阿里云天池平台承办,旨在推动金融领域中文NLP技术和社区的健康发展,促进数字金融领域的交叉学科研究,服务数字经济健康发展的国家战略需求。

数据获取地址:https://www.dilitanxianjia.com/2492/

3、中文对联数据集

中文对联数据集,该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集分别分为上联和下联两部分。

数据获取地址:https://www.dilitanxianjia.com/2462/

4、符号图像数据集

符号图像数据集,该数据集共包含1363个图像文件,其中JPEG文件1361个,PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母,包括字母A-Z以及字母æ, ø和å。该数据集可用于各种机器学习任务,如图像分类和字符识别。

数据获取地址:https://www.dilitanxianjia.com/2435/5

5、12万个俄罗斯笑话数据集

12万个俄罗斯笑话数据集

数据获取地址:https://www.dilitanxianjia.com/2085/

6、几何形状分类数据集

几何形状分类数据集,数据集由3个数据类组成,每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

数据获取地址:https://www.dilitanxianjia.com/2066/

7、带有数字的页面图片数据集

带有数字的页面图片数据集,共10张手写阿拉伯数字图片

数据获取地址:https://www.dilitanxianjia.com/1992/

8、10000张字符文件识别数据集

10000张字符文件识别数据集,这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

数据获取地址:https://www.dilitanxianjia.com/1989/

9、各种字体的数字数据集

各种字体的数字数据集,不考虑字体规则的情况下识别数字。

数据获取地址:https://www.dilitanxianjia.com/1716/

10、手写数字和英文字符,数据集

手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。

数据获取地址:https://www.dilitanxianjia.com/1713/

11、20个不同类别的中文新闻数据集

复旦大学新闻分类数据集,20个不同类别的中文新闻数据集,train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

数据获取地址:https://www.dilitanxianjia.com/1710/

12、甲骨文图片数据集

甲骨文图片数据集

数据获取地址:https://www.dilitanxianjia.com/1199/

13、古波斯语楔形文字字体数据集

古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。

数据获取地址:https://www.dilitanxianjia.com/1196/

14、手写体数字从0到9图像数据集

手写体数字从0到9图像数据集,此数据集包含200张手写体数字图像。所有的数字都是作者在白纸上手写的,然后用智能手机相机拍摄。拍完照片后,额外的白色区域被裁剪。

数据获取地址:https://www.dilitanxianjia.com/1192/

15、俄语手写信件数据集

俄语手写信件数据集,该数据集包括一个文件夹,共有14190张PNG格式的俄文手写信件图片,便于使用CNN对手写信件进行分类。

数据获取地址:https://www.dilitanxianjia.com/1188/

16、发票信息识别数据集

发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体。

数据获取地址:https://www.dilitanxianjia.com/1182/

17、梵文字符数据集

梵文字符数据集,CSV文件的尺寸为92000 1025。有1024个输入特征的像素值在灰度(0到255)。“字符”列表示与每个图像对应的梵文字符名。

数据获取地址:https://www.dilitanxianjia.com/1179/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/160535.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

二十八、W5100S/W5500+RP2040树莓派Pico<MQTT连接OneNET控制板载LED>

文章目录 1. 前言2. 简介2.1 初步了解OneNET物联网平台创建产品步骤2.2 OneNET物模型讲解 3 WIZnet以太网芯片4 示例概述4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 结果演示 5 注意事项6 相关链接 1. 前言 物联网平台提供安全可靠的设备连接通信能力&#xf…

【Linux】C文件系统详解(二)——什么是fd文件描述符以及理解“一切皆文件“

文章目录 fd-文件描述符如何深度理解"一切皆文件"**我们使用OS的本质:**FILEFILE是什么?谁提供的?和我们刚刚讲的内核的struct有关系吗FILE是一个结构体.该结构体内部一定要有以下字段:FILE是C语言标准库提供的.FILE和我们刚刚讲的内核的struct没有关系,最多就是上…

Java实现猜数游戏

要求: 输入一个数,返回大了还是小了或者正确 代码 import java.util.*; import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener;class Game extends JFrame{private JButton sendBtn;p…

【C++】——阶段性测验(帮助巩固C++前半部分知识)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

YOLO对象检测算法也这么卷了吗——基于YOLOv8的人体姿态检测

前期的文章我们介绍了很多关于YOLO系列的对象检测算法,虽然YOLO系列是应用在目标检测算法上,但是最近更新的YOLO系列算法都加入了对象分割,人体姿态检测等模型。 YOLOv8对象检测算法 2023年,Ultralytics再次发布YOLO更新模型,YOLOv8模型。Ultralytics YOLOv8是YOLO对象检…

spider 网页爬虫中的 AWS 实例数据获取问题及解决方案

前言 AAWS实例数据对于自动化任务、监控、日志记录和资源管理非常重要。开发人员和运维人员可以通过AWS提供的API和控制台访问和管理这些数据,以便更好地管理和维护他们在AWS云上运行的实例。然而,在使用 spider 框架进行网页爬取时,我们常常…

基于C#实现五家共井

古代数学巨著《九章算数》中有这么一道题叫“五家共井,甲二绠(汲水用的井绳)不足,如(接上)乙一绠;乙三绠不足,如丙一绠;丙四绠不足,如丁一绠;丁五…

[ 云计算 | AWS ] AI 编程助手新势力 Amazon CodeWhisperer:优势功能及实用技巧

文章目录 一、Amazon CodeWhisperer 简介1.1 CodeWhisperer 是什么1.2 Amazon CodeWhisperer 是如何工作的 二、Amazon CodeWhisperer 的优势和功能2.1 Amazon CodeWhisperer 的优势2.2 Amazon CodeWhisperer 的代码功能 三、Amazon CodeWhisperer 安装3.1 安装到 IntelliJ IDE…

抖音直播招聘报白是一种新颖、高效的招聘方式增加曝光度和吸引力

总之,抖音招聘是一种新颖、高效的招聘方式,它可以为公司带来更大的曝光度和吸引力,帮助公司吸引更多优秀的人才。通过抖音直播招聘报白,企业或者人力资源公司可以利用抖音的短视频流量红利,触达到每天超过8亿的活跃用户…

centos虚拟机无法接受消息(防火墙)

1.利用wireshark抓包, 发现发送信息后, 虚拟机返回 :host administratively prohibited 2.发现是centos虚拟机未关闭防火墙 (关闭后可正常接收消息)

数字音频工作站FL Studio21.1中文版本如何下载?

在现在这个数字音乐时代,各种音乐中都或多或少有些电子音乐的影子,或是合成器音色、或是通过数字效果器制作出的变幻莫测的变化效果。而小马丁、Brooks、Eliminate等众多电子音乐巨头便是使用FL Studio来制作音乐的。今天小编就以FL Studio五年的资深用户…

java学习part05

43-流程控制-使用Scanner类从键盘获取数据_哔哩哔哩_bilibili 1.接收输入 步骤 例子 2.生成随机数 3.switch-case 4.for 5.while

4.3 Windows驱动开发:监控进程与线程对象操作

在内核中,可以使用ObRegisterCallbacks这个内核回调函数来实现监控进程和线程对象操作。通过注册一个OB_CALLBACK_REGISTRATION回调结构体,可以指定所需的回调函数和回调的监控类型。这个回调结构体包含了回调函数和监控的对象类型,还有一个A…

go zero手把手教你入门案例

一、入门案例 1、在黑窗口上安装 go install github.com/zeromicro/go-zero/tools/goctllatest2、使用goland创建一个项目 3、在项目中安装依赖 go get -u github.com/zeromicro/go-zerolatest4、模拟创建一个user的项目 goctl api new user5、安装依赖包 go mod tidy6、补充代…

Java 算法篇-链表的经典算法:有序链表去重、合并多个有序链表

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 链表的说明 2.0 有序链表去重的实现方式 2.1 有序链表去重(保留重复的节点) - 使用递归来实现 2.2 有序链表去重(保留重复的节点) - 使用双指针来实现 2.3 有序…

U盘如何自定义图标?

1、准备一张图片,转换为.ico格式,转换格式的工具推荐一个ToYcon 转换好后放到拷贝到u盘里面。 2、在u盘里面新建一个文本文档,在文档里面写入以下内容,注意,这里的test为图片的名称。 根据自己图片名称做一下修改。 […

三十二、W5100S/W5500+RP2040树莓派Pico<UPnP示例>

文章目录 1 前言2 简介2 .1 什么是UPnP?2.2 UPnP的优点2.3 UPnP数据交互原理2.4 UPnP应用场景 3 WIZnet以太网芯片4 UPnP示例概述以及使用4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 结果演示 5 注意事项6 相关链接 1 前言 随着智能家居、物联网等…

6.7二叉树的最小深度(LC111)

审题要清楚: 最小深度是从根节点到最近叶子节点的最短路径上的节点数量。注意是叶子节点(左右孩子都为空的节点才是叶子节点!)。 算法: 既可以求最小高度,也可以直接求深度。 最小高度: 后序…

4M防错追溯与MES管理系统的融合应用

在现代化制造业中,质量追溯已成为企业核心竞争力的重要组成部分。为了实现精确的质量追溯,制造企业广泛采用了MES管理系统解决方案来进行生产过程中的数据管理。本文将探讨如何通过MES管理系统实现4M防错追溯,并提升企业的生产与管理效率。 一…

软件质量保护与测试(第2版)学习总结第十三章 集成测试

很多人都认为微软是一家软件开发公司,事实上我们是一家软件测试公司。 ---比尔盖茨 集成测试是在单元测试的基础上将多个模块组合在一起进行测试的过程。 13.1.1 区别 单元测试主要关注模块内部,系统测试则是在用户的角度来评价系统&#xff…