小数据 vs 大数据:为AI另辟蹊径的可操作数据

在人工智能背景下,您可能已听说过“大数据”这一流行语,那“小数据”这一词呢,您有听说过吗?无论您听过与否,小数据都无处不在:线上购物体验、航空公司推荐、天气预报等均依托小数据。小数据即一种采用可访问和可操作格式,且易于人类理解的数据。通常,数据科学家会利用小数据分析现状。 在机器学习(ML)领域,小数据的应用越来越多,这很大可能是因为数据可用性的普遍增强,以及新数据挖掘技术的试验。随着AI在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。  

 

小数据与大数据

与大数据相比,小数据到底有何不同? 大数据由大块的结构化和非结构化数据组成。大数据规模庞大,比小数据更难理解和分析,需要高水平的计算机处理能力来解释。 小数据能够为公司提供可操作的洞察,而不是像大数据分析一样,需要复杂的算法。因此,公司不需要在数据挖掘过程投入太多。通过应用计算机算法,可以将大数据转换成小数据。这些计算机算法将数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。 大数据转换成小数据的一个示例:在品牌发布期间,对社交媒体进行监控。网上每分每秒都会涌现大量的社交媒体帖子。数据科学家需要根据发布平台、时间段、关键词或其他相关特征,对数据进行筛选。这一过程将大数据转换成更易于管理的数据块,可以从中获取相关洞察。  

小数据的优势

在上文中,我们提及了小数据较之大数据的优势,但有几点仍值得强调。 大数据的管理难度高:大规模使用大数据是一项艰巨任务,数据分析需要依靠强大的计算机能力。 小数据的管理难度低:小数据块分析的效率高,不需要投入太多的时间和精力。这意味着小数据比大数据更具有可操作性。 小数据无所不在许多行业已在广泛应用小数据。例如,社交媒体提供了大量可操作的数据,这些数据的用途各异,比如市场营销或其他用途。 小数据关注终端用户:通过小数据,研究人员可以关注终端用户,将用户需求放在首位。小数据可以用来解释终端用户的行为动机。 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的客户。  

机器学习中的小数据处理方法

监督学习是最传统的机器学习方法,是指利用大量标注的训练数据来训练模型。但除此以外,还有许多模型训练方法。其中,还有很多训练方法成本效益高、耗时低,越来越备受青睐。虽然这些方法要经常依赖于小数据,但在这种情况下,数据质量变得至关重要。 当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。此时,数据科学家可以使用以下任何一种机器学习技术。

少样本学习

通过少样本学习技术,数据科学家为机器学习模型提供少量训练数据。少样本学习技术经常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。例如,如果具有用于解锁智能手机的面部识别算法,则无需数千张您的照片便可开启手机。手机只需要几张照片,就可以开启安全功能。 少样本学习技术成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。

知识图谱

知识图谱属于二级数据集,因为知识图谱是通过筛选原始的大数据而形成的。知识图谱由一组具有定义含义并描述特定域的数据点或标签组成。例如,一个知识图谱可能由一系列著名女演员名字的数据点组成,共事过的女演员之间以线(或称之为边)连接起来。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。

迁移学习

当一个机器学习模型作为另一模型的训练起点,以帮助此模型完成相关任务时,就需要用到迁移学习技术。从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。如果新任务不需要原始模型的某些构成部分,也可以将其删除。 在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,迁移学习技术尤为有效。应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是,让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。例如,在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后,模型便学会识别句中隐藏的单词。

合成数据

当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据;但问题是,深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据,以实现其代表的平等性,而不是创建一个难以识别深色人脸的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。 本文所提到的方法并不详尽,但也展现出机器学习多方向发展的前景。一般而言,数据科学家正在减少使用监督学习技术,转向尝试依赖小数据的方法。  

数据科学总监Rahul Parundekar的专业洞察

明确小数据的“小”并不代表数据量小,这一点尤为重要。小数据是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。我们经常会看到有人对AI功能期望过高,仅仅收集几张图片数据,就期望获得一个高质量的模型,但这不是我们在这里要讨论的内容。我们讨论的是,找出最适合用于模型构建的数据,在实际部署时,模型可以输出正确内容,满足您的需求。 以下是在创建“小”数据集时需要谨记的一些事项:

数据相关性

明确数据集构成数据的类型,选择正确的数据。您应确保数据集只包含模型在实践中(或生产中)接触到的数据类型。例如,如果您对一条生产输送线的一种产品进行缺陷检测,您就应该准备一组包含有缺陷和无缺陷零件、传送带上无物体的图像数据集,并输入安装在这条生产输送线上的摄像机中。

数据多样性与重复性

重要的是,涵盖模型在实践中可能接触到的所有数据应用场景,且要保证各类数据之间的平衡。不要使用已有数据来填充数据集,以避免出现数据填充过度问题。在缺陷检测示例中,您要确保模型可以捕获无缺陷物品、有不同类型缺陷的物品,无论是在工厂车间不同的照明条件下,在传送带上的各种旋转和位置,还是在维护模式下可能会出现的几个样品。因为没有缺陷的成品都一样,您不需要过度填充这类数据。另一个不必要重复的示例是变化很少或没有变化的视频帧。

依靠强劲技术构建

上文提及的小数据处理技术提供了坚实的技术基础。也许,您可以从迁移学习技术中获益,这种技术将经过训练且性能较佳的模型的知识迁移到相关领域的另一模型,并利用小数据来修正新模型。对于缺陷检测示例,这可能是您先前训练过的另一个缺陷检测模型,而不是修正基于MS COCO数据集来训练的模型,这与您在传送带线场景上的缺陷检测不同。

以数据为中心的AI与以模型为中心的AI

AI行业的最新研究表明,如果通过合适的数据训练模型,模型性能会受到更大的影响。通过找到边缘数据和数据差别,就可以产生更佳结果,而不是使用多个超参数、不同的模型架构,总之,就是假设有能力的数据科学家会“弄清楚”。如果缺陷检测模型无法准确地检测某些类型的缺陷,您应该投入更多精力来增加这些类型的图像数据,而不是尝试不同的模型架构或超参数优化。

与训练数据专家合作

对于以数据为中心的AI,您也希望将调试工作集中在领域专家更擅长的数据工作上,而不是数据科学家擅长的模型工作上。在模型失败的情况下,与领域专家一起确定模式,并假设模型可能的失败原因。这有利于帮助您确定所需的正确数据。例如,对象缺陷工程师专家可以帮助您确定模型所需的正确数据的优先级,清理上文提到的噪音或不需要的数据,甚至可能会指出,数据科学家可能用于选择更好的模型架构的细微差别。 总而言之,小数据比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据,使数据具有成本效益,并且可以通过上文所述的任一种技术来构建您的“冠军”模型。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/79492.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java【Spring】Bean 的作用域和生命周期

文章目录 前言前言一、关于 Bean 的作用域问题引入二、Bean 的作用域1, 什么是 Bean 的作用域2, Bean 的六种作用域3, 设置 Bean 的作用域(解决开篇的问题) 三、Bean 的生命周期总结 前言 前言 各位读者好, 我是小陈, 这是我的个人主页, 希望我的专栏能够帮助到你: &#x1f4…

Linux权限系列--给普通用户添加某个命令的sudo权限

原文网址:Linux权限系列--给普通用户添加某个命令的sudo权限_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Linux系统如何给普通用户添加某个命令的sudo权限。 使用场景 普通开发者可能需要sudo的命令: apt-get(经常要安装软件&#x…

ROS局部路径规划器插件teb_local_planner流程梳理(上)

在我之前的文章《ROS导航包Navigation中的 Movebase节点路径规划相关流程梳理》中已经介绍过Move_base节点调用局部路径规划器插件的接口函数是computeVelocityCommands,接下来,我们就从这个函数入手梳理一下teb_local_planner功能包的工作流程。 ☆注&a…

【探索Linux】—— 强大的命令行工具 P.5(yum工具、git 命令行提交代码)

阅读导航 前言一、软件包管理器 yum1.yum的概念yum的基本指令使用例子 二、git 命令行提交代码总结温馨提示 前言 前面我们讲了C语言的基础知识,也了解了一些数据结构,并且讲了有关C的一些知识,也学习了一些Linux的基本操作,也了…

WebGL游戏站优化实录【myshmup.com】

myshmup.com 允许在浏览器中创建 shmup(射击)游戏。 你可以使用具有创意通用许可证的资源或上传自己的艺术作品和声音。 创建的游戏可以在网站上发布。 该平台不需要编码,游戏对象的配置是在用户界面的帮助下执行的。 后端是使用Django框架开…

Vue3.X 创建简单项目

一、环境安装与检查 首先,我们要确保我们安装了构建vue框架的环境,不会安装的请自行百度,有很多安装教程。检查环境 node -v # 如果没有安装nodejs请安装,安装教程自行百度 vue -V# 没有安装,请执行npm install -g v…

【探索SpringCloud】服务发现-Nacos使用

前言 在聊服务注册中心时,便提到了Nacos。这次便来认识一下。当然,这自然没有官方介绍那般详尽,权当是学习了解Nacos原理的一个过程吧。 Nacos简介 Nacos,全名:dynamic Naming And Configuration Service. 而这个名…

Redis中的数据类型

Redis中的数据类型 Redis存储的是key-value结构的数据,其中key是字符串类型,value有5种常用的数据类型: 字符串string哈希hash列表list集合set有序集合sorted set

Streamlit 讲解专栏(十):数据可视化-图表绘制详解(上)

文章目录 1 前言2 st.line_chart:绘制线状图3 st.area_chart:绘制面积图4 st.bar_chart:绘制柱状图5 st.pyplot:绘制自定义图表6 结语 1 前言 在数据可视化的世界中,绘制清晰、易于理解的图表是非常关键的。Streamlit…

Stable Diffusion基础:ControlNet之图片高仿效果

今天继续给大家分享AI绘画中 ControlNet 的强大功能,本次的主角是 Reference,它可以将参照图片的风格迁移到新生成的图片中,这句话理解起来很困难,我们将通过几个实例来加深体会,比如照片转二次元风格、名画改造、AI减…

vmware添加额外网卡

为vmware虚拟机添加额外网卡 vmware 配置管理界面配置系统内配置查看系统中的网卡状态启用网卡重启网络修改IP地址 vmware 配置管理界面配置 关闭运行的的系统。 编辑虚拟机设置—》添加–》选择网络适配器 选择网络适配器的模式 系统内配置 查看系统中的网卡状态 第一…

高层建筑全景vr火灾隐患排查模拟培训软件助力群众防范火灾伤害

随着城市化进程的加快,楼宇建筑的数量也在不断增加。然而,楼宇消防安全问题也日益突出。为了提高楼宇员工和居民的消防安全意识,楼宇VR消防安全教育培训应运而生。VR安全培训公司深圳华锐视点制作的楼宇vr消防安全教育培训,包括消…

WinSW使用说明

使用说明 前言下载配置介绍示例jar包启动示例 安装服务 前言 由于使用windows自动的自启方法,不管是将程序启动服务放到开机自启文件夹中,还是创建任务计划程序,都没有很好的实现程序的开机自启效果,而WinSW很好的解决了这个问题…

Cat(6):API介绍—Metric

Metric 用于记录业务指标、指标可能包含对一个指标记录次数、记录平均值、记录总和,业务指标最低统计粒度为1分钟。 # Counter Cat.logMetricForCount("metric.key"); Cat.logMetricForCount("metric.key", 3); # Duration Cat.logMetricForDu…

【go语言学习笔记】05 Go 语言实战

文章目录 一、 RESTful API 服务1. RESTful API 定义1.1 HTTP Method1.2 RESTful API 规范 2. RESTful API 风格示例3. RESTful JSON API4. Gin 框架4.1 导入 Gin 框架4.2 使用 Gin 框架4.2.1 获取特定的用户(GET)4.2.2 新增一个用户(POST&am…

Hlang社区-前端社区宣传首页实现

文章目录 前言页面结构固定钉头部轮播JS特效完整代码总结前言 这里的话,博主其实也是今年参与考研的大军之一,所以的话,是抽空去完成这个项目的,当然这个项目的肯定是可以在较短的时间内完成的。 那么废话不多说,昨天也是干到1点多,把这个首页写出来了。先看看看效果吧:…

60页数字政府智慧政务大数据资源平台项目可研方案PPT

导读:原文《60页数字政府智慧政务大数据资源平台项目可研方案PPT》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。 项目需求分析 项目建设原则和基本策略…

Ozon限制售卖品类 速速收藏

每个电商平台都会有自己的规则和政策,都会有一些限制销售的品类,根据不同地域和文化会有不同,本文来介绍一下老牌俄罗斯购物平台Ozon有哪些限制售卖的品类。选品的商家需要明确自己的品类有没有违规,违规商品平台会进行下架和限制…

【操作系统考点汇集】操作系统考点汇集

关于操作系统可能考察的知识点 操作系统基本原理 什么是操作系统? 操作系统是指控制和管理整个计算机系统的硬件和软件资源,并合理地组织调度计算机的工作和资源的分配,以提供给用户和它软件方便的接口和环境,是计算机系统中最基…

数据结构-->栈

💕休对故人思故国,且将新火试新茶,诗酒趁年华💕 作者:Mylvzi 文章主要内容:详解链表OJ题 前言: 前面已经学习过顺序表,链表。他们都是线性表,今天要学习的栈也是一种线…