7 款用于训练 AI 模型的合成数据工具

什么是合成数据?

合成数据是计算机模拟或算法生成的注释信息,作为真实世界数据的替代品。换句话说,合成数据是在数字世界中创建的,而不是从现实世界中收集或测量的。

合成数据的用例

为机器人开发软件只是合成数据的众多用例之一。许多应用程序专注于训练计算机视觉系统,例如自动驾驶汽车用于学习如何驾驶的合成数据集。(而且,是的,Nvidia 也有一个应用程序Natural language processing (NLP) 是人工智能下的另一个领域,可以利用合成数据来增强或替换自然数据来训练 AI 模型。

事实上,行业专家认为,在不久的将来,合成数据将成为训练人工智能模型的首选来源。Gartner 预测,到 2024 年,用于开发 AI 和分析项目的数据将有 60% 是合成生成的。

在 AI 模型中,合成数据将超过真实数据。

图片来源:Gartner

合成数据公司

在这篇文章中,我们将重点介绍七家合成数据初创公司,这些初创公司在过去一年左右的时间里获得了资金,以开发生成非结构化数据来训练人工智能模型的平台。

It’s Almost Human

Datagen 将其合成数据称为模拟数据,因为它特别关注逼真的视觉模拟和现实世界的再现,在人体运动方面具有明显的专长。与许多合成数据公司一样,Datagen 依赖于一种日益流行的 AI 技术,称为 generative adversarial networks (GANs)。这有点像两个计算机系统之间的国际象棋游戏,但一个系统正在生成合成数据,而另一个系统则判断结果的真实性。该公司将GAN与物理模拟器中的强化学习人形运动算法以及超级渲染算法相结合,以大规模生成模拟数据。

计算机生成的人脸。

图片来源:Datagen

Datagen正在开拓多个市场,包括增强现实和虚拟现实、物联网、零售、机器人和自动驾驶汽车。

Peek-A-Boo, AI Sees You

点击进入公司网站

当今的主要用例之一可能是模拟自动驾驶汽车的环境。这是 Parallel Domain 背后的核心业务,该公司将其合成数据平台专注于一些最具挑战性的用例,以教自动驾驶汽车如何躲避行人。其与丰田研究所合作的最新创新涉及使用合成数据向自主系统传授对象持久性。目前的感知系统就像婴儿在玩躲猫猫,但部分归功于平行域,人工智能现在可以跟踪物体,即使它们暂时消失。该公司最近还向公众发布了其数据可视化工具,用于完全标记的合成相机和LiDAR数据集:

用于训练自动驾驶 AI 模型的合成数据可视化。

信用:平行域

除自动驾驶外,该公司还为自动无人机交付提供合成训练数据。

I Spy Synthetic Data

点击进入公司网站

Mindtech 将其端到端合成数据平台称为 Chameleon,这是一种模块化工具,使用户能够使用逼真的 3D 模型快速构建无限的场景和场景。该公司表示,Chameleon是专门为帮助其客户构建AI模型而设计的,以“理解和预测人类互动”。

Mindtech合成数据平台。

信用:Mindtech

Mindtech 主要服务于各种市场,包括零售、智能家居、医疗保健、交通系统和机器人技术。

Look Out Below

成立于 2017 年,我们首先报道了基于 New Yawk 的 AI。遐想回到2018年底。该公司已披露 5 万美元的资金,包括 8 年 5 月的 6 万美元种子轮融资,其中还包括 In-Q-Tel,以及 Microsoft 联合创始人兼前健在者保罗·艾伦 (Paul Allen) 的数十亿美元投资部门 Vulcan Capital。.AI。Reverie声称其合成数据的性能几乎与真实世界的训练数据相当。仅将 2020% 的自然数据与公司的计算机生成数据相结合,就比单独使用任何一个数据都能提供更好的结果。

用于训练 AI 模型的合成数据的准确性。

图片来源:AI。遐想

例如,该公司创建了 RarePlanes,这是一个公开可用的、非常高分辨率的数据集,旨在从开销的角度测试合成数据的价值。使用 RarePlanes 进行的实验表明,使用 10% 的观测数据集微调纯合成模型可获得大致相同的结果,同时消除了 90% 的手动收集和标记真实世界数据的成本。

Getting Some Synthetic Face Time

点击进入公司网站

Synthesis AI 成立于 2019 年,与 Datagen 一样,Synthesis 广泛地专注于生成合成人类,使用 GAN 和 computer-g enerated image (CGI) 技术,这在当今制作的几乎每部电影中都有。该公司的第一款产品是 FaceAPI,企业可以使用它来构建功能更强大的 AI 面部模型,用于智能手机面部验证、电话会议、驾驶员监控和智能助手。

人工智能生成的面孔,用于训练其他 AI 模型。

可以肯定的是,这就是在阿尔巴尼亚抢劫我们的那个人。图片来源:合成人工智能

随后,Synthesis AI 发布了独特的高分辨率 3D 面部模型,以改进 AI 模型的各种面部类型。

Automating Data Labeling

点击进入公司网站

Synthetaic 成立于 2019 年。网站上没有太多关于该公司用于创建合成数据的特定技术的细节。大多数信息是关于一种叫做 Rapid Automatic Image Categorization (RAIC) 的东西,它似乎是一个用于从单个标记示例中注释图像的自动化系统。我们确实看到了一则新闻,内容是关于该公司的GAN平台如何提供合成数据,以改进通过医学扫描诊断脑肿瘤的AI模型。

脑肿瘤扫描的合成数据。

它要么是意大利大理石,要么是用于训练 AI 模型以检测脑肿瘤的合成数据。信用:合成

结果:合成数据将主要脑肿瘤类型的准确率从 68% 提高到 96%,其中在最具挑战性的病例中表现为 90%,而对 70%。

A Bird’s Eye View

点击进入公司网站

OneView 成立于 2019 年,该公司专注于为人工智能模型提供合成数据,这些模型从卫星和航空图像中提供地理空间情报。这些图像通常涉及地球上的大片区域,包括城市、机场、港口等等。为了构建合成数据集的基础模型,OneView利用了来自名为OpenStreetMap的开源数据映射服务的真实数据。你可以在这里关于这个过程的信息,但基本上,该公司将5D图像膨胀成2D图像,然后多次渲染以模仿不同的场景,包括物体、天气、照明等。

将北京机场的真实图像转换为合成数据,以训练 AI 模型。信用:OneView

OneView 的合成数据可以训练服务于城市规划等一系列行业的 AI 模型。

结论

除了以上7款合成数据生成工具之外, 还有一款国产的UnrealSynth虚幻引擎合成数据生成器 :UnrealSynth 虚幻合成数据生成器是利用UE4虚幻引擎的实时渲染能力搭建逼真的三维场景,为 YOLO 等 AI 模型的训练提供自动生成的图像和标注数据。UnrealSynth 生成的合成数据可用于深度学习模型的训练和验证,可以极大地提高各种行业细分场景中目标识别任务的实施效率,例如:安全帽检测、交通标志检测、施工机械检测、车辆检测、行人检测、船舶检测等。

转载:7 款用于训练 AI 模型的合成数据工具 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/112239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

el-tabel表格加个多选框

<template><div><el-checkbox v-model"checked" :disabled"checkedDis" change"onAllSelectChange">多选框</el-checkbox>点击多选框&#xff0c;禁用列表复选框<el-table ref"multipleTable" :data"…

高压发生器

直流高压试验装置产品简介 武汉凯迪正大KDZG系列直流高压发生器是按照中国行业标准ZGF24003-90《便携式直流高压发生器通用技术条件》的要求&#xff0c;研究、制造的便携式直流高压发生器&#xff0c;适用于电力部门、厂矿企业动力部门、科研单位、铁路、化工、发电厂等对氧化…

IntelliJ IDEA快捷键sout不生效

1.刚下载完idea编辑器时&#xff0c;可能idea里的快捷键打印不生效。这时你打开settings 2.点击settings–>Live Templates–>找到Java这个选项&#xff0c;点击展开 3.找到sout 4.点击全选&#xff0c;保存退出就可以了 5.最后大功告成&#xff01;

【44.全排列Ⅱ】

目录 一、题目描述二、算法原理三、代码实现 一、题目描述 二、算法原理 三、代码实现 class Solution { public:vector<vector<int>> ret;vector<int> path;vector<bool> check;vector<vector<int>> permuteUnique(vector<int>&am…

OSATE总线延迟的源码分析与模型修复——针对 Latency-case-study项目 端到端流延迟分析过程中空指针异常的解决

一、背景 在文章AADL 端到端流延迟分析示例项目 Latency-case-study 简述的 “第八章 进行系统的端到端流延迟分析” 中&#xff0c;遇到了这样的一个问题&#xff1a;对分布式系统的端到端流延迟进行分析时&#xff0c;没有生成流延迟分析报告&#xff0c;并且错误日志提示&am…

Python数据分析(四)-- 操作Excel文件

1 操作Excel文件-多种实现方式 在实际生产中&#xff0c;经常会用到excel来处理数据&#xff0c;虽然excel有强大的公式&#xff0c;但是很多工作也只能半自动化&#xff0c;配合Python使用可以自动化部分日常工作&#xff0c;大大提升工作效率。 openpyxl&#xff1a;只允许读…

初识JavaScript(一)

文章目录 一、JavaScript介绍二、JavaScript简介1.ECMAScript和JavaScript的关系2.ECMAScript的历史3.什么是Javascript&#xff1f;4.JavaScript的作用?5.JavaScript的特点 三、JavaScript基础1.注释语法2.JavaScript的使用 四、JavaScript变量与常量变量关键字var和let的区别…

Android广播BroadcastReceiver

BroadcastReceiver组件 BroadcastReceiver是Android中的一个组件&#xff0c;用于接收和处理系统广播或应用内广播。它可以监听系统事件或应用内自定义的广播&#xff0c;并在接收到广播时执行相应的操作。 广播是一种用于在应用组件之间传递消息的机制。通过发送广播&#x…

RT-DERT:在实时目标检测上,DETRs打败了yolo

文章目录 摘要1、简介2. 相关研究2.1、实时目标检测器2.2、端到端目标检测器2.3、用于目标检测的多尺度特征 3、检测器的端到端速度3.1、 NMS分析3.2、端到端速度基准测试 4、实时DETR4.1、模型概述4.2、高效的混合编码器4.3、IoU-aware查询选择4.4、RT-DETR的缩放 5、实验5.1、…

Microsoft SQL Server 缓冲区错误漏洞(CVE-2018-8273)解决方法

前言&#xff1a; 在一次漏洞扫描中&#xff0c;扫描出紧急漏洞Microsoft SQL Server 缓冲区错误漏洞(CVE-2018-8273) 根据修复建议找补丁。 一、漏洞详情 二、寻找补丁 根据漏洞修复建议去下载补丁 目前厂商已发布升级补丁以修复漏洞&#xff0c;补丁获取链接&#xff1a;h…

k8s中kubectl命令式对象、命令式对象配置、声明式对象配置管理资源介绍

目录 一.kubernetes资源管理简介 二.三种资源管理方式优缺点比较 三.命令式对象管理介绍 1.kubectl命令语法格式 2.资源类型 &#xff08;1&#xff09;通过“kubectl api-resources”来查看所有的资源 &#xff08;2&#xff09;每列含义 &#xff08;3&#xff09;常…

【Docker】十分钟完成mysql8安装,你也可以的!!!

十分钟完成mysql8安装&#xff0c;你也可以的 前言安装步骤1.创建安装目录2.创建docker-compose.yml3.启动容器4.mysql开启远程连接5.连接mysql 总结 前言 本文基于Docker安装mysql:8.0.29&#xff0c;首先确保系统安装了docker和docker-compose。 没有使用过docker朋友可以去…

leetcode-哈希表

1. 理论 从哈希表的概念、哈希碰撞、哈希表的三种实现方式进行学习 哈希表&#xff1a;用来快速判断一个元素是否出现集合里。也就是查值就能快速判断&#xff0c;O&#xff08;1&#xff09;复杂度&#xff1b; 哈希碰撞&#xff1a;拉链法&#xff0c;线性探测法等。只是一种…

【年终特惠】基于最新导则下生态环评报告编制技术暨报告篇、制图篇、指数篇、综合应用篇系统性实践技能提升

根据生态环评内容庞杂、综合性强的特点&#xff0c;依据生态环评最新导则&#xff0c;将内容分为4大篇章(报告篇、制图篇、指数篇、综合篇)、10大专题(生态环评报告编制、土地利用图的制作、植被类型及植被覆盖度图的制作、物种适宜生境分布图的制作、生物多样性测定、生物量及…

高压放大器在电火花加工中的作用是什么

高压放大器在电火花加工中扮演着至关重要的角色。下面安泰电子将详细介绍高压放大器在电火花加工中的作用。 电火花加工是一种精密加工技术&#xff0c;广泛应用于制造业的模具制造、航空航天、汽车零部件等领域。它通过在工件表面产生高频电火花放电的方式&#xff0c;实现对材…

uniapp实现路线规划

UniApp是一个基于Vue.js框架开发的跨平台应用开发框架&#xff0c;可以同时构建iOS、Android、H5等多个平台的应用。它使用了基于前端技术栈的Web开发方式&#xff0c;通过编写一套代码&#xff0c;即可在不同平台上运行和发布应用。 UniApp具有以下特点&#xff1a; 跨平台开…

Unity内打开网页的两种方式(自带浏览器、内嵌浏览器)

1.自带浏览器 这个比较简单&#xff0c;直接调用unity官方的API即可&#xff0c;会直接使用默认浏览器打开网页&#xff0c;这里就不多做解释了。 代码 public InputField input;private void OpenUrlByUnity(){string inputStr input.text;if (!string.IsNullOrEmpty(input…

单链表练习

单链表练习 相关内容&#xff1a; 1.再理解&#xff1a;LNode、*LinkList 2.单链表的整表创建&#xff08;头插法和尾插法&#xff09; 3.单链表的读取、插入、删除 4.单链表的整表删除 //单链表的初始化、创建、插入、删除、查找 //结点的结构体&#xff1a;数据域、指针域 …

开放式耳机能保护听力吗,开放式耳机跟骨传导耳机哪个更好?

如果从严格意义上来讲的话&#xff0c;开放式耳机中的骨传导耳机是能保护听力&#xff0c;现如今的开放式耳机是一个统称&#xff0c;将所有不入耳的类目全部规划到一块。因此在开放式耳机中存在着一些耳机是只能够保持周边环境音&#xff0c;而不是保护听力的。 下面让我来给…

linux下的程序环境和预处理(gcc演示)

1. 程序的翻译环境和执行环境 在ANSI C的任何一种实现中&#xff0c;存在两个不同的环境。 第1种是翻译环境&#xff0c;在这个环境中源代码被转换为可执行的机器指令。 第2种是执行环境&#xff0c;它用于实际执行代码。 2. 详解编译链接 2.1 翻译环境 组成一个程序的…