互联网高科技公司领导AI工业化,MatrixGo加速人工智能落地

作者:吴宁川

AI(人工智能)工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度,着眼于在企业生产环境中规模化落地AI应用的工程化举措;而AI工业化则从AI供应商的角度,着眼于以规模化方式为企业用户提供AI技术、方案和服务,从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面,一面是AI技术供给和供应链的规模化,一面是AI技术使用和落地的规模化。

AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年,Gartner指出只有53%的项目能够从AI原型转化到生产环境,AI项目的扩展难度很大。而在2022年报告中,Gartner预测到2025年,10%建立了AI工程化最佳实践的企业,将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处,AI工业化补足。作为AI模型生命周期高质量数据服务供应商,澳鹏中国高级产研总监张童皓指出:数据优化为AI推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立AI数据供应链的时机。

AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践,统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员,而DataOps正处于快速上升期,AI数据标注是DataOps中的一个关键领域。2022年1月,澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

MatrixGo的推出,标志着AI工业化迎来了一个全新里程碑,也将极大推动AI工程化进展。

AI数据工业化大趋势

以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破,以及2018年底BERT大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。

除了互联网和高科技公司外,AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据CB Insights统计,2010年到2021年,全球AI 100强共获得了117亿美元的股权融资,自动驾驶、医药研发、AI处理器等是最主要投融资领域,如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。

近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿(注1)。

既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司,澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据,才能用于AI模型的训练和推理及优化。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。

构建AI数据供应链能力

随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面,大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作,以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。

澳鹏中国高级产研总监张童皓表示,2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个AI模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程,以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前,澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。

将AI标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的API,将数据标注结果与各种AIOps流程相结合。

张童皓强调,数据标注平台非常复杂,在某种程度上是Office +数据仓库+AIOps的结合体,很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练AI模型以及AI推理,企业CIO们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的AI标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能AI模型迭代。

全场景覆盖AI模型生命周期

在意识到数据标注工具平台对于AIOps的重要性后,澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前,这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版,构建自己的AI标注数据供应链。

MatrixGo作为AI标注数据的采标一体化平台,为企业AI模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务,确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论,提供丰富的API能力,可以与上下游系统进行良好集成。

MatrixGo让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。

数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D图像标注工具支持网格视图模式且将质量保证固化到工具中,3D点云工具与2D标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。

澳鹏2D图像复合标注示例

澳鹏2D图像复合标注示例

澳鹏3D点云拉框及2D映射(融合标注)示例

澳鹏3D点云拉框及2D映射(融合标注)示例

此外,MatrixGo还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒3万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。

张童皓强调,推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等,2022年还将拓展更多的传统企业数字化转型市场。

总结来说:2022年是整个AI产业的一个分水岭,更高自动化程度的AI数据标注平台,正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作,让DataOps成为了整个AIOps中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台,将成为AI发展的重要赋能平台。

(注1:北京智源人工智能研究院:《2021人工智能的认知神经基础》白皮书。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/401110.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++面试宝典第31题:有效的数独

题目 判断一个9 x 9的数独是否有效。只需要根据以下规则,验证已经填入的数字是否有效即可。 1、数字1-9在每一行只能出现一次。 2、数字1-9在每一列只能出现一次。 3、数字1-9在每一个以粗实线分隔的3 x 3宫内只能出现一次。 下图是一个部分填充的有效的数独,数独部分空格内已…

FITC Palmitate Conjugate,FITC-棕榈酸酯缀合物,可以用标准 FITC 滤光片组进行成像

FITC Palmitate Conjugate,FITC-棕榈酸酯缀合物,可以用标准 FITC 滤光片组进行成像 您好,欢迎来到新研之家 文章关键词:FITC Palmitate Conjugate,FITC-棕榈酸酯缀合物,FITC 棕榈酸酯缀合物,F…

如何将cocos2d-x js打包部署到ios上 Mac M1系统

项目环境 cocos2d-x 3.13 xcode 12 mac m1 big sur 先找到你的项目 使用xcode软件打开上面这个文件 打开后应该是这个样子 执行编译运行就好了 可能会碰到的错误 在xcode11版本以上都会有这个错误,这是因为iOS11废弃了system。 将上面代码修改为 #if (CC_TARGE…

基于springboot+vue的高校学科竞赛系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

详细描述一下CrossOver2024版本的用途和作用?

当然可以。CrossOver 是一款由 CODE WEAVERS 公司开发的软件,其主要目标是在 macOS 和 Linux 系统上实现与 Windows 应用程序的兼容性。它不同于传统的虚拟机,如 Parallels 或 VMware,因为它并不在 macOS 上创建一个完整的 Windows 环境。相反…

机房预约系统(个人学习笔记黑马学习)

1、机房预约系统需求 1.1系统简介 学校现有几个规格不同的机房,由于使用时经常出现“撞车“现象,现开发一套机房预约系统,解决这一问题。 1.2身份简介 分别有三种身份使用该程序 学生代表:申请使用机房教师:审核学生的预约申请管理员:给学生、教师创建账…

HarmonyOS开发技术全面分析

系统定义 HarmonyOS 是一款 “ 面向未来 ” 、面向全场景(移动办公、运动健康、社交通信、媒体娱乐等)的分布式操作系统。在传统的单设备系统能力的基础上,HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念,能够…

网络安全“三保一评”深度解析

“没有网络安全就没有国家安全”。近几年,我国法律法规陆续发布实施,为承载我国国计民生的重要网络信息系统的安全提供了法律保障,正在实施的“3保1评”为我国重要网络信息系统的安全构筑了四道防线。 什么是“3保1评”? 等保、分…

LVGL8.1在Windows显示图片

1、将这些宏的值改成1,以便支持这些格式: 2、 这两个地方: LV_USE_FS_WIN32 设置符号,大小写字母、“\”、“”等符号都可以。 LV_FS_WIN32_PATH 为一个目录,图片放入此目录。 3、载入图片: “M:color.pn…

WebServer -- 定时器处理非活动连接(上)

目录 🍍函数指针 🌼基础知识 🐙整体概述 🎂基础API sigaction 结构体 sigaction() sigfillset() SIGALRM, SIGTERM 信号 alarm() socketpair() send() 📕信号通知流程 统一事件源 信号处理机制 &#x…

书生·浦语大模型实战营第二节课作业

使用 InternLM-Chat-7B 模型生成 300 字的小故事(基础作业1)。 熟悉 hugging face 下载功能,使用 huggingface_hub python 包,下载 InternLM-20B 的 config.json 文件到本地(基础作业2)。 下载过程 进阶…

【医学大模型】大模型 + 长期慢病的预测和管理

大模型 长期慢病的预测和管理 提出背景长期慢病框架慢性疾病检测框架如何实现多提示工程为什么使用多提示 慢性疾病管理框架个性化提示工程医学知识注入 提出背景 论文:https://arxiv.org/abs/2401.12988 慢性疾病是指那些需要长期管理和治疗的疾病,包…

# CCF系列会议截稿时间订阅

[晓理紫]CCF系列会议截稿时间订阅 VX关注{晓理紫}免费,每日更新最新CCF系列会议信息,如感兴趣,请转发给有需要的同学,谢谢支持!! VX关注{晓理紫}免费 NETYS (Non-CCF) The International Conference on Networked Systems Deadline: Fri Mar 8th 2024 19:59:00 CST (2…

navicat连接云服务器(宝塔)

下面介绍两种navicat连接云服务器(宝塔)的方法 一、通过ssh配置(安全) 打开navicat,配置新链接的SSH(主机:填写公网IP,用户名和密码是服务器的账号密码) 在常规填写数据…

Android Studio创建项目时gradle下载慢

先停止当前Sync,找到gradle-wrapper.properties文件,将distributionUrl修改为腾讯镜像源: distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-6.5-bin.zip

25-k8s集群中-RBAC用户角色资源权限

一、RBAC概述 1,k8s集群的交互逻辑(简单了解) 我们通过k8s各组件架构,指导各个组件之间是使用https进行数据加密及交互的,那么同理,我们作为“使用”k8s的各种资源,也是通过https进行数据加密的…

快速清理_卸载docker_找到不用的进程_centos磁盘爆满_清理磁盘---Linux工作笔记071

查看大文件,并且按照大小排名 cd / | du -h |sort -hr|head -30 可以看到根据不用的结果进行删除 可以看到在/data/dict目录很大,里面的都可以删除 然后再去卸载docker,要不然,没有磁盘是卸载不了的 systemctl stop docker systemctl stop docker.socket yum remove docker-…

Python查看已安装包的版本号(多方法)

目录 前言1. pip list2. pip show3. pkg_resources模块4. Python解释器 前言 一直使用pip list来查询,但如果想知道单个,应该怎么使用呢 在Python中,可以使用多种方法来查看已安装包的版本号 以下是一些常用的方法: 1. pip li…

Redis 工具类 与 Redis 布隆过滤器

Redis 工具类 1. 核心依赖 <!--redis--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency> <dependency><groupId>com.google.guava…

【快速搞定Webpack5】处理样式资源(三)

本次内容我们将学习使用webpack如何处理css、less、sass、scss等样式资源 介绍 webpack本身是不能识别样式资源的&#xff0c;所以我们需要借助loader包来帮助webpack解析样式资源 我们找loader都应该去官方文档中查找对应的loader&#xff0c;然后学习使用。 官方文档找不到…