世界人工智能大会中“数据+标注”相关的关键词浅析

  标注猿的第79篇原创  
 一个用数据视角看AI世界的标注猿   

大家好,我是AI数据标注猿刘吉,一个用数据视角看AI世界的标注猿。

在国家级数据标注基地建设任务下发后的两个月时间里,全国各地政府、各个高校都快速行动了起来,数据行业变得空前的热闹。与数据标注行业2024年上半年的寒冷形成了鲜明的对比。

市场从数据标注服务需求转向了对数据和数据价值需求,而这一转变对于已有数据标注公司来说挑战是非常巨大的。不仅仅是转型那么简单的逻辑,从目前来看大部分已有的标注企业不具备应对这一改变的能力。

首先还是跟小伙伴们汇报一下最近相关工作的重点内容,主要做了三方面的事情,第一方面是组建了一个可以做大模型标注项目的项目组,第二方面积极在与高校沟通,推进数据标注实训平台进入高校,第三方面在做"数据+标注+AIGC实战教程"的课程。对以上三方面感兴趣的小伙伴们欢迎私信交流。

言归正传,这几天的世界人工智能大会和之前的几届比较感觉要热闹的多,遗憾的是这次没有去上,只能看线上直播。这一感觉也从数据中得到了证实,

截至6日下午2点,大会线下参观人数突破30万人次,全网流量突破19亿,比上届增长90%,均创历史新高。大会共对接132个采购团组,形成126个项目采购需求,预计意向采购金额150亿元,推动24个重大产业项目签约,预计总投资额超400亿元。

对于应用场景和数据相关内容的讨论尤为热烈,本文就围绕着数据标注行业相关的内容和大家从以下的方面做一个分享交流。从我个人学习到的内容挑出三个关键词:

  • 数据

  • 人才

  • 安全

一.数据


首先对于数据简单的做一个科普,让大家对数据概念有一个基本一致的认知,在我国《数据安全法》中是这样定义数据:

数据是指任何以电子或者其他方式对信息的记录,是对客观事物(如事实、事件、事物、过程或思想)的记录或描述,既包括“数字”,也包括声音、图像等模拟形式。

而从不同的形式也会有不同的分类,我们从常见的几种形式分类进行说明:

  • 按生成对象:与物有关和与事有关

  • 按存储形式:结构化、半结构化和非结构化数据

  • 按权属不同:公有数据和私有数据

  • 按数据类型:文本数据、音频数据、视频数据、图像数据

对于数据标注来说,我们更多接触到的形式主要以按存储形式和按数据类型形式来进行区分。

而对于数据部分,这次大会中我获取到的信息也可以用三个关键词来概况:

  • 缺数据

对于大模型来说是极其消耗数据的,据网上信息来看GPT目前已经消耗完了所有公开的数据。

并且在6月27号,OpenAI与《时代》周刊达成达成了一项多年内容授权协议和战略合作伙伴关系。该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的人工智能(AI)模型。据新闻稿介绍,OpenAI可以通过这笔交易访问《时代》过去100多年的档案和文章,以训练其AI模型,并在其面向消费者的产品(如ChatGPT)中用于回复用户的询问。

而这里面有两个非常重要的信息,第一个数据在经历一轮“跑马圈地”的时代,第二个100年跨度的数据价值对于大模型来说也非常有价值。

从我目前粗浅的认知中理解,数据是具有时效性的,100年前的数据对于现在来说,除了可以当做一种资料被搜索外还有哪些作用?难道是要利用大模型“涌现”的特性,看看是否可以迸发出更多的价值么?

  • 行业数据

    不管是在人工智能的初期还是现在,算法如何的进步,最终都要回到行业中来,但现在有个本质的区别就是数据处理的能力和精细度变的不一样了。

    而相同的就是行业数据壁垒依然存在,行业数据都存在于每个公司里面,而每个公司中的数据在之前又没有进行有效的加工处理,对于每个公司来说很难想象到这些数据到底哪些有价值哪些没有价值,该如何让其发挥应有的价值。

    基于大模型的基础能力加上行业数据很快就可以完成场景大模型的迭代,使得行业数据的需求也更加迫切。

  • 数据处理成本高

    虽然对于标注行业来讲,价格目前已经在人力成本临界值徘徊了,但对于AI研发来说,成本依然还是很高的。

    这部分所指的成本高,不同于之前的数据标注,更多制约在标注工具上,而大模型使我们在处理数据时不再局限在细节的处理了,例如在NLP阶段,我们更多处理的是分词、关系等,而大模型通过自注意力机制等算法可以解决很多基础部分的工作。

    而更多需要具有业务专业型专家来解决行业问题,比如具体行业的QA对知识解答等。

    但好的一点是,对于大模型标注来说,数据标注工具会更通用,数据也更通用了。

二.人才

对于大部分人来说目前大模型、AIGC等都还是非常陌生的,再加之目前技术迭代太快,导致大部分人都学不过来了,当然也包括我在内。刚看到一个新的东西还没研究明白呢,又有其他更好的出来了,在某某排行榜上的比分又非常高了。

这样就让身在其中的我们又兴奋又无力,兴奋的是我们正在处于一个快速发展的机遇时代,无力的是让我们无从下手,该去做些什么。看似能做很多事情,真要做了又不知从何做起。

当然这可能也是目前行业的缩影,这里我们不去讨论高端算法人才部分,只针对人工智能基础数据部分人才和数据标注人才部分。

由于对于数据+标注需求和预期的改变,对于人才的需求也发生了变化,从能简单执行到专业人才的转变。从根据需求的服务到行业场景的方案定制,从人员管理到资源整合,更多需要的是具有学习能力的专业复合型人才。

而对于行业应用场景部分,需要更多可以使用大模型的人才,可以更好的释放企业已有数据的价值,可以在配合开源或者大模型服务商提供的服务来结合企业自身数据达到私有化大模型的目的。

这部分也是目前我们比较看中的部分,我们在开发相关学生教程的同时,也开发了数据标注实训平台和“数据+标注+AIGC实战教程”课程,重点和学校深入合作来培养更多专业型人才服务行业,我们能提供的是“实训平台+课程+项目”一整套的体系搭建。这部分也非常欢迎学校或者有学校资源的小伙伴来交流。

三.安全

对于数据安全来说,从开始我理解的数据流通环节安全到多维度价值对齐的安全。这里面我印象深刻的是提出的“中国价值观数据”,分享一下学习到关于多维度价值对齐语料库的原则这部分内容:

  1. 伦理价值:遵循社会道德规范和法治精神

    1. 基础伦理语料:伦理价值的理论基石与基本规范,包括伦理体系,话语体系,法律法规等。

    2. 历史文化语料:时代特色、地域特色特点伦理思考与积淀。

    3. 现实生活语料:伦理价值的实现图景和生活案例,包括家常理短、心路历程、热点思潮等。

  2. 情绪价值:满足情感认同、交流和成长需求

    1. 自愈成长语料:情感疗愈、自我实现与提升。

    2. 互动共鸣语料:分享、陪伴、怀旧等人际社交需求与情感共鸣。

    3. 自娱探索语料:个体对新鲜体验与个人乐趣的追求。

  3. 社会价值:社会公平争议与可持续创新发展

    1. 社会和谐语料:社会有序和民心安定的具象呈现,包括国家、地方和基层等多层次制度体系及治理经验等。

    2. 社会发展语料:国家、社会和民众的创新发展及追求美好生活的具体实践。

    3. 全球治理语料:人类和平与发展、构建人类命运共同体的远大理想和现实需求。

  4. 技术价值:推动科技创新与可控可治

    1. 风险评估语料:人工智能潜在风险系统分析与预判。

    2. 风险检测语料:人工智能应用风险实时追踪、预警及策略应对。

  5. 文化价值:提升文化素养和促进文明互鉴共进

    1. 中国元素语料:当代中国人的美好追求、审美情趣、人文情怀,包括食、景、人、物等。

    2. 传统文化语料:中华文明的根基与灵魂,包括非物质文化(语言文字、诗词歌赋、传统技艺、民间习俗、文化创意等)与物质文化(古迹、艺术品等)

    3. 全球文化语料:不同文明的智慧结晶和交流互鉴,包括各国代表性文化元素、文学经典、艺术作品、世界名曲、宗教典籍、文化遗产等。

会发现数据安全已经不仅仅从简单的数据流程安全、数据内容的涉政、涉暴、涉黄等基础需求,而更全面更丰富更立体,格局更大。足以证明国家正在为全面进入人工智能时代做着准备。

通过以上展现的内容不难发现,国家级数据标注基地的必要性,整个社会在做着全面进入人工智能跃层变迁的准备,这种变迁的基石需要国家来做全面保障。

以上就是通过这次世界人工智能大会学习到的一部分粗浅信息。对于学习明白的地方,欢迎小伙伴们留言交流分享。

相关文章阅读:

  1. 浅析国家级数据标注基地建设任务的城市背景下的“数据+标注”

  2. 数据标注行业在《人工智能法案》批准后的机遇与发展

  3. 全民标注时代:众包不是标注的终点,Wordcoin才是

  4. ChatGPT时代:数据标注会成为一种人机交互“语言”么?

  5. 自动驾驶测绘资质的信息安全要求,真的来了

  6. 甲方数据负责人供应商选择系列一

  7. AI数据标注猿知识星球私域社区开始招募啦!【文章最下面有公众号福利】

  8. 数据标注员是职位,人工智能训练师是职业

  9. 数据标注行业创业还可以么?

     -----------------------完----------------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/782218.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Win10如何设置远程桌面?

远程桌面介绍 远程桌面是一款Windows提供的远程工具,旨在连接同一局域网内的两台计算机。如果您掌握被控端电脑的IP地址,便可直接连接到这台已启用远程桌面的计算机,通过远程桌面进行文件传输或提供远程技术支持。 在同一家公司内&#xff0…

关于 Qt在国产麒麟系统上设置的setFixedSize、setMinimumFixed、setMaxmumFixed设置无效 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140242881 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

云动态摘要 2024-07-07

给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 数据库上云优选 阿里云 2024-07-04 RDS、PolarDB、Redis、MongoDB 全系产品新用户低至首年6折起! [免费体验]智能助手ChatBI上线 腾讯云 2024-07-02 基于混元大模型打造,可通过对话方式生成可视化…

入门PHP就来我这(高级)13 ~ 图书添加功能

有胆量你就来跟着路老师卷起来! -- 纯干货,技术知识分享 路老师给大家分享PHP语言的知识了,旨在想让大家入门PHP,并深入了解PHP语言。 今天给大家接着上篇文章编写图书添加功能。 1 添加页面 创建add.html页面样式,废…

什么是Web3D交互展示?有什么优势?

在智能互联网蓬勃发展的时代,传统的图片、文字及视频等展示手段因缺乏互动性,正逐渐在吸引用户注意力和提升宣传效果上显得力不从心。而Web3D交互展示技术的横空出世,则为众多品牌与企业开启了一扇全新的展示之门,让线上产品体验从…

[240707] X-CMD v0.3.14: cb gh fjo zig 模块增强;新增 lsio 和 pixi 模块

目录 X-CMD 发布 v0.3.14✨ advise:Bash 环境下自动补全时,提供命令的描述信息✨ cb:支持下载指定版本的附件资源✨ gh:支持下载指定版本的附件资源✨ fjo:支持下载指定版本的附件资源✨ zig:新增 pm 和 zon 子命令✨ lsio:用于查…

排序 -- 手撕归并排序(递归和非递归写法)

一、基本思想 归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有…

手把手搭建微信机器人,帮你雇一个24小时在线的个人 AI 助理(上)

上一篇,带领大家薅了一台腾讯云服务器:玩转云服务:手把手带你薅一台腾讯云服务器,公网 IP。 基于这台服务器,今天我们一起动手捏一个基于 LLM 的微信机器人。 0. 前置准备 除了自己常用的微信账号以外,还…

Python之numpy常用知识点总结

文章目录 前言知识点1:np.maximum知识点2:ndarray数据类型知识点3:数据运算知识点4:数组和标量间的运算知识点5:数组的索引和切片知识点6:数组的转置和轴对称知识点7:检索数组元素 前言 在机器学…

【应急响应】Windows应急响应 - 基础命令篇

前言 在如今的数字化时代,Windows系统面对着越来越复杂的网络威胁和安全挑战。本文将深入探讨在Windows环境下的实战应急响应策略。我们将重点关注实际应急响应流程、关键工具的应用,以及如何快速准确地识别和应对安全事件。通过分享实际案例分析&#…

基于S32K144驱动NSD8381

文章目录 1.前言2.芯片介绍2.1 芯片简介2.2 硬件特性2.3 软件特性 3.测试环境3.1 工具3.2 架构 4.软件驱动4.1 SPI4.2 CTRL引脚4.3 寄存器4.4 双极性步进电机驱动流程 5.测试情况6.参考资料 1.前言 最近有些做电磁阀和调光大灯的客户需要寻找国产的双极性步进电机驱动&#xf…

QT入门笔记-自定义控件封装 30

具体代码如下: QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c17# You can make your code fail to compile if it uses deprecated APIs. # In order to do so, uncomment the following line. #DEFINES QT_DISABLE_DEPRECATED_BEFORE0x060000 …

Spring AOP源码篇四之 数据库事务

了解了Spring AOP执行过程&#xff0c;再看Spring事务源码其实非常简单。 首先从简单使用开始, 演示Spring事务使用过程 Xml配置&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema…

软件架构之数据库系统(2)

软件架构之数据库系统&#xff08;2&#xff09; 3.4 事务管理3.4.1 并发控制3.4.2 故障与恢复 3.5 备份与恢复3.6分布式数据库系统3.6.1分布式数据库的概念3.6.2 分布式数据库的架构 3.7 数据仓库3.7.1 数据仓库的概念3.7.2数据仓库的结构3.7.3 数据仓库的实现方法 3.8 数据挖…

超高精电容传感器PCAP01调试+LABVIEW数据可视化调试手记

PCAP01超高精电容传感芯片STM32LabView可视化 文章目录 PCAP01超高精电容传感芯片STM32LabView可视化一、PCAP01介绍1.1、PCAP01引脚定义1.2、电容测量1.3、温度测量1.4、PCAP典型测试电路 二、PCAP01的STM32驱动2.1、SPI协议配置2.2、PCAP01浮空电容测量内部温度测量操作流程 …

计算机系统简述

目标 计算机世界并非如此神秘。相反&#xff0c;计算机是非常“确定”的一个系统&#xff0c;即在任何时候&#xff0c;在相同的方法、相同的状态下&#xff08;当然还包括相同的起始条件&#xff09;&#xff0c;同样的问题必然获得相同的结果。其实&#xff0c;计算机并不是…

前端实现无缝自动滚动动画

1. 前言: 前端使用HTMLCSS实现一个无缝滚动的列表效果 示例图: 2. 源码 html部分源码: <!--* Author: wangZhiyu <w3209605851163.com>* Date: 2024-07-05 23:33:20* LastEditTime: 2024-07-05 23:49:09* LastEditors: wangZhiyu <w3209605851163.com>* File…

强化学习的数学原理:时序差分算法

概述 之前第五次课时学习的 蒙特卡洛 的方法是全课程当中第一次介绍的第一种 model-free 的方法&#xff0c;而本次课的 Temporal-Difference Learning 简称 TD learning &#xff08;时序差分算法&#xff09;就是第二种 model-free 的方法。而对于 蒙特卡洛方法其是一种 non…

使用大漠插件进行京东联盟转链

由于之前开发了一套使用api转链的接口在前面几个月失效了。因为京东联盟系统升级&#xff0c;导致之前可以转的链接现在必须要升级权限才可以。但是升级条件对于我们这些自己买东西转链想省点钱的人来说基本上达不到。 所以&#xff0c;基于这种情况。我之前研究过大漠插件&am…

数据库的学习(4)

一、题目 1、创建数据表qrade: CREATE TABLE grade(id INT NOT NULL,sex CHAR(1),firstname VARCHAR(20)NOT NULL,lastname VARCHAR(20)NOT NULL,english FLOAT,math FLOAT,chinese FLOAT ); 2、向数据表grade中插入几条数据: (3,mAllenwiiliam,88.0,92.0 95.0), (4,m,George&…