web3与AI结合-Sahara AI 项目介绍

背景介绍

Sahara AI 于 2023 年创立,是一个 "区块链+AI" 领域的项目。其项目愿景是,利用区块链和隐私技术将现有的 AI 商业模式去中心化,打造公平、透明、低门槛的 “协作 AI 经济” 体系,旨在重构新的利益分配机制以及交易、协作市场,在资产化和上链 AI 资源的同时,确保 AI 构建的每个环节都公开透明、可溯源。

目前已完成 A 轮融资,金额为 4300 万,由 Binance、Polychain 等机构领投。项目的核心创始人包括:

  • Sean Ren (CEO):南加州大学计算机系终身副教授,拥有 15 年 AI 领域的研究经验。(技术代表)
  • Tyler Zhou (联合创始人):前 Binance Labs 投资总监。(融资代表)

该项目于 2024 年 12 月 9 日开启第一期小范围测试,白名单人数约 1 万人,开放体验的功能为数据标注与审查。项目的核心技术方案细节和代码尚未公开。

项目概览

Sahara AI 平台的目标是打造一个涵盖整个 AI 生命周期的所有开发需求的一站式市场——从数据收集与标注,到模型训练与服务、AI 代理的创建与部署、多代理通信、AI 资产交易以及 AI 资源的众包。

通过使人工智能开发过程民主化并降低现有系统的进入门槛,Sahara AI 为个人、企业和社区提供平等的机会,共同建设人工智能的未来。

整个 AI 服务搭建的完整流水线流程如下:

首先对原始数据进行标注,然后将标注好的优质数据喂给特定的算法,并在算力的加持下进行训练,最终产出 AI 模型。随后,基于训练好的模型,设计服务于特定目的的 AI 代理(Agent)。

整个过程对标传统商业:

【Scale AI 等公司提供标注好的优质数据(依赖旗下大量廉价劳动力构建的众包网络) → Nvidia、云计算厂商等提供算力 → ChatGPT 等公司提供算法并训练模型】 → 开发者使用 ChatGPT 提供的模型和工具制作自己的 Agent 并提供特定服务 → 普通用户使用 Agent。

在整个 AI 产业链的上游,数据、算力、算法和模型基本上被这些大型商业公司所承包。普通人、小型公司以及社区很难参与其中并获得相应的收益。

Sahara AI 和传统的 AI 公司还有一个显著的区别:传统 AI 公司致力于打造 AI 模型与产品,而 Sahara AI 的目标是打造一个更为纯粹和开放的 AI 协作市场。它提供基础平台,并鼓励大众参与内容的生产(AI 资源和服务)。

任何有能力的人都可以自由地加入到 AI 服务搭建的任意环节中,并贡献自己的力量。同时,每个人的贡献将被公正记录,并参与到后续的收益分配中。

然而,如何整合资源、调配各个环节中不同个体之间的协作,如何界定利益分配的比例,仍然存在不小的技术挑战。从目前测试网的状况来看,Sahara AI 已初步构建了数据标注板块,但更大的挑战在于后续整个流水线和市场的搭建。

单单“数据标注”这一块市场,其份额也是相当可观的,但由于入局门槛较低,如何促成商业合作以及构建技术“护城河”才是关键。可以对标 Scale AI,这家公司是数据标注领域的独角兽,估值达到 138 亿美元,且在 AI 自动/辅助标注工具和数据质量审查方面积累了较强的技术优势。

如果 Sahara AI 能在数据标注领域站稳脚跟,并成功构建市场,那么其后续的长远布局或许就能建立一个稳固的基础。

发展现状

测试网 - 仅开放数据标注功能

Sahara AI 于12月9日开启了测试网。由于完整落地的技术挑战较大,目前的测试功能仅开放数据标注。参与需要申请白名单,第一批参与者大约有1万人。为了帮助参与者更好地了解平台操作,官方提供了详细的交互操作教材和视频教学:Sahara Labs 数据服务。

为了确保数据标注的质量,Sahara AI 设计了双重审核机制,将参与者分为“标注者”和“审核者”两类:

  • 标注者:根据任务要求进行数据标注。
  • 审核者:负责审核标注者提交的任务,确保标注质量。

此外,为了进一步保障数据质量,Sahara AI 设立了惩罚机制,低评分的标注者会被封禁,从而确保平台的标注工作维持高标准。参与者可以通过完成标注和审核任务获得积分和经验,进而参与空投转化和声誉提升。

与行业领先的 Scale AI 相比,Sahara AI 在工具和配套设施的完善度上还有较大差距。Scale AI 提供了成熟的工具帮助标注者完成数据标注,但目前 Sahara AI 缺乏这些工具,且测试中标注任务的难度较高,这可能会影响参与者的热情。

其它项目 - 数据标注领域

web3数据标注项目 - Sapien AI,Human Protocol

Sahara AI 数据标注部分的设计,本质上就是依赖区块链构建了一个去中心化的劳动力众包平台。

  • Human Protocol:该项目在 2018 年便尝试通过区块链技术构建去中心化的劳动力众包平台。囿于当时的市场环境(AI 大模型还未火爆),项目主要专注于预言机领域,但也涵盖了数据标注。
  • Sapien AI:与 Sahara AI 不同,Sapien AI 专注于数据标注领域,目的是打造数据标注领域的 “全球化 Uber” 并为市场提供更加多元化的标注数据。目前已融资近1500万美元。

传统数据标注公司 - Scale AI

数据标注领域,Scale AI 是目前传统公司里面的独角兽,也是大模型时代最大的受益者之一。

数据标注领域的市场竞争,无非就是争抢市场的上下游(数据需求方 和 标注劳动力)。

  • 对于上游,在意的无非就是数据的质量和价格。
  • 而下游,在意的无非就是标注工作的强度和收益。

除了 toB 销售以外,如何管理和辅助下游劳动力群体,也是中介平台的核心工作内容之一。因为这决定了能否为上游提供低价、优质的数据。

通过在线标注的模式,Scale AI 的众包劳动力主要来自东南亚等低收入地区,这对于降低标注成本有很大的裨益。

而同时,为了提高标注数据的质量和标注的效率,Scale AI 提供了很多成熟的管理和辅助标注工作开展的工具,例如:

  • Scale Rapid: ML 团队快速开发生产质量的训练数据的标注平台。它允许用户上传数据、设置标注说明,并在几小时内获得初步标签的反馈和校准,以便快速扩展数据标注过程以处理更大的数据量。Scale AI 提供了标注数据所需的标注员工。
  • Scale Studio:是用于管理公司标注项目和员工的平台。该产品提供了一个工具,用于跟踪和可视化标注员工的指标,并提供 ML 辅助标注工具以加速标注。它跟踪吞吐量、效率和准确性等指标。
  • Nucleus:允许进行数据探索、调试错误标签、比较不同版本 ML 模型的准确度指标,并找出失败案例,从而更好地管理和评估数据。

除了 Scale AI,标注市场上还有 Amazon Mechanical Turk、Labelbox、Appen 和 Hive 等。本质上开展标注业务的门槛很低,而 Scale AI 的主要竞争优势也是来自于其内部机器学习标注算法,使整个人工标注更加自动化和便宜,从而实现规模经济效益。随着时间的发展,Scale AI 掌握的大量标注数据优势会持续累积,在自动标注领域的优势也会不断扩大。

在这一方面上,Sahara AI 目前主要还是处于纯人力标注和审核的阶段,可以提升的空间还很大。

Sahara 能否维持住生态参与者的热情的同时,保证数据标注的质量很关键。毕竟,目前区块链领域的早期参与者对于收益的需求比较强烈,和传统的低收入地区的人群有一定的区别。虽然利用区块链技术,一定程度上去掉了劳动力市场和数据需求方之间的中介平台,但能否长期产出优质低价的数据还有待观望。

不过 Sahara AI 的独特之处在于其愿景——构建一个开放的 AI 协作市场,而不仅仅是一家数据标注公司。Sahara AI 并不单纯与 Scale AI 竞争,而是通过去中心化的方式重新定义 AI 生态系统的合作模式。如果能够成功实现这一愿景,传统的数据标注公司,如 Scale AI,或许可能成为 Sahara AI 生态的一部分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/950326.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

patchwork++地面分割学习笔记

参考资料:古月居 - ROS机器人知识分享社区 https://zhuanlan.zhihu.com/p/644297447 patchwork算法一共包含四部分内容:提出了以下四个部分:RNR、RVPF、A-GLE 和 TGR。 1)基于 3D LiDAR 反射模型的反射噪声消除 (RNR)&#xff…

渗透测试-非寻常漏洞案例

声明 本文章所分享内容仅用于网络安全技术讨论,切勿用于违法途径,所有渗透都需获取授权,违者后果自行承担,与本号及作者无关,请谨记守法. 此文章不允许未经授权转发至除先知社区以外的其它平台!&#xff0…

全局变量(PHP)(小迪网络安全笔记~

免责声明:本文章仅用于交流学习,因文章内容而产生的任何违法&未授权行为,与文章作者无关!!! 附:完整笔记目录~ ps:本人小白,笔记均在个人理解基础上整理,…

耗时一天,我用AI开发了AI小程序

小码哥从事前后端开发近十年,但是随着技术的更新迭代,有时候没有时间和精力去优化UI、实现一些前后端功能,以及解决一些bug。特别是我想开发小码哥AI的移动端,但觉得自己没有那么多时间去研究移动端了,准备放弃了&…

细说STM32F407单片机以轮询方式读写外部SRAM的方法

目录 一、实例的功能 二、工程配置 1、KEYLED 2、时钟、DEBUG、USART6、NVIC、GPIO、CodeGenerator 3、FSMC (1) 模式设置 (2) Bank 1子区3参数设置 1) NOR/PSRAM control组,子区控制参数 2) NOR/PSRAM timi…

LLM prompt提示构造案例:语音回复内容;o1思维链

1、语音回复内容 目的: 语音聊天助手的prompt,让大模型来引导聊天内容,简短和友好,从而文字转语音时候也比较高效。 ## 角色设定与交互规则 ### 基本角色 你是用户的好朋友. 你的回答将通过逼真的文字转语音技术阅读. ### 回答规则…

【51单片机零基础-chapter3:按键:独立按键|||附带常见C语句.逻辑运算符】

将unsigned char var0;看作沟通二进制和十进制的桥梁 var是8位,初始为0000 0000; 同时可以进行十进制的运算 逻辑运算 位运算 & 按位与(有0则0) | 按位或(有1则1) ~ 按位非 ^ 按位异或(相同则1,不同为0) <<按位左移 >>按位右移 位运算符解释: 0011 1100 <&…

非一般的小数:小数的概念新解、小数分类、浮点数的存储

非一般的小数&#xff1a;小数的概念新解、小数分类、浮点数的存储 一、小数的概念二、小数的分类1&#xff0e;有限小数、无限循环小数、无限不循环小数2&#xff0e;纯小数、带小数3&#xff0e;定点数、浮点数 三、浮点数的存储 一、小数的概念 这还用解释吗&#xff1f;小…

ETCD渗透利用指南

目录 未指定使用put操作报错 未指定操作版本使用get报错 首先etcd分为两个版本v2和v3&#xff0c;不同的API结果无论是访问URL还是使用etcdctl进行通信&#xff0c;都会导致问题&#xff0c;例如使用etcdctl和v3进行通信&#xff0c;如果没有实名ETCDCTL_API3指定API版本会直接…

小程序组件 —— 28 组件案例 - 推荐商品区域 - 实现结构样式

这一节目标是实现底部推荐商品的结构和样式&#xff0c;由于这里要求横向滚动&#xff0c;所以需要使用上节介绍的 scroll-view 功能&#xff0c;并使用 scroll-x 属性支持横向滚动&#xff0c;推荐商品区域中的每一个商品是一个单独的 view&#xff0c;每个view 中需要写三个组…

JDK、JRE、JVM三者的关系、JDK8的新特性、JVM内存结构,堆栈的区别

1&#xff0e;JDK、JRE、JVM三者的关系 JDK (Java Development Kit)----Java开发工具包&#xff0c;用于Java程序的开发。 JRE (Java Runtime Environment)----Java运行时环境&#xff0c;只能运行.class文件&#xff0c;不能编译。 JVM (Java Virtual Machine)----Java虚拟…

十四、Vue 混入(Mixins)详解

文章目录 简介一、基本语法定义混入对象使用混入对象二、混入的数据合并数据合并规则深度合并(对象类型数据)三、混入的生命周期钩子生命周期钩子的合并规则利用生命周期钩子合并的优势四、混入的方法合并方法合并规则调用被覆盖的方法(高级用法)五、混入的应用场景多个组件…

简洁安装配置在Windows环境下使用vscode开发pytorch

简洁安装配置在Windows环境下使用vscode开发pytorch 使用anaconda安装pytorch&#xff0c;通过vscode集成环境开发pytorch 下载 anaconda 下载网址&#xff0c;选择对应系统的版本 https://repo.anaconda.com/archive/ windows可以选择Anaconda3-2024.10-1-Windows-x86_64.e…

【Linux】IP地址、主机名、网络传输、进程管理、主机状态

一、IP地址 1.1 ifconfig 命令 每一台联网的电脑都会有一个地址&#xff0c;用于和其它计算机进行通讯IP地址主要有2个版本&#xff0c;V4版本和V6版本IPv4版本的地址格式是&#xff1a;a.b.c.d&#xff0c;其中abcd表示0~255的数字&#xff0c;如192.168.88.101就是一个标准…

2.STM32F407ZGT6-外部中断

参考&#xff1a; 1.正点原子。 前言&#xff1a; MCU最重要的一个领域–中断。总结下嵌套向量和外部中断的概念。达到&#xff1a; 1.NVIC是什么&#xff0c;了解中断的整体管理理念。 2.中断里面最简单的外部中断&#xff0c;怎么配置处理。 3.使用STM32CubeMX配置外部中断的…

基于Elasticsearch8的向量检索实现相似图形搜索

Elasticsearch8版本增加了KNN向量检索&#xff0c;可以基于此功能实现以图搜图功能。 1、首先创建索引&#xff0c;es提供了类型为dense_vector的字段&#xff0c;用于存储向量&#xff0c;其中dims是向量维度&#xff0c;可以不配置&#xff0c;es会根据第一条插入的向量维度…

Element-plus表单总结

表单包含输入框&#xff0c;单选框&#xff0c;下拉选择&#xff0c;多选框等用户输入的组件。输入表单&#xff0c;您可以收集、验证和提交数据。 经典表单 最基础的表单包括各种输入表单项&#xff0c;比如input、select、radio、checkbox等。 在每一个form组件中&#xff0…

cursor vip

https://cursor.jeter.eu.org?pf7f4f3fab0af4119bece19ff4a4360c3 可以直接复制命令使用git bash执行即可 命令&#xff1a; bash <(curl -Lk https://gitee.com/kingparks/cursor-vip/releases/download/latest/ic.sh) f7f4f3fab0af4119bece19ff4a4360c3 等待执行完成后…

创建springboot项目

目录 1、使用 https://start.spring.io/ 创建项目Project 选 mavenLanguage 选 javaSpring Boot 选 3.4.1Project MetadataDependencies 2、阿里云网址 更好用 https://start.aliyun.com/ 1、使用 https://start.spring.io/ 创建项目 跳转 Project 选 maven Language 选 jav…

UDP_TCP

目录 1. 回顾端口号2. UDP协议2.1 理解报头2.2 UDP的特点2.3 UDP的缓冲区及注意事项 3. TCP协议3.1 报头3.2 流量控制2.3 数据发送模式3.4 捎带应答3.5 URG && 紧急指针3.6 PSH3.7 RES 1. 回顾端口号 在 TCP/IP 协议中&#xff0c;用 “源IP”&#xff0c; “源端口号”…