8人团队历时半年打造开源版GPT-4o,零延迟演示引爆全网!人人可免费使用!

目录

01 Moshi

02 背后技术揭秘




GPT-4o可能要等到今年秋季才会公开。

然而,由法国8人团队开发的原生多模态Moshi,已经达到了接近GPT-4o的水平,现场演示几乎没有延迟,吸引了大量AI专家的关注。


令人惊讶的是,开源版的GPT-4o来得如此之快!
 

01 Moshi

昨晚,来自法国AI实验室kyutai的团队展示了首个实时原生多模态Moshi,效果媲美5月发布的GPT-4o。

例如,在一个演示中,Moshi作为助手帮助Alexa小哥进行太空探索,让人仿佛置身《流浪地球》中的Moss情景。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard




值得注意的是,这个由8人团队在仅仅半年的时间里,从零开始完成了模型的训练。


Moshi目前处于实验原型阶段,设计目的是理解和表达情感,支持听、说、看三种功能,并能够用70种不同的情绪和风格说话,甚至随时打断。

其最突出的能力是可以同时处理两个音频流,实现“听”和“说”同步进行。

这种实时互动的实现基于文本和音频混合的联合预训练,使用Helium中的合成文本数据,训练出70亿参数的模型。



Moshi的端到端延迟最低可达160ms。最小版本的Moshi还可以在笔记本电脑或消费级GPU上运行。

许多人认为这是最接近GPT-4o的模型,Moshi的惊艳表现赢得了LeCun、Karpathy等AI大佬的转发。

Moshi这个名字来源于日语中的“もしもし”(接电话时的问候语)。接下来,Patrick邀请了四位同事上台展示Moshi的强大语音能力。

02 背后技术揭秘


Moshi在技术上有哪些创新,才能具备对标GPT-4o的实力?随后,同事们介绍了当前语音AI的一些限制,例如“听”使用自动语音识别技术,“想”使用大模型,“说”使用文本-语音技术。

这些分门别类的技术会导致语音AI出现较多延迟。


他认为,最明显的事实是——GPT-4o的语音功能尚未推出,而Moshi已在发布后上线。


此外,他还提到了几个值得关注的技术要点:

  • 像kyutai这样的小型团队在6个月内构建出Moshi,表明其训练流程和架构非常简单且具有巨大的可扩展性,合成数据也起到了重要作用。
     
  • Moshi专注于本地设备的部署,这将使其迅速流行并无处不在。相比之下,像GPT这样的模型由于盈利需求,不太可能推动本地运行。
     
  • 在保持答案质量达到Llama 8B或以上水平的同时,将延迟降低到300ms以下是实现互动的关键因素。

那么,如何将这些步骤整合到单一的语音模型中呢?这正是kyutai的目标所在。

多模态Moshi不仅能够听和说,同时在语音输出时进行思考。

理论上,Moshi可以实现最低延迟为160毫秒,创造了世界新纪录。

该模型采用了I/O双通道系统,同时生成文本token和音频编解码器。

具体而言,语言模型Helium-7B首先进行从头训练,然后与文本和语音编码器联合训练。

语音编解码器基于Kyutai内部的Mimi模型,具有高达300倍的压缩系数,能够捕捉语义和声学信息。

在Moshi的微调过程中,采用了涉及100k个"口语式"合成对话的高度详细的文本记录,这些记录带有情感和风格注释,均由Helium模型转录而来。

此外,模型的语音训练还使用了另一个独立的TTS模型生成的合成数据。

模型还利用专业配音演员Alice录制了20小时的音频,并基于此进行微调。

研究人员指出,Moshi设计具有适应性,只需不到30分钟的音频即可完成微调。

在部署方面,Moshi托管在Scaleway和抱抱脸上,能够处理两个批次大小为24 GB VRAM的任务。

此外,它还支持多种后端,包括CUDA、KV缓存,并能通过Rust优化推理代码。

为确保音频安全性,Kyutai将为生成的音频加上水印,并在数据库中对其进行索引。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/771349.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

rtsp地址 + 测试网站 + java(免环境、免插件、零编码转换http播放)

目录 1、创建rtsp网站 2、测试rtsp网站 3、Java实现rtsp播放 ①maven添加依赖 ②访问http地址即可展示视频内容 1、创建rtsp网站 填写邮箱即可获得两个可用的rtsp网站(每月可免费用2G): https://rtsp.stream/ 2、测试rtsp网站 测试网络…

Springboot+Vue3开发学习笔记《2》

SpringbootVue3开发学习笔记《2》 博主正在学习SpringbootVue3开发,希望记录自己学习过程同时与广大网友共同学习讨论。 总共涉及两部分,第一部分为基础部分学习,第二部分为实战部分。 一、学习路径 1.1 基础部分 配置文件整合MyBatisBea…

在docker配置Nginx环境配置

应用于商业模式集中,对于各种API的调用,对于我们想要的功能进行暴露,对于不用的进行拦截进行鉴权。用于后面的付费 开发环境 正式上线模式 一、常用命令 停止:docker stop Nginx重启:docker restart Nginx删除服务&a…

【笔记】记录一次全新的Java项目部署过程

记录一次全新的Java项目部署过程 环境:CentOS7 一、初始环境准备 yum install wget -y yum install vim -y yum install net-tools -y mkdir /data mkdir /data/html mkdir /data/backend一、安装JDK 17 安装JDK17 # 下载rpm wget https://download.oracle.com…

@amap/amap-jsapi-loader 实现高德地图中添加多边围栏,并可编辑,编辑后获得围栏各个点的经纬度

先上一张效果图 看看是不是大家想要的效果~ ❤️ 希望其中的小点能帮助大家,主要看怎么绘制在地图上的代码即可 1.第一步要加入项目package.json中或者直接yarn install它都可以 想必大家应该都会 "amap/amap-jsapi-loader": "0.0.7&qu…

深圳合规新动向,这个关键环节要做好

随着全球商业环境的日益复杂化,企业合规管理已成为维护公司稳健运营和市场竞争力的核心要素。特别是对于位于创新前沿的深圳市,有效的合规管理系统不仅是满足法律和监管要求的必须,更是企业可持续发展的关键。 深圳市在全国率先探索并成功实…

卡尔曼滤波Q和R怎么调

卡尔曼滤波器是一种有效的估计算法,主要用于在存在噪声的环境中估计动态系统的状态。它通过结合预测模型(系统动态)和观测数据(包括噪声)来实现这一点。在卡尔曼滤波中,调整过程噪声协方差矩阵 ( Q ) 和测量…

uboot run命令基本使用

run 命令可以用于运行环境变量的中定义的命令,run bootcmd 可以运行bootcmd中启动命令 作用:可以运行我们自定义的环境变量 include/command.h common/cli.c /*** board_run_command() - Fallback function to execute a command** When no command line features are enabled …

自然语言处理学习--3

对自然语言处理领域相关文献进行梳理和总结,对学习的文献进行梳理和学习记录。希望和感兴趣的小伙伴们一起学习。欢迎大家在评论区进行学习交流! 论文:《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》 下面…

软件确认测试和系统测试包括哪些测试内容?有什么区别?

一、软件确认测试 软件确认测试,顾名思义,是为了确认软件的正确性和完整性而进行的测试过程。它旨在验证软件是否符合用户需求和软件开发规范。测试内容包括: 1、功能确认:通过对软件各项功能进行测试,验证其是否按照…

商用车水箱浮球液位开关

商用车水箱浮球液位开关概览 商用车水箱浮球液位开关是一种用于监测商用车辆水箱液位的设备,它可以有效地控制和监控水箱中的水位,确保车辆的正常运作。这种液位开关通常安装在水箱内部,通过浮球和磁性原理来感知液位的变化,并通…

AI墓地:738个倒闭AI项目的启示

近年来,人工智能技术迅猛发展,然而,不少AI项目却在市场上悄然消失。根据AI工具聚合网站“DANG”的统计,截至2024年6月,共有738个AI项目停运或停止维护。本文将探讨这些AI项目失败的原因,并分析当前AI初创企…

商务视频推广打造有吸引力的7个秘诀-华媒舍

商务视频推广是现代企业发展的重要工具,它能够帮助企业吸引更多的目标客户,提升品牌知名度,增加销售量。但是,如何打造一部有吸引力的商务视频推广呢?本文将为您介绍7个秘诀,帮助您在商务视频推广中取得成功…

【Unity navmeshaggent 组件】

【Unity navmeshaggent 组件】 组件概述: NavMeshAgent是Unity AI系统中的一个组件,它允许游戏对象(通常是一个角色或AI)在导航网格(NavMesh)上自动寻路。 组件属性: Radius:导航…

100个名人的家,娄艺潇的家:大美国色,浪漫栖居

冠珠瓷砖「100个名人的家」,大美筑家,中国冠珠2024大美筑家之旅,冠珠瓷砖「100个名人的家」,探索中国人的烟火浪漫与美学追求。从中国家文化、人文居所、人生底蕴层面,发掘大美人居的故事,以中国瓷砖、空间…

无人机测绘需要注意什么?

无人机测绘是一项高精度的测量工作,需要注意以下四点: 一、作业前准备:沟通相关事宜,现场勘查,飞行环境检查等; 二、航线规划与像控点布设:航线规划是任务规划的核心内容,需要综合…

工业智能网关在现代工业生产中的重要性-天拓四方

工业智能网关是一款具备挖掘工业设备数据并接入到自主开发的云平台的智能嵌入式网络设备。它具备数据采集、协议解析、边缘计算,以及4G/5G/WiFi数据传输等功能,并能接入工业云平台。这种网关不仅支持采集PLC、传感器、仪器仪表和各种控制器,还…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(二十一)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 31 节) P31《30.数据持久化-关系型数据库》 上一节中学习了使用用户首选项的方式实现数据持久化,但用户首…

航空数据管控系统-①项目准备阶段:任务2:项目技术预研(技术架构)

任务描述 掌握项目的总体功能,及实现流程。预习项目中所使用到的技术和知识点。 任务指导 一、项目效果展示 图1-数据统计大屏页面 图2-航空实时监控页面 二、项目架构 1、总体架构: 2、技术架构 技术清单: 功能 组件 说明 消息中间件…

用增之Facebook(二)

事件上报: SDK集成参考上一篇文章,代码的调用就一个方法 AppEventsLogger mLogger AppEventsLogger.newLogger(context); 例如,普通事件上传 mLogger.logEvent(“event_name”, bundle); 支付事件比较特殊 Currency curr Currency.getIns…