大模型再进化,实时互动成为未来核心能力

就在上周,OpenAI 又在 AI 湖面抛下一块大石,激起了千层浪:全新一代旗舰生成模型 GPT-4o 登场了。从现场演示来看,它与人类进行了一轮轮无缝衔接的对话,丝滑得就像真人,不仅响应时间极短,还能识别人类语气,幽默地接住一个个梗,实现了令人惊艳的体验飞跃。

02b8c195a5014c3b1f3bc5d89ab65e35.gif

01 大模型走向高实时互动

RTC 技术大有可为

在 GPT-4o 诞生之前,我们当然也可以通过语音与 ChatGPT 交谈,不过对话延迟非常感人。

GPT-3.5 给出回应的延迟约为 2.8 秒,GPT-4 延迟则为 5.4 秒,这期间经历了三个过程:通过一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并处理输出文本,再通过另一个模型将文本转换成音频输出。

9a451e12f6d5c1df90c1bc815be45ff1.png

GPT-4o诞生前 音频处理流程示意

多道转化处理工序,不仅意味着久到离谱的延迟,也意味着大量信息的丢失,GPT 无法直接获取信息,自然也无法通过转化后的文本观察说话人的语调和情绪。

而在即时反应、语言理解等方面,GPT-4o 取得了突破性进展,它是一款真正的多模态大模型,能够实时对音频、视觉和文本进行演绎推理,所有的输入和输出都由同一个神经网络处理,对音频输入做出反应的时间平均为 320 毫秒,几乎与人类对话无异。

8c898f80c8a1203dcbb428e5863c66d3.png

GPT-4o的音频处理流程示意

OpenAI 作为如今全球 AI 发展的领头羊,一举一动都有着技术风向标的意义。GPT-4o 在实时交互能力上的长足进步,意味着实时多模态将成为大模型进化的新方向。

为了在全球范围内实现尽可能快的响应速度,除了大模型本身的迭代升级外,提供语音/图像低延时传输能力的 RTC 技术至关重要,因此在此次迭代中,OpenAI 还首次接入了 RTC SDK。

02 RTC如何发挥优势

让大模型变得更实时?

如何充分发挥 RTC 技术优势,让大模型变得更实时的呢?

在发布会的现场演示环节,GPT-4o 扮演了一次“在线导师”的角色,用户打开摄像头将手写的方程式录制下来,它就能快速鼓励和引导用户完成解题,这就得益于 GPT-4o 实时视频输入和识别的能力。

在 GPT-4o 之前,这类语音识别、音频处理或生成的应用,通常是在终端采集音频后,直接将原始裸数据发送给大模型。这个过程中,首当其冲要克服的就是延迟问题。

一般情况下延迟主要来自两个方面:数据量大带来的延迟、边缘网络接入问题造成的延迟。

● 数据量大带来的延迟:视频文件的原始数据远比文本/音频文件更大,举例来说,一帧 720p 的 RGB 图像大小就达到了 2.7MB 左右,若不经过压缩处理很难在互联网上传输,大文件传输造成的延迟不可忽略。

● 边缘网络接入问题造成的延迟:用户边缘终端与大模型机房的物理距离可能非常远。例如:亚洲用户访问 GPT-4o 可能需要跨越半个地球进行数据传输,很难保证可靠性和实时性。

而在接入 RTC 技术后,GPT-4o 延迟问题迎刃而解,通过在终端设备上对音视频进行编码压缩来降低传输数据量,同时通过 QoS 和就近接入来解决边缘网络问题,将音视频跨国传输降低到 300ms 内,为大模型打造更极致的交互体验,达成如真人对话似的效果。

ec5f1aaaa80d2520ddee4960872517e7.png

03 大模型实时化

打开更广阔的场景想象空间

在场景落地方面,更实时的大模型有着更广阔的想象空间。

例如:搭载 GPT-4o 的游戏内 NPC 具备了强大的理解能力,能自主生成音频对话内容,懂玩家意图、跟玩家互动、与玩家合作,甚至建立深度的人机社交关系,带来沉浸式的游戏体验;

实时交互的大模型能成为很好的口语老师,语音教学的同时给予即时反馈;

在电商大促时期,具备甜妹人声的 AI 客服能解答消费者的疑问,也能抚平消费者处理售后问题时的烦躁。

甚至具备更强的社会和公益价值。谷歌曾经展示过 AI 在帮助弱视人群方面的能力。我们都喜欢用自拍模式记录生活日常,这个看似简单的动作对于弱视人士来说却很难,受限于视力障碍,他们难以看清自拍时画面中的一切。Google Pixel 手机上的引导框功能能知晓画面内容,并结合音频提示、触觉反馈等帮助盲人和低视力人群完成自拍和合影。

a4e5ca1ba789c0c4e9107d0ba6e373d7.gif

Google AI 帮助弱视人士记录美好生活

若将 GPT-4o 融入该场景,相信它的实时视频输入和识别能力会为视障人士带来更好的体验,让不幸的人也能记录下美好生活片段。

04 网易云信 RTC

助力 AI 未来场景实现

网易云信是全球领先的融合通信云服务提供商,提供包括实时音视频、即时通讯、短信服务在内的全方位解决方案,RTC 服务以其稳定性和安全性,赢得了各行业头部企业的信任。

在超低延时传输方面,目前多数 AI 能力实现依赖于云端的 GPU 算力,为了优化端到端的用户体验,利用 RTC 的低延时特性可以显著提升全链路 AI 应用的效果的核心能力,尤其是在需要快速响应的应用场景中。网易云信 RTC 自研了低延时传输协议和全链路智能 QoS 传输算法,依托 WE-CAN 全球智能路由网络,最终实现了极致的端到端 300ms 延时。

为了实现实时的语音和视频交互,丰富易用的云端媒体处理 Pipeline 也是非常核心的能力。网易云信的云端 MPS(Media Process Server)服务将传输、解码、处理(包括AI处理)、编码、转推等全链路都做标准 Pipeline,并且各个模块都是可插拔的,能够非常好地将各类 AI 处理嵌入到音视频流的获取和生成流程中。

6f85cbc27ba5e23efb6d95f6ec88a9eb.png

MPS AI 处理 Pipeline 示意图

AI 是一柄锋利的双刃剑,在带来体验革新的同时,并存着诸多的技术应用风险。聚焦到音频生成、视频生成以及实时通话、直播等场景,比较突出的问题在于版权问题、隐私安全、伦理道德等方面,此外视频换脸、语音模拟、不当使用造成的个人隐私泄露、身份欺诈、虚假和有害信息传播等风险,也在 AI 加持下被显著放大。

在这方面,网易云信联合网易易盾推出一站式安全检测方案——安全通,为 IM、RTC 和直播点播提供完备的 AIGC 内容安全解决方案。同时提供声音伪造、视频伪造检测等防御性识别能力,确保创作的内容不被用于有害或非法目的。

除此之外,目前云信已在网易内部内测基于大模型的一站式音视频解决方案,包括了多项云端 AI 能力,例如:AI 语音助手、实时字幕、实时摘要、通话高光时刻总结等等,很快我们将对外开放这些能力。当然,除了基于网易自研的云端 AI 能力,我们也在研发与各大模型厂商构建方便易用的 AI Agent 通用架构,并基于此帮助企业快速构建低延时、高清的 AI 音视频产品应用。

f773d65020aa8cb7907ac5f22127a749.png

云信 AI Agent 示意图

关于我们

e49c38cc328dfdb6139b4013dfadc77f.png

outside_default.png

   干货资料 免费领取   

outside_default.png

【扫描二维码】即可免费领取!

87dc917604a484503473222267736aa0.png

fda2b9a782df01ebccd7d3c058a32f6b.png

ab27537cf338753a0c8e45e018493100.png

17facd9bfe690977445e74603e696b94.png

58885bc3eb729145142382bb5601cd2e.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/641568.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SkyWalking 介绍及部署

1、SkyWalking简介2、SkyWalking的搭建 2.1 部署Elasticsearch2.2 部署SkyWalking-Server2.3 部署SkyWalking-UI3、应用接入 3.1 jar包部署方式3.2 dockerfile方式3.3 DockerFile示例4、SkyWalking UI 界面说明 4.1 仪表盘 4.1.1 APM (1)全局维度&#x…

IDEA中好用的插件

IDEA中好用的插件 CodeGeeXMybatis Smart Code Help ProAlibaba Java Coding Guidelines​(XenoAmess TPM)​通义灵码常用操作 CodeGeeX 官网地址:https://codegeex.cn/ 使用手册:https://zhipu-ai.feishu.cn/wiki/CuvxwUDDqiErQUkFO2Tc4walnZY 安装完…

欣赏倪诗韵青桐断纹古琴很罕见:万中无一。

欣赏倪诗韵青桐断纹古琴很罕见:万中无一。龙池侧签海门倪诗韵制,带收藏证书此琴断纹优美如江面波光粼粼,为流水蛇腹断,是倪老师作品精品中的精品。细心的朋友可以看出倪老师在这张琴上题字非常小心认真。用一个词来形容——万中无…

【Unity2D:Animator】为角色添加动画效果

一、添加Animator组件并创建Animator Controller文件 1. 添加Animator组件: 2. 在Assets-Art文件夹中新建一个名为Animations的文件夹,用来存储所有动画资源 3. 在Animations文件夹中新建一个名为Player的文件夹,再创建一个名为Animators的文…

通过RAG架构LLM应用程序

在之前的博客文章中,我们已经描述了嵌入是如何工作的,以及RAG技术是什么。本节我们我们将使用 LangChain 库以及 RAG 和嵌入技术在 Python 中构建一个简单的 LLM 应用程序。 我们将使用 LangChain 库在 Python 中构建一个简单的 LLM 应用程序。LangChai…

白鹭群优化算法,原理详解,MATLAB代码免费获取

白鹭群优化算法(Egret Swarm Optimization Algorithm,ESOA)是一种受自然启发的群智能优化算法。该算法从白鹭和白鹭的捕食行为出发,由三个主要部分组成:坐等策略、主动策略和判别条件。将ESOA算法与粒子群算法(PSO)、遗传算法(GA)…

提取COCO 数据集的部分类

1.python提取COCO数据集中特定的类 安装pycocotools github地址:https://github.com/philferriere/cocoapi pip install githttps://github.com/philferriere/cocoapi.git#subdirectoryPythonAPI若报错,pip install githttps://github.com/philferriere…

docker-如何将容器外的脚本放入容器内,将容器内的脚本放入容器外

文章目录 前言docker-如何将容器外的脚本放入容器内,将容器内的脚本放入容器外、1. docker 如何将容器外的脚本放入容器内1.1. 验证 2. 将容器内的脚本放入容器外 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊&…

【AI绘画Stable Diffusion】单人LoRA模型训练,打造你的专属模型,新手入门宝典请收藏!

大家好,我是灵魂画师向阳 本期我将教大家如何进行LoRA模型训练,打造你的专属模型,内容比较干,还请耐心看完! 随着AIGC的发展,许多传统工作岗位正逐渐被AI取代。同时,AI变革也在创造前所未有的…

机器学习知识与心得

目录 机器学习实践 机器学习基础理论和概念 机器学习基本方法 1.线性回归(回归算法) 训练集(Training Set) 测试集(Test Set) 交叉验证 正则化 特点 2.logistic回归(分类算法&#xf…

智慧环保一体化平台哪家好?(已解答)

在环保行业数字化转型的大潮中,朗观视觉智慧环保一体化平台应运而生,成为推动环境治理现代化的重要手段。选择一个合适的智慧环保一体化平台对于提升环境管理效率、实现精细化监管具有重要意义。本文将从多个维度为您提供一份深度分析与选择指南&#xf…

Python使用virtualenv创建虚拟环境

目录 第一步:安装virtualenv 第二步:选择一个文件夹用来放所创建的虚拟环境 第三步:创建虚拟环境 第四步:激活虚拟环境 第五步:退出虚拟环境 第六步:测试安装django 前提:你得有个python环…

学习通高分免费刷课实操教程

文章目录 概要整体架构流程详细步骤云上全平台登录步骤小结 概要 我之前提到过一个通过浏览器的三个脚本就可以免费高分刷课的文章,由于不方便拍视频进行实操演示,然后写下了这个实操教程,之前的三个脚本划到文章末尾 整体架构流程 整体大…

windows安装rocketmq遇到的问题

运行mqnamesrv.cmd闪退问题。 首先检查是否安装java环境 cdm运行java -version 然后确定环境变量是否配置正确 如果这些地方都没问题那就比较麻烦了,可能是jdk版本(小版本)与rocketmq不匹配。 小编用的版本: jdk是openjdk 1.8…

DOS学习-目录与文件应用操作经典案例-type

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.使用 三.案例 1. 查看文本文件内容 2. 同时查看多个文本文件内容 3. 合并文…

mysql驱动版本变更导致查询数据结果一直是空

1 引言 最近接手了一个已离职同事的java项目,这个项目中原来使用了自己的mysql驱动版本,并未使用公司公共依赖中的版本号。我想为了统一版本号,就将当前项目中pom文件中mysql的版本号verson给去除了。没怎么自测,就直接发到测试环…

【网络】为什么udp协议报头有长度字段,而tcp没有

引言: 在网络通信中,UDP(用户数据报协议)和TCP(传输控制协议)是两种常用的传输层协议。它们在设计和功能上有一些不同之处,其中之一就是报头中的长度字段。本文将深入探讨UDP和TCP协议中长度字…

解释JAVA语言中关于方法的重载

在JAVA语言中,方法的重载指的是在同一个类中可以存在多个同名方法,但它们的参数列表不同。具体来说,重载的方法必须满足以下至少一条条件: 1. 参数个数不同。 2. 参数类型不同。 3. 参数顺序不同。 当调用一个重载方法时,编译器…

2024 电工杯(B题)数学建模完整思路+完整代码全解全析

你是否在寻找数学建模比赛的突破点?数学建模进阶思路! 作为经验丰富的数学建模团队,我们将为你带来2024电工杯数学建模竞赛(B题)的全面解析。这个解决方案包不仅包括完整的代码实现,还有详尽的建模过程和解…

用队列实现栈,用栈实现队列

有两个地方会讨论到栈,一个是程序运行的栈空间,一个是数据结构中的栈,本文中讨论的是后者。 栈是一个先入后出,后入先出的数据结构,只能操作栈顶。栈有两个操作,push 和 pop,push 是向将数据压…