“更大的焦虑,更大的想象力”:音视频厂商如何闯入AI时代?

从GPT3.5到GPT4.0,从Runway、Pika到Sora,当大模型的价值链不断升级,那些暂未爬到顶端的企业,还剩下多少‘生存空间’? 

于音视频厂商而言,企业要解决的难题是,如何将技术与用户连接在一起。让大模型发挥想象力的同时,更要解决用户的实际问题。

作者|思杭 

编辑|皮爷 

出品|产业家 

2024年初,国内的大模型公司还未从上一波“GPT4”的焦虑当中缓过来,Sora就已经席卷而至。紧接着,所有互联网大厂几乎都“停下手头工作”,开始在新的领域做出一点成绩,从而尽快在市场上发声。

但在近期阿里蔡崇信的采访中,他说道,“中国AI技术可能要落后美国两年”。在这种不断追赶的焦虑背后,一个引人思索的问题是,国内大模型公司追赶的究竟是什么?

站在更为具体的赛道上来看这一问题,作为离Sora最近的赛道——音视频而言,这种焦虑也在不断放大。

从GPT3.5到GPT4.0,从Runway、Pika到Sora,当大模型的价值链不断升级,那些暂未爬到顶端的企业,还剩下多少‘生存空间’?

实际上,于音视频厂商而言,当“追逐技术”变为“追逐用户”,这种价值就变得更加具体、更加实际。从近两年音视频厂商的发力趋势可以看出,AI虽然是不可错过的大趋势,但企业要解决的难题是,如何将技术与用户连接在一起。让大模型发挥想象力的同时,更要解决用户的实际问题。

一、AI时代,不断进击的“音视频”

2022年,先是钉钉的一套“组合拳”,紧接着,音视频PaaS/SaaS厂商也纷纷跟进,不仅大手笔投入研发,还在AI方向补充弹药进行长远布局,自此,围绕音视频赛道的“混战”也正式打响。

音视频PaaS公司“拍乐云”被收购一事在2022年受到广泛关注,收购方正是阿里钉钉。一石激起千层浪,音视频赛道迅速成为焦点。更为炸裂的消息是,有着视频会议开创者Webex架构师、网易云信CTO和拍乐云创始人等多个显赫头衔的“赵加雨”,也携团队空降钉钉音视频事业部的一号位。

而跟随赵加雨的这伙人,个个都是音视频领域的得力干将。其中,李备是拍乐云音频专家,曾有5年WebEx音频专家工作经验;章琦,拍乐云首席科学家,8年WebEx音视频引擎架构师工作经验。

所有信号都指向了阿里布局音视频赛道的决心。实际上,阿里在音视频的布局更早就开始了。2021年11月,钉钉内部成立了独立的音视频事业部,该事业部成立的初衷便是聚焦在“研究音频技术及算法创新,以及探索下一代音视频会议形态”。

钉钉这一枪打响后,长年深耕在音视频赛道的腾讯云,以及其他PaaS和SaaS厂商,也纷纷从研发、解决方案、应用场景和AI方面增添自己的弹药库。

同样身为互联网厂商,音视频于腾讯而言,可以算是一种“与生俱来”的基因。到2022年,腾讯云的步伐早已到了在技术侧实现突破,以及在行业应用上更加细分的程度。

比如腾讯云将一种能够远程实时控制的音视频技术方案,应用在煤矿、港口场景里的无人驾驶卡车运营当中。而在此之前,在传统行业里实现远程的音视频连接和操作,无论是技术还是应用场景方面都远未达到成熟。

对于其他音视频PaaS/SaaS厂商而言,增加研发投入则是一种更为直接的方式。

在2022年,除了阿里钉钉的一套“组合拳”,音视频赛道里的另一个重磅消息是,音视频SaaS第一股“百家云”在纳斯达克敲钟上市。其2022上半年营收就达到了6860万美元,实现同比增长65.5%。在2023年其更是净利润达480万美元,实现扭亏为盈。而其研发费用更从2021财年的580万美元大幅增加到2022财年的1300万美元。

实际上,这种研发费用的骤增不仅仅是底层技术方面的发力,还有定制化和AI方面的投入。从财报中看,在2022财年的全年营收中还增加了一项“定制平台开发服务”,全年该业务的营收达到了1030万美元;而AI解决方案的收入也增加了760万美元。

而与SaaS厂商不同,音视频PaaS厂商的研发投入则更重。以声网为例,根据其2022年的财报显示,当年的全年总营收是1.61亿美元,而单是研发费用就达到了1.1亿美元。

那么,这1.1个亿的费用具体体现在哪些方面?

2023年,声网推出“凤鸣AI引擎”,将AI降噪、AI回声消除、空间音频等技术进行了集成;在视频方向,推出了超高清能力的超分、画质提升、感知编码、虚拟背景和AR特效等增强观看体验、临场感和互动表达能力的实时AI技术;也开发了语音转文字、内容审核等AI功能来增加信息提取、传递和保存的维度。

这是在AI时代、大模型时代下对智能化的一种响应。但罗马不是一天建成的。于音视频厂商而言,推出AI相关的技术或应用场景需要长期的投入。

无论是声网,还是保利威、百家云等其他音视频PaaS/SaaS厂商,对于AI的积累都要追溯到几年前。只是从外界声音来看,2023年是集中发力的一年。

以声网为例,在凤鸣AI引擎中集成的大部分技术都源于多年的积累。产业家向声网CTO钟声了解到,“空间音频”是凤鸣AI引擎中集成的技术。利用AI算法来模拟头部球面区域的立体声场,在更细微处,甚至能捕捉到人的喜怒哀乐,将这种三维信息提取出来再放到AR增强的场景。从技术处理的细节便可以感知到,它是一种“厚积薄发”的产物。

实际上2023年,大模型在国内“狂飙”的同时,音视频厂商更是不可能错过这波风口。技术的长期投入,这一年给音视频厂商的机会是在服务场景上更深化、更细致。

最为常见的便是AIGC解决方案的发布,这也是在市场层面能够迅速引发关注的方式。比如声网在去年发布RTE X AIGC 一站式产品能力解决方案;百家云发布全新AIGC产品“市场易”;腾讯云在音视频产品矩阵上的智能化升级;保利威发布AI智能教育解决方案;即构推出AI视频生成应用“即构数智人”等等。

而在无数的声音背后,大模型给音视频带来的实际价值是什么?

二、技术、落地场景和“大小模型”方案

“到了今天这个时代,客户不会关注噱头,而是更切实地关注提高了多少效率,降低了多少成本。”这是保利威全国售前总经理王建成近两年的感受。

技术不断进步的同时,服务场景也正在进一步深化。

抛开底层技术,在大模型时代,如果说真正能在效率上提升,以及成本上有所降低,用户一定会在操作体验层面有更强的感知。

那么,更为细致的应用场景,便是结合AI大模型,来解决曾经几乎“不可能”的事情。

以金融领域为例,其监管十分严格。一种常见的情况是,在直播过程中需要人为干预,进行监听。所以这种情况下,实时生成字幕对于大部分的金融客户就很难满足。

王建成告诉产业家,保利威的做法是结合金融客户的特殊需求和行业特点,做出一种专为金融行业打造的特殊模型。

这是一种将直播技术与业务结合的最佳例证。而在AI大模型时代,在技术高度不断刷新的当下,真正去解决用户的实际问题,对于音视频SaaS厂商,或许是一个更为务实的答案。

为什么说焦虑与现实有时并不成正比?

一方面,技术高度的不断刷新确实会带给人更大的焦虑,但另一方面,从现实的角度来讲,技术高度的不断刷新却并未真正下沉到产业,发挥真正的价值。

根据艾瑞咨询报告显示,在目前实时音视频领域,领跑场景依旧停留在C端,在实际生产过程中,产业数字化的价值微乎其微。

那么,从技术的角度出发,音视频技术现在究竟发展到什么程度了?

可以看到的是,腾讯云已经能够实现在煤矿、港口场景里,实时控制无人驾驶卡车运营。这是近两年较为新鲜的尝试。在这些场景同样有所布局的还有声网。除了更深入产业侧的工业领域 ,声网也在IoT行业、医疗健康行业持续发力。

而在大模型未到来之前,远程的音视频连接和操作,无论是技术还是应用场景方面都远未达到成熟。

站在技术的角度,更具体来讲,大模型给音视频领域带来的是更大的想象力。

2023年,阿里云智能高级算法专家刘国栋在深圳的一席演讲中提到了一种大模型与小模型结合的技术。

在大模型还未出现的时候,只有小模型。其实,大模型与小模型都有各自的局限。小模型的局限在于其泛化能力比较差。而泛化能力差,通俗来讲,就是小模型的理解和生成能力不好。但其优点在于,小模型、传统算法在算法开发、工程优化方面已相对比较成熟,小模型的训练资源占用少且训练速度快,部署容易,端侧落地性强。

而大模型出现后,这些问题都一一被解决了。而大模型的局限性在于,细粒度的问题还不能完美处理、容易出现幻觉现象、推理训练成本都比较高等。

因此,大小模型协同便是最好的解决方案。通过让大模型和小模型并联和相互引导的方式,来优化各自的问题。

而对于大模型与小模型的“协同”方面,声网也有自己的理解。对此,钟声向产业家解释道,“大模型的参数很大,需要巨量的数据包括高质量的数据来训练。一个符合常理的逻辑是,最领先的大模型,其推理能力较强,可以通过蒸馏等方法来训练小模型。大模型产生的结果,具备一定的质量,可以用来训练小模型。未来,大小模型应该以‘联合行动’的方式来共同完成任务,在算力、延时、隐私保护等方面实现一种更好的融合。”

一个更为遥远的畅想是,随着端上算力的增强,有着几十亿参数的大模型未来也有可能在端上运行。届时,在各个领域实现“实时音视频”则会成为现实。

三、更大的焦虑,更大的想象力

从GPT3.5到GPT4.0,从Runway、Pika到Sora,当大模型的价值链不断升级,那些暂时还未爬到顶端的企业,还剩下多少“生存空间”?

这是一个引人深思的发问。

近两年,科技界追逐技术的热情在不断高涨。大众对于AI的焦虑是更为遥远的“生存威胁”,而科技界对AI焦虑则是由所谓“参数”和“长文本”所“卷”起来的商业竞争。

如果聚焦到产业侧,聚焦到更实际的赛道,不断刷新的榜单,不断升级的参数、上下文长度,这些对于音视频厂商而言意味着什么?

在与钟声的对话中了解到,声网所追求的是实时性。而从目前来看,如果在云端的服务器上运行,最后在传输到端的设备上,很难实现“实时性”。所以声网的做法是是在端上进行计算。但客观来讲,端上运算的局限是算力不够。

对此,钟声发表了一种观点,虽然现在最前沿的技术都在追求Scaling Law(规模效应)支撑下的大模型,但对于声网而言,追求极致的小模型意义则要更大一些。首先保证低延时、低成本,直接让很小的AI算法在端上发力,通过极致、精准的算法来让音视频发挥最大的价值,低延时低成本可以为更多需要实时互动的客户和用户释放出或者创造出巨大的价值;这方面业界的关注度还不够,但终会成为焦点。声网在这方面则做了较为专注的研发投入。

站在更实际的角度,如果在云端运算,虽然在大算力的支持下运行大模型,最终可以得到较好的效果,但现实情况是,在大多数的消费侧场景,比如社交娱乐,系统响应延时过大,本身就不太像AGI,客户或用户也不可能花较高的费用来追求响应较慢的AGI效果。所以,在端上低延时低成本的运算更为有需求。

同时,钟声提出了一种畅想,在音视频领域,AGI最终会发展成端边云结合的方式,以平衡算力、延时、隐私和数据保护等几个AI发展的关键要素。

这是大模型赋予音视频厂商的想象力,而这种想象力也会应用到更现实的场景解决更实际的问题,比如医疗领域里会用到的远程救治,其实时性要求极高,延迟1s都可能威胁到生命。

那么,在当下这个拼技术刷榜单的大模型时代,音视频厂商要如何顺应AI时代?

实际上,近两年音视频的发展趋势已经从关注技术,走向关注更为实际的“降本增效”。以保利威为例,其SaaS订阅收入达到90%成绩背后,是结合具体的业务来解决实际用户的问题。

如果通过大模型所提升的音视频技术,不再止步于社交和娱乐,而是更为具体的生产环节,甚至是治病救人,那么也许实时音视频才会实现破圈,走向大众。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/531382.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PPE-个人防护装备如何定义?为什么说PPE是劳动者的护身神器?

个人防护用品定义 PPE,即个人防护装备、个人防护用具或劳保用品,是劳动场所中不可或缺的重要组成部分。它们扮演着保护工人免受各种危害的关键角色。从安全帽到反光衣,再到防护手套和安全鞋,PPE覆盖了各个方面,为工人…

线性变换在人工智能领域的深度实践与应用探索

线性变换,作为数学中的一种基本工具,在人工智能领域中发挥着举足轻重的作用。其强大的表示能力和灵活的运算特性使得线性变换成为机器学习、深度学习等多个子领域的核心组成部分。本文将详细探讨线性变换在人工智能领域中的实践应用,旨在揭示…

Qt plugin 开发UI界面插件

目录 1.创建接口 2.创建插件 3.创建插件界面 4.插件实现 5.创建应用工程 6.应用插件 1.创建接口 打开QtCreater,点击左上角“文件”->新建文件或项目,在弹窗中选择C/CHeader File。 输入文件名,选好路径(可自行设置名称…

HarmonyOS 开发-二级联动

介绍 本示例主要介绍了List组件实现二级联动(Cascading List)的场景。 该场景多用于短视频中拍摄风格的选择、照片编辑时的场景的选择。 效果图预览 使用说明: 滑动二级列表侧控件,一级列表随之滚动。点击一级列表,…

【数据交换格式】网络socket编程温度采集智能存储与上报项目技术------JSON、TLV

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

【单片机】74HC4052电路图,单片机端口复用电路

74HC4052电路图 如下图,还是很好理解,PA9、PA10是单片机引脚。 当A和B是00,那么就是X-COM和0X短路,Y-COM和0Y短路。 当A和B是01,那么就是X-COM和1X短路,Y-COM和1Y短路。 以此类推。 74HC 工艺可以直接3.…

网传桌面版telegram RCE 0day

网传根据区块链安全公司CertiK发布的一份新报告,CertiK 发现Telegram桌面版的处理媒体文件过程,可能存在RCE漏洞。此漏洞会使用户面临特制媒体文件(例如图像或视频)的恶意攻击。 CertiK Alert 于 4 月 9 日在社交媒体平台 X 上警…

冯喜运:4.10周三外汇现货黄金原油走势分析及操作建议

黄金走势分析:黄金目前的波动已经基本没有什么技术面可言了,现在主要就是重点看市场消息面影响所造成的砸盘力度情况,但当下不管是战争因素所带来的避险情绪影响还是美国降息与否所带来的经济影响都无疑还是支撑着黄金继续走高,那…

使用labelImg标注数据集

1 Labelimg下载 Labelimg下载地址http:// https://github.com/tzutalin/labelImg下载得到的压缩包解压 建议使用Anaconda安装 使用管理员运行Anaconda Prompt,激活虚拟环境,在labelImg-master目录下执行命令 conda install pyqt=5 pyrcc5 -o libs/resources.py resources…

Linux下批量的批量操作

批量删除docker 镜像 docker images | grep ent-form-web |awk ‘{print $3}’ | xargs docker rmi docker images: 列出所有的docker 镜像 docker images | grep ent-form-web : 选取出结果带 ent-form-web的信息 docker images | grep ent-form-web |awk ‘{print $3}’ 选取…

高效实现红黑树范围查询:RB-ENUMERATE操作的设计与分析

高效实现红黑树范围查询:RB-ENUMERATE操作的设计与分析 一、RB-ENUMERATE操作的需求分析二、RB-ENUMERATE操作的设计思路三、RB-ENUMERATE操作的具体实现四、性能分析五、结论 在红黑树的广泛应用中,我们经常需要对树中的元素进行查询和操作。除了基本的…

gr::log :INFO: packet_headerparser_b0 - Detected an invalid packet at item问题记录

文章目录 前言一、OFDM 帧结构设计二、源码修改三、运行结果前言 在使用 GNU Radio 对 OFDM 进行帧结构设计时,出现了如下的警告信息: gr::log :INFO: packet_headerparser_b0 - Detected an invalid packet at item 724224 gr::log :INFO: header_payload_demux0 - Parser …

【QT入门】 Qt自定义控件与样式设计之QCheckBox qss实现按钮开关

往期回顾 【QT入门】Qt自定义控件与样式设计之QPushButton常用qss-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QPushButton实现鼠标悬浮按钮弹出对话框-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QComboBox样式表介绍-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QChe…

多线程原理详解01(程序、进程、线程介绍,线程创建的三种方式(Thread、Runnable、Callable)、三种方式各自实现多线程的具体操作、代码解析)

目录 多线程原理详解01_线程简介多任务多线程程序、进程、线程Process(进程)与 Thread (线程)总结: 02_线程创建三种方式:1、继承 Thread 类1-1:通过继承Thread类实现多线程演示代码 1-2&#x…

【算法刷题day22】Leetcode:235. 二叉搜索树的最近公共祖先、701. 二叉搜索树中的插入操作、450. 删除二叉搜索树中的节点

文章目录 Leetcode 235. 二叉搜索树的最近公共祖先解题思路代码总结 Leetcode 701. 二叉搜索树中的插入操作解题思路代码总结 Leetcode 450. 删除二叉搜索树中的节点解题思路代码总结 草稿图网站 java的Deque Leetcode 235. 二叉搜索树的最近公共祖先 题目:235. 二…

代码随想录第36天 | 435. 无重叠区间 、 763.划分字母区间 、 56. 合并区间

一、前言: 参考文献:代码随想录 今天的主题是贪心算法中的重叠区间,就像昨天的扎气球问题,就是通过排序,然后将区间重叠起来,然后更具边界值判断这个区间是否重叠。 二、无重叠区间 1、思路&#xff1a…

异常处理过程和范例

目录 异常定义 异常关联 异常捕获与处理 查询 emp 数据表中工作岗位是 MANAGER 的员工信息,如果不存在这个员工,则输出“没有数据记录返回”,如果存在多个记录,则输出“返回数据记录超过一行” 更新数据表 emp 中部门编号&am…

产品推荐 | iWave 的 FPGA-IP 评估附加 FMC 卡

1、产品概述 iWave 的 FPGA-IP 评估附加 FMC 卡旨在满足 ANSI/VITA 57.1 FMC 标准。该卡支持高引脚数 (HPC) 和低引脚数 (LPC) 连接器,可在风冷环境中使用。FPGA-IP评估附加卡可以与市场上的大多数FPGA开发套件连接。…

LeetCode 994—— 腐烂的橘子

阅读目录 1. 题目2. 解题思路3. 代码实现 1. 题目 2. 解题思路 1.记录下初始新鲜橘子的位置到 notRotting,我们按照行把二维数组拉成一维,所以,一个vector 就可以实现了;2.如果没有新鲜橘子,那么第 0 分钟所有橘子已经…

44-技术演进(下):软件架构和应用生命周期技术演进之路

应用、系统资源、应用生命周期管理这 3 个维度,构成了我们对云的所有诉求。 我会介绍下应用维度和应用生命周期管理维度的技术演进。 我们就先来看下软件架构的演进之路。 软件架构的演进 软件架构技术演进如下图所示: 单体架构 在单体架构中&#xff…