「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

在这里插入图片描述

你是否想过,未来你看到的电影预告片、广告,甚至新闻报道,都可能完全由 AI 生成?

在人工智能迅猛发展的今天,视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人,再到 AI 驱动的视频生成,这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标,更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

在本届 RTE2024 实时互联网大会上,来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

在这里插入图片描述

林荣群:AI 时代下的智能视频编解码新思路

在这里插入图片描述

鹏城实验室的林荣群博士以一个问题开篇:「如果视频内容全部由 AI 生成,我们该如何进行编码?」

林博士首先回顾了视频编码的发展历程,从早期以人眼感知为导向的保真度指标,到注重商业评级的阶段,再到如今 AI 时代对智能任务的需求,视频编码的目标不断演变。他指出,未来的智能编码不仅要满足人类视觉体验,更要服务于机器识别、检测等 AI 任务。

在介绍智能编码技术时,林博士强调了两个关键点:智能作为工具,提升我们对编码对象的理解;智能作为目标,服务于下游智能应用。他认为,智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象,才能大幅提升压缩效率。」林博士解释道。

林博士随后详细介绍了几种智能编码的技术路线,包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践,展示了团队基于国产框架和算力平台的最新成果。

展望未来发展方向,林博士提出了几个关键点:数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

在这里插入图片描述

周世付:虚拟数字人的发展趋势与技术突破

在这里插入图片描述

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念,指出它是存在于数字空间中,拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

他将虚拟数字人的制作流程概括为三个阶段:建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型;驱动阶段运用计算机视觉技术,赋予模型动态的表情和动作;最后,借助大语言模型,实现与虚拟数字人的自然流畅的交互。

展望未来,周世付认为虚拟数字人的发展将呈现四大趋势:

  1. 3D 智能数字人:3D 形式将成为主流,结合大语言模型实现更高级的智能化。
  2. 实时互动:传输表情参数而非图像像素,依靠终端设备重建数字人形象,实现低延迟、高流畅度的互动体验。
  3. 虚实融合:将数字人融入虚拟空间,增强沉浸式互动体验。
  4. 低成本应用:通过技术进步降低计算量和成本,推动数字人在更广泛的场景中应用。

在这里插入图片描述

陈建华:新一代视频编解码标准 VVC 的机遇与挑战

在这里插入图片描述

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度,深入剖析了 VVC(Versatile Video Coding)标准在实际落地过程中的关键问题。

关于 VVC 标准发布四年多来的发展现状,陈建华介绍说,支持 VVC 硬件的芯片正逐渐增多,包括联发科(MediaTek)、瑞昱(RealTek)等厂商均已发布相关产品。基于这些芯片,市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面,除了标准参考软件 VTM 之外,多个开源编解码器和播放器也已支持 VVC,为开发者提供了丰富的学习和研究资源。

以达摩院自研的 DAMO 266 为例,陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术,将关键算法迁移到 DSP 等单元,显著降低了功耗,使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围,也为其大规模应用扫清了障碍。

在这里插入图片描述

曹磊:AI Codec 将引领视频编解码技术革新

在这里插入图片描述

双深科技 CEO 曹磊指出,在图像和视频大爆发的时代,提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用,贯穿从成像到应用的整个过程。如果编解码也能融入 AI,整个流程将更加智能化。

曹磊指出,传统编解码技术发展到 H.266 后,提升空间已趋于平缓,且编码复杂度高,落地困难。相比之下,AI Codec 基于深度学习的端到端编码,能更好地表达细微特征,拥有更大的发展潜力。他引用了团队最新的研究成果,表明他们研发的 ANF 基础模型在平均数据序列上,相比 H.266 的参考软件 VTM,压缩率提升了约 25%,超越了 DCVC 等现有方案。同时,他还介绍了 IEEE 1857.11 HIV 标准,其中双深科技贡献了一项高效的并行熵编码核心专利。

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地,团队致力于模型轻量化,包括模型剪枝、蒸馏和量化等,并在算子定制化部署上投入了大量精力,以适应不同型号的手机 NPU。

在这里插入图片描述

张旭东:AI 视频生成技术的飞跃与实践

在这里插入图片描述

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年,亲历了从 GPT-3 到 ChatGPT 的技术变革,以及从图像生成到视频生成的跨越式发展。

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年,他们就提出了 U-ViT 框架,这一架构与后来备受瞩目的 Sora 有着诸多相似之处,其核心优势在于能够进行连续预测,从而获得更佳的一致性和效果。

生数科技的视频生成模型在实践中展现出多项显著优势:

  1. 强大的语义理解能力:能够精准捕捉复杂的场景描述。
  2. 多镜头语言支持:实现镜头间的流畅过渡。
  3. 极致的推理速度:仅需 30 秒即可生成一段视频。
  4. 出色的一致性表现:在不同场景中保持人物形象、动物特征等元素的一致性。
  5. 参考图像支持:可以根据提供的商品图、人物照片等生成相关视频。

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例,展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内,极大地提升了效率。

在这里插入图片描述

圆桌讨论:视频生成的 ChatGPT 时刻何时到来?

在这里插入图片描述
在这里插入图片描述

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中,声网视频编解码负责人戴伟担任主持人,邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

在这里插入图片描述

刘道全认为,真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态,生成完整的视频。目前的难点在于 多模态融合 ,但随着 LLaMA-Omni 等音频语言模型的出现,这种融合正在加速,未来可期。他还提到了始智 AI 在开源社区的贡献,例如 Sora 复刻计划,鼓励大家共同探索。

张旭东则对未来充满乐观。他认为,从技术的可用性来看,视频生成已经不再像过去那样生成不可用的内容,甚至已经与索尼等国际大 IP 达成合作,解决实际问题。但他指出,成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高,限制了大规模应用。随着算力提升和算法优化,成本下降,渗透率将会提高,真正的「视频生成的 ChatGPT 时刻」也将到来。

周世付则从交互角度出发,认为 以语音交互为基础 ,结合大语言模型和数字人,或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

马思伟老师补充道,虽然视频生成面临一致性、时长等技术挑战,但从应用模式和技术发展来看,一些公司例如生数科技、智谱 AI 的 会员付费模式 ,既带来了资金支持,也积累了训练数据,形成了良性循环,推动着技术的进步。他乐观地认为,2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

当机器也开始「生产」和「观看」视频,视频的意义将被重新定义。RTE2024 大会让我们思考,在人眼视觉之外,视频还能为我们带来什么?在机器视觉的时代,视频技术又将如何发展?这些问题,或许正是未来视频技术探索的方向。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/918051.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业设计Python美食推荐系统 美团爬虫 美食可视化 机器学习 深度学习 混合神经网络推荐算法 Hadoop Spark 人工智能 大数据毕业设计

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

GPU分布式通信技术-PCle、NVLink、NVSwitch深度解析

GPU分布式通信技术-PCle、NVLink、NVSwitch 大模型时代已到来,成为AI核心驱动力。然而,训练大模型却面临巨大挑战:庞大的GPU资源需求和漫长的学习过程。 要实现跨多个 GPU 的模型训练,需要使用分布式通信和 NVLink。此外&#xf…

MySQL:联合查询(2)

首先写一个三个表的联合查询 查询所有同学的每门课成绩,及同学的个人信息 1.我们首先要确定使用哪些表 学生表,课程表,成绩表 2.取笛卡尔积 select * from score,student,course; 3. 确定表与表之间的联合条件 select * from score,stud…

【leetcode】704. 二分查找

注意一般mid left (right-left)/2; 不要用mid (right - left)/2 中间值的计算需要考虑到整型溢出的问题。 如果使用 mid (right - left) / 2 的方式计算中间值,那么在 right 和 left 的值接近极限值的情况下,可能会导致计算出的中间值发生整型溢出&…

RHCE的练习(12)

写一个脚本,完成以下要求: 给定一个用户: 如果其UID为0,就显示此为管理员;否则,就显示其为普通用户; #!/bin/bash ​ # 使用read命令获取用户名 read -p "请输入用户名: " username ​…

WPF-控件的属性值的类型转化

控件的属性值需要转成int、double进行运算的&#xff0c;可以使用一下方法 页面代码 <StackPanel Margin"4,0,0,0" Style"{StaticResource Form-StackPanel}"> <Label Content"替换后材料增加金额&#xff…

【从零开始的LeetCode-算法】3270. 求出数字答案

给你三个 正 整数 num1 &#xff0c;num2 和 num3 。 数字 num1 &#xff0c;num2 和 num3 的数字答案 key 是一个四位数&#xff0c;定义如下&#xff1a; 一开始&#xff0c;如果有数字 少于 四位数&#xff0c;给它补 前导 0 。答案 key 的第 i 个数位&#xff08;1 < …

iMetaOmics | 刘永鑫/陈同-用于食物微生物组成和时间序列研究的微生物组数据库FoodMicroDB...

点击蓝字 关注我们 FoodMicroDB&#xff1a;用于食物微生物组成和时间序列研究的微生物组数据库 iMeta主页&#xff1a;http://www.imeta.science 研究论文 ● 原文链接DOI: https://doi.org/10.1002/imo2.40 ● 2024年11月1日&#xff0c;中国农业科学院深圳农业基因组研究所刘…

视觉slam十四讲 ch8 光流法和直接法

之前的都是单层光流 转载至Blibli 视觉SLAM十四讲_7视觉里程计1_计算相机运动_哔哩哔哩_bilibili

QSS 设置bug

问题描述&#xff1a; 在QWidget上add 一个QLabel&#xff0c;但是死活不生效 原因&#xff1a; c 主程序如下&#xff1a; QWidget* LOGO new QWidget(logo_wnd);LOGO->setFixedSize(logo_width, 41);LOGO->setObjectName("TittltLogo");QVBoxLayout* tit…

Linux运维篇-iscsi存储搭建

目录 概念实验介绍环境准备存储端软件安装使用targetcli来管理iSCSI共享存储 客户端软件安装连接存储 概念 iSCSI是一种在Internet协议上&#xff0c;特别是以太网上进行数据块传输的标准&#xff0c;它是一种基于IP Storage理论的存储技术&#xff0c;该技术是将存储行业广泛…

WSL--无需安装虚拟机和docker可以直接在Windows操作系统上使用Linux操作系统

安装WSL命令 管理员打开PowerShell或Windows命令提示符&#xff0c;输入wsl --install&#xff0c;然后回车 注意&#xff1a;此命令将启用运行 WSL 和安装 Linux 的 Ubuntu 发行版所需的功能。 注意&#xff1a;默认安装最新的Ubuntu发行版。 注意&#xff1a;默认安装路径是…

【学习心得】算力云平台上的大模型部署并实现远程调用

以AutoDL算力云平台为例&#xff0c;部署国产开源ChatGLM3b模型。 一、准备工作 &#xff08;1&#xff09;准备一台算力服务器 首先&#xff0c;进入AutoDL官网的算力时长选择算力服务器资源。 创建好后会自动跳转控制台的“容器实例”界面&#xff0c;稍等片刻后选择“快捷…

Vue 中的透传,插槽,依赖注入

1. 透传attributes 在组件上使用透传attribute&#xff1a; 当你在父组件中使用子组件时&#xff0c;你可以添加一些attribute到子组件上&#xff0c;即使这些attribute没有在子组件的props中声明。 父组件&#xff1a; <!-- 父组件&#xff0c;例如 ParentComponent.vue…

97.【C语言】数据结构之栈

目录 栈 1.基本概念 2.提炼要点 3.概念选择题 4.栈的实现 栈初始化函数 入栈函数 出栈函数和栈顶函数 栈顶函数 栈销毁函数 栈 基本概念参见王爽老师的《汇编语言 第四版》第56和57页 节选一部分 1.基本概念 注意:这里提到的数据结构中的栈有别于操作系统的栈,后者是…

Spring-boot 后端java配置接口返回jsp页面

Spring-boot 后端java配置接口返回jsp页面 spring boot 基于spring MVC的基础上进行了改进&#xff0c; 将Controller 与ResponseBody 进行了合并成一个新的注解 RestController。 当用户请求时&#xff0c;需要有视图渲染的&#xff0c;与请求数据的请求分别使用 1.在appli…

【操作系统实验课】Makefile与编译

1. 创建项目结构 my_project 使用mkdir命令在根目录下创建项目my_project sudo mkdir /my_project 进入my_project目录 cd my_project src 在my_project目录下创建src子目录 sudo mkdir src 进入src目录 cd src root(根用户) 切换用户身份为root(根用户) root用户…

冠层四流近似模型的发展历史

1. Kunbelka-Munk theory This is the earlist model using a two-stream approximation d I d z − ( k s ) I s J d J d z ( k s ) J − s I \begin{aligned} &\frac{dI}{dz} -(ks)IsJ\\ &\frac{dJ}{dz} (ks)J - sI \end{aligned} ​dzdI​−(ks)IsJdzdJ​(…

Linux从0——1之shell编程4

声明&#xff01; 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&a…

2024.5 AAAiGLaM:通过邻域分区和生成子图编码对领域知识图谱对齐的大型语言模型进行微调

GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding 问题 如何将特定领域知识图谱直接整合进大语言模型&#xff08;LLM&#xff09;的表示中&#xff0c;以提高其在图数据上自…