超写实数字人小灿加入,助力火山语音全类型虚拟数字人应用创新

当发现更多AI科技作用于日常生活时,你是否想过竟然有一天会与AI数字人做同事?日前,火山语音团队重磅推出了一位神秘新成员——首个超写实数字员工小灿!这位新同事不仅形象清新美丽,还有着很强的亲和力,大幅提升了工作幸福感,真可谓让大家率先体验到了拥有一位超写实数字人同事的快乐。

在首爆TVC短片中,作为一位刚参加实习的虚拟数字员工,小灿对于新工作的忐忑、对于未来的憧憬,如同每一个初入职场的新人一样真实;她在新环境中的紧张、对于实习生活的期待、与同事们的自然互动……这些都让我们看到了虚拟数字人丰富的情感世界,仿佛她就在眼前。

当然,除了小灿的个性以及情感的灵动展示之外,深扒其背后的技术实力更是可圈可点。小灿的出现,无疑为火山语音在虚拟数字人领域的未来开启了新篇章。

聚焦面部、肢体以及音色等多方向

技术创新助力逼真呈现

长期以来,火山语音团队致力构建全面逼真、快速响应、可多场景应用的超写实数字人。在创作首个数字员工小灿的过程中,团队主要在面部驱动、肢体驱动以及“一条音频秒级别音色复刻”等技术层面实现了创新突破,共同助力数字人的逼真呈现。

具体来说,面部驱动主要采用了表情、唇形联合建模的方案,为了实现更细粒度的唇形控制,团队采用了国际音标 IPA 作为建模单元,基于数小时的训练数据实现高精度的唇形、表情生成,并且基于 IPA 可以在不新增训练数据的情况下很容易地进行多语种、多方言的扩展。

另外关于肢体的AI驱动,团队也研发了以下三种方案:

(a)Motion Blending 动作库拼接

Motion Blending 动作库拼接方案,可以应用于视频创作、直播等通用场景,能保证动作生成的质量与效率。其中 In-Between 模块采用基于 Trasnformer 的 Encoder + Decoder 结构,将待过渡的两段动作进行编码,Decoder 则根据 Position Encoding 作为 Query 查询;为保证稳定,预测目标是与原始两片段 Slerp 插值结果的偏差。内部评测结果表明,这种方案生成的效果大幅优于 UE 原生的动作库拼接方案。此外,为了解决音频时序对齐的问题,需要对动作库中选取的动作进行截取,为尽可能减少对高质量动作库的破坏,方案根据待过渡动作的姿态和运动等信息估计出最优插值长度,进一步提高了生成的动作效果。

(b) 端到端

针对直播等交互场景,团队录制了数小时的动作数据,训练基于 Diffusion (X start) 的端到端 Audio2Gesture 模型,Denoise 模块考虑了音频的低/中/高级特征并具有长时依赖信息,确保了生成的动作与输入音频节奏和语义的相关性。

(c)端到端 + 指定动作

考虑到实际应用时,某些场景可能需要一些指定动作,例如打招呼、比心等强语义动作,团队开发了基于 Inpainting 方式的动作生成算法,确保指定动作的触发;而在大部分没有指定动作的片段,则按照端到端动作生成的方式生成语义和节奏匹配的动作,并且结合 Diffusion 模型渐进生成的特性使动作过渡灵活自然。

谈及“一条音频秒级别音色复刻”技术,也被称为zero shotTTS。这项技术能够在短短几秒钟内高度还原真人的音色、说话风格以及声学环境等特性,种种均建立在火山语音团队全自主研发的核心技术架构上,使得其关键性能指标在业界占优。此外,团队还开发了基于自回归GPT类大模型的韵律模块,目前这个模块的训练数据已经超过了20万个小时,而且其架构具有很强的可扩展性,预计未来能够支持100万小时以上的数据训练。更重要的一点,这个模块支持code-switch功能,意味着无论输入的提示是中文还是英文,都可以直接输出中文、英文或者混合内容。这一功能的实现,无疑大幅提升了超写实数字人小灿的应用范围以及实用性。

构建全类型虚拟数字人矩阵

辐射多场景应用

目前火山语音的数字人产品已具备包括2D真人、3D卡通和3D超写实在内的全类型虚拟数字人生产管线。聚焦播报、交互、直播三大核心场景,专注构建AI数字人从原子层到方案层产品能力。基于全自研多模态交互技术体系,建立从形象、感知、理解、对话能力都趋近于真人的数字人,面向行业客户持续提供行业领先的一站式数字人解决方案。

具体来说播报场景,火山语音数字人为泰康保险等客户提供一站式数字人音视频生产平台,帮助企业提升内容生产效率,打通自动化、高效的数字人视频生产链路,同时支持词条精修、文本/音频驱动、多轨混编、画中画等多项高级功能,助力打造更具差异化、更精品化的内容生态。

交互场景,火山语音数字人为兴业证券等客户提供“面对面”交互服务体验升级,搭载全自研语音交互技术,结合大模型精准理解用户意图、合理应答,满足智能客服、智能开户、金融资讯播报、短视频创作、市场推广等多场景的数字营销需求,助力企业“数智化”转型。

直播场景,火山语音数字人为国信证券等客户打造“ 全天候数字人直播间”方案,量身定制品牌数字人形象。其中数字人直播平台满足0直播间布景费用投入、积木式构建剧本内容、AI智能剧本生成并提供一键推流功能,实现在火山引擎企业直播、抖音、淘宝、京东等多个平台开播。

一直以来,火山语音团队积极将经过多年精心打磨的语音技术能力面向市场开放,通过火山引擎成功地将这些技术应用到了汽车、金融、有声阅读、视频配音等多个行业领域并覆盖了广泛的应用场景,帮助众多行业领头企业实现了AI语音能力的应用与拓展,但团队目标并不止步于此。未还来将继续探索前沿科技与业务场景的高效结合,以期为用户体验和业务增长注入更多的创新动力,并通过不断的创新与探索为人们的生活带来更多便利与乐趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/105757.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python脚本:让工作自动化起来

Python是一种流行的编程语言,以其简洁和易读性而闻名。它提供了大量的库和模块,使其成为自动化各种任务的绝佳选择。 本文将探讨Python脚本及其代码,可以帮助您自动化各种任务并提高工作效率。无论您是开发人员、数据分析师还是只是想简化工…

uni-app:实现picker下拉列表的默认值设置

效果 分析 1、在data中将index8的初始值设置为-1,表示未选择任何选项: index8: -1, //选择的下拉列表下标 2、在bindPickerChange8事件处理函数中添加条件判断。如果选择的值是-1,则将this.index8设置为"请输入",否则将…

vue3中常用的新组件

一、Fragment vue2中,组件必须有一个根标签 vue3中,组件可以没有根标签,内部会将多个标签包含在一个Fragment虚拟元素中。 优点:减少标签层级。 二、Teleport(传送门) 作用:将组件的 html …

掌握CSS Flexbox,打造完美响应式布局,适配各种设备!

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! ​ 目录 ⭐ 专栏简介 📘 文章引言 基…

【速看】如何通过合理的封装,让你的自动化脚本更上一层楼!

1. 前言 上一篇推文利用一个在图片范围内实现随机坐标点击的例子,去教会大家如何将自己想要的效果实现出来,受到大家的热情反响,在我们官方讨论群中,还有大佬对我们的示例代码进行优化改进,做了很多合理的函数封装&…

HCIA数据通信——交换机(Vlan间的通信与安全)

前言 之前的提到了交换机的概念和实验。不过交换机的一些功能还没有说完,我们的实验也仅仅是阻止相同地址段的IP地址互通,也没有用到子接口和路由器。显然,那样的配置过于简单。 端口安全 Port Security(端口安全)的功…

【1.2】神经网络:神经元与激活函数

✅作者简介:大家好,我是 Meteors., 向往着更加简洁高效的代码写法与编程方式,持续分享Java技术内容。 🍎个人主页:Meteors.的博客 💞当前专栏: 神经网络(随缘更新) ✨特色…

node开发微信群聊机器人第⑤章

▍PART 序 看本文时,请确保前4章都已经看过,不然本章你看着看着思维容易跳脱!再一个机器人教程只在公众号:“程序员野区”首发。csdn会跟着发一份,未经博主同意,请勿转载!欢迎分享到自己的微信…

leetCode 76. 最小覆盖子串 + 滑动窗口

76. 最小覆盖子串 - 力扣(LeetCode) 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串,则返回空字符串 "" 注意: 对于 t 中重复字符,我们寻…

【iOS免越狱】利用IOS自动化web-driver-agent_appium-实现自动点击+滑动屏幕

1.目标 在做饭、锻炼等无法腾出双手的场景中,想刷刷抖音 刷抖音的时候有太多的广告 如何解决痛点 抖音自动播放下一个视频 iOS系统高版本无法 越狱 安装插件 2.操作环境 MAC一台,安装 Xcode iPhone一台,16 系统以上最佳 3.流程 下载最…

Golang 自定义函数库(个人笔记)

1.用字符串连接切片元素(类似php implode) package mainimport ("fmt""strconv""strings" )func main() {data : []int{104, 101, 108, 108, 111}fmt.Println(IntSliceToString(data, ",")) }func IntSliceToS…

stable-diffusion-webui环境部署

stable-diffusion-webui环境部署 1. 环境创建2. 安装依赖库3.下载底模4.运行代码5. 报错信息报错1报错2 1. 环境创建 创建虚拟环境 conda create -n env_stable python3.10.0进入虚拟环境 conda activate env_stableclone源码 git clone https://github.com/AUTOMATIC1111/stab…

用VSCODE启动Java项目

下载插件 推荐下载插件 启动 在vscode中打开项目或将项目拖进vscode,等进度条加载完成即成启动项目

拒绝拖延,从我做起!

拒绝拖延,从我做起! 如果有一件事,对你的未来很重要,千万不要说等以后再做,这是无限拖延的借口【等有时间再做】的真正含义是,闲得无聊再去做,意味着事情即不重要也不紧急该做的重要事情不做&a…

敏捷战略下的目标管理

1. 生而敏捷的 OKR 敏捷战略规划的周期相对较长,一般是以年为单位在做规划,通常是 3~5年。在战略规划之后,需要有更短周期的目标管理去做承接。现今, OKR 成为承接敏捷战略最好的目标管理工具。 将OKR 和战略、愿景、使命之间的关…

使用VisualStudio生成类图结构图for高效阅读代码

使用VisualStudio高效阅读代码 前言相关准备导入工程利用VisualStudio生成类图,结构体调用关系利用EnterpriseArchitect(EA)画时序图 前言 目前市面上代码阅读的IDE工具非常丰富,也各有千秋。由于工作经历原因,研发机经历过windows、Mac、Li…

ChatGPT和Copilot协助Vue火速搭建博客网站

AI 对于开发人员的核心价值 网上会看到很多 AI 的应用介绍或者教程 使用 AI 聊天,咨询问题 —— 代替搜索引擎使用 AI 写各种的电商文案(淘宝、小红书)使用 AI 做一个聊天机器人 —— 这最多算猎奇、业余爱好、或者搞个套壳产品来收费 以上…

Leetcode—26.删除有序数组中的重复项【简单】

2023每日刷题&#xff08;十&#xff09; Leetcode—26.删除有序数组中的重复项 双指针法实现代码 int removeDuplicates(int* nums, int numsSize){int i 0;int j 1;while(j < numsSize) {if(nums[j] ! nums[i]) {nums[i] nums[j];}j;}return i 1; } 运行结果 之后我…

TSINGSEE青犀基于AI视频识别技术的平安校园安防视频监控方案

一、背景需求 因学校频频出治安事件&#xff0c;所以必须要加强学校的安防工作&#xff0c;目前来看&#xff0c;大部分校园都建设了视频监控来预防保障校园安全。但是传统的视频监控系统&#xff0c;主要通过设备来录像以及人员时时监控来进行。这种监管方式效率十分低下&…

[论文精读]The minimal preprocessing pipelines for the Human Connectome Project

论文原文&#xff1a;The minimal preprocessing pipelines for the Human Connectome Project - ScienceDirect 未完待续 1. 论文逐段精读 1.1. Abstract ①The Human Connectome Project (HCP) includes multiple magnetic resonance imaging (MRI) data ②HCP needs more p…