数字人小灿:始于火山语音,发于 B 端百业

火爆的数字人市场又有新消息来袭:火山语音的数字人小灿来了!

数字人小灿首曝视频

今年以来,在生成式AI浪潮的助推下,大量企业争相布局数字人赛道。市场之所以如此火热,是因为AI数字人已被视为人工智能时代智能交互的入口级产品,对于未来AI的广泛应用具有重要意义。

与虚拟现实时代数字人“高处不胜寒”,市场接受度较低相比;如今,金融、汽车、文旅、政务、大型企业等B端行业用户均在迅速接受和尝试AI数字人,并密切关注着市场与技术的动态变化。

不过,AI数字人在商业化落地依然面临着诸多挑战,如何真正推动数字人走向普惠是当下市场的一道难题。为此,火山语音推出数字人小灿,为AI数字人在B端市场走出一条重要的落地路径,助推AI数字人走进广大B端业务场景。

数字人赛道火热,落地挑战不容忽视

IDC《中国 AI 数字人市场现状与机会分析》报告预测,到2026年,中国AI数字人市场规模将达到102.4亿元人民币。

毫无疑问,AI数字人市场前景非常广阔。但从虚拟现实时期开始,数字人虽然借势起跑,却始终面临着大规模商用场景缺乏、市场接受度低、技术成熟度不高、成本高居不下等挑战,以至于在B端市场举足不前。

以市场定位为例,超写实的3D虚拟数字人贴合真人形象,也更加符合B端市场各种场景的定位,却也受制于AI算法、文本转语音技术、算力等技术因素的综合影响,数字人产品质量良莠不齐,语音、表情、互动等生硬,在B端业务场景中定位也不够不清晰,华而不实逐渐沦为噱头。

与此同时,数字人又面临着高昂生产和运营成本、较长生产周期等问题,很多曾火爆一时的3D数字人均受困于成本问题,宛如流星般划过。业内人士介绍,一个3D AI数字人的年运营成本就高达数百万,也让诸多B端企业望而却步,市场接受度始终起不来。

事实上,数字人当前遇到的困境并不稀奇。究其原因,在产业发展的早期阶段,一项技术或产品要实现从小众到大众、从尝鲜者到主流群体的广泛应用,解决不了技术关和成本关两大难题,终究无法实现。

业界普遍认为,在政策导向、市场需求、资本支出和技术成熟度等因素的合理推动下,AI数字人在B端市场正处于爆发的前夕。当前,市场中尤其需要AI数字人的高质量“爆款”,率先实现质量、成本与效率的兼顾,攻克技术关和成本关,牵引AI数字人全面融入B端业务场景。

相比之下,火山语音在数字人赛道属于先思而后行,其数字人小灿的定位非常清晰,即成为“提升工作效率+情绪价值”的副驾驶;同时作为首个超写实数字人,数字人小灿具备“善听”、“会说”、“能想”等特征,加上一站式拟人化服务,为数字人在B端市场带来新的启发。

首个超写实数字人,小灿颜才兼备

数字人小灿作为火山语音首位数字员工,火山语音介绍,未来或作为AI产品与技术的先导官服务内外。

作为超写实数字人,数字人小灿堪称颜值担当,不仅形象靓丽,而且气质不错。除了颜值之外,数字人小灿具备逻辑学家的人格类型,专业可靠、高理性逻辑,且才华横溢,对AI应用充满了天马行空的幻想。

数字人小灿“提升工作效率+情绪价值”副驾驶的产品定位,以及颜才具备的特征,都与B端业务场景的需求十分契合。众所周知,在B端业务场景中,业务逻辑较为复杂,通常具有一定的专业性,如果AI数字人语音、表情、互动生硬,不懂倾听、不会表达和不具备逻辑性,无法提升业务场景效率,就很难胜任业务场景的交互重任。

以金融业为例,IDC《银行数字科技五大趋势》报告认为,到2025年,超过80%的银行都将部署数字人,承担90%的客服和理财咨询服务。当前各种类型的金融机构均在试水AI数字人,像客服、理财咨询这类B端金融场景,AI数字人需要“看懂文字、听懂语言、做懂业务”,不仅需要在场景中实现与客户的高效率交互,还需要具有共情能力,让服务有温度。

数字人小灿颜才兼备的背后,自然离不开火山语音在AI相关技术的深厚底蕴。

据悉在形象技术方面,火山语音联合字节游戏-朝夕光年江南团队,联合打造3D超写实形象,数字人小灿是艺术+AI技术结合体。数字人小灿具备开心、惊讶、愤怒等丰富的情感演绎能力,语音交互时表情自然流畅,这些离不开火山语音的3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容制作能力,以及自研高逼真AI口型及动作驱动技术。例如在AI驱动动作层面,团队基于创新的Motion Blening技术,在动作切换时可生成过度帧,使得数字人在切换各类动作时不仅可以做到毫秒级切换,同时平滑效果自然无感知。

同时数字人小灿还是个“语言天才”,会说英语、日语、粤语、东北话等十多种外语及方言,高保真还原真人音色、说话风格和声学环境特点,在市场中遥遥领先,这同样离不开火山语音在语音领域的技术底蕴。例如“一条音频秒级别音色复刻”技术(zero shot TTS),仅需要输入5秒钟到1分钟的音频,可秒级别极速复刻高保真还原真人音色、说话风格以及声学环境等特点;此外在核心技术架构全自研的基础上,各种指标(音质、相似度等)均居于学术界前沿,韵律模块基于自回归GPT类大模型研发,支持code-switch,即无论prompt为中文/英文,支持输出中文、英文及混合内容。

事实上,除了深厚的技术底蕴外,火山语音此次还非常注重以数字人为抓手,推动AI技术在B端的实践与落地。

深入行业场景,AI让工作生活更轻松

不可否认,当前AI数字人市场的火爆,也造成了一定的乱象,市场中也存在着大量良莠不齐的产品与方案。

业界普遍认为,AI数字人是推动AI技术在工作生活中落地的一个好抓手,能够真正带来B端行业交互效率和体验的提升,让人们的生活与工作更加轻松自如。但AI数字人在B端的普惠落地,还需要深入行业场景,找到产品与场景中的结合点,从而让数字人产品的价值得以呈现;并且需要具备规模化复制能力,降低AI数字人迈向B端行业用户的门槛。

通过数字人小灿,火山语音在AI数字人市场目标很明确,就是通过持续多版数字人产品的迭代,实现AI数字人质量、效率和成本并重,并让AI数字人深入行业场景,进而推动AI数字人在B端走向普惠。

在行业场景价值呈现方面,火山语音的数字人产品包括“播报型数字人”和“交互型数字人”两种类型,专注播报、交互、直播三大核心场景,可以面向金融、大消费、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,为B端用户带来交互体验的全方位升级。

为进一步降低AI数字人的门槛,火山语音AI数字人可以实现快速复刻数字分身,仅需5-10分钟视频,就可1:1还原真人,再结合声音复刻即可快速实现形象与声音的近乎完美还原,加速AI数字人在内容生产、视频直播、车载环境等诸多场景中的落地。

更加重要的是,火山语音一直在技术层面持续迭代和优化数字人产品。例如,近年来,火山语音深度参与到“实时高逼真孪生数字人关键技术研发与应用示范”等多个国家重点项目建设,通过产学研用联动,推动AI数字人相关技术的应用。

随着数字人小灿的问世,火山语音已经在数字人领域已经取得阶段性成果,为市场带来了质量、成本和效率并重的AI数字人一体化服务。面向未来,随着AI数字人市场不断发展,火山语音的AI数字人产品与服务有望在B端行业中遍地开花。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/112176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

gcc/g++使用格式+各种选项,预处理/编译(分析树,编译优化,生成目标代码)/汇编/链接过程(函数库,动态链接)

目录 gcc/g--编译器 介绍 使用格式 通用选项 编译选项 链接选项 程序编译过程 预处理(宏替换) 编译 (生成汇编) 分析树(parse tree) 编译优化 删除死代码 寄存器分配和调度 强度削弱 内联函数 生成目标代码 汇编 (生成二进制代码) 链接(生成可执行文件) 函…

相册里的视频怎么提取音频?帮你整理了几个必备的!

有的时候视频中的音频包含重要信息,如对话、旁白、音乐等。提取音频不仅可以节省存储空间,还方便对这些信息进行单独处理和利用。那么如何提取音频呢?下面介绍了3种方法~ 方法一:直接使用手机相册自带功能 1、打开手机相册&#…

用二维码搭建设备巡检系统,轻松实现扫码巡检和数字化台账

针对设备状态不透明、纸质记录效率低、故障报修不及时等设备点巡检的常见问题,可以在草料二维码上自主搭建涵盖点检、巡检、报修、维修、保养等功能的管理系统,无需安装APP,微信扫码就能查看设备档案、用表单替代纸质检查表。 譬如“台州沿海…

【Javascript】Javascript高级程序设计:js 事件 随手笔记

目录 一、事件概述1.1 html 与 js1.2 事件流1.3 DOM 事件流 二、事件处理程序2.1 html 事件处理程序2.2 dom0 级事件处理程序2.3 dom2 级事件处理程序2.4 IE 事件处理程序 三、事件对象四、事件类型4.1 概述4.2 UI 事件4.3 焦点事件4.4 鼠标与滚轮事件4.5 键盘与文本事件4.6 额…

食堂系统登录报错

因为数据库没有任何用户数据,所以会报错,需要添加admin用户 D:\env\jdk1.8.0_341\bin\java.exe -XX:TieredStopAtLevel1 -noverify -Dspring.output.ansi.enabledalways -Dcom.sun.management.jmxremote -Dspring.jmx.enabledtrue -Dspring.liveBeansVie…

照片如何打包?三个方法轻松搞定!

照片打包是一种有效的管理方式,可以提高工作效率、保护照片安全、节省存储空间等。那么如何简单快速地打包照片呢?下面介绍了三种方法~ 方法一:使用嗨格式压缩大师 1、在电脑上打开【嗨格式压缩大师】,点击软件首界面的【图片压缩…

我的ChatGPT的几个使用场景

示例一,工作辅助、写函数代码: 这里展示了一个完整的代码,修正,然后最终输出的过程。GPT具备足够丰富的相关的小型代码生成能力,语法能力也足够好。这类应用场景,在我的GPT使用中,能占到65%以上…

docker 存储目录迁移

参考:【Docker专题】WSL镜像包盘符迁移详细笔记 - 掘金 docker迁移 一 默认目录 Windows版本(Windows 10 wsl 2)docker 默认程序安装到c盘,数据存放于 C:\Users\当前用户名\AppData\Local\Docker\wsl\data\ext4.vhdx 这样会导致…

从开发者的角度看K8S中的复合容器模式

就应用设计最佳实践和原则而言,构建复杂的基于容器的架构与编程没有太大区别。本文的目标是使用众所周知的编程原理从开发人员的角度展示三种流行的可扩展性架构模式。 让我们从单一职责原则开始。根据 R. Martin 的说法,“一个类应该只有一个改变的理由…

软考高级之系统架构师系列之操作系统基础

概念 接口 操作系统为用户提供两类接口:操作一级的接口和程序控制一级的接口。操作一级的接口包括操作控制命令、菜单命令等;程序控制一级的接口包括系统调用。 UMA和NUMA UMA,统一内存访问,Uniform Memory Access&#xff0c…

大型企业如何通过低代码平台提高开发效率和降低成本?

云计算、大数据、人工智能、物联网风口之下,企业数字化转型如同被按下了快进键。为快速攻破转型路上的技术关,企业纷纷把目光投向了低代码开发平台,希望可以用最短的时间,开发出最适合企业发展的应用。 集团企业需要什么样的数字化…

NeRF-SLAM部署运行(3060Ti)

记录在部署运行期间遇到的一些问题,分享给大家~ 一、环境 RTX 3060 Ti、8G显存(其实是不够用,只能简单跑跑demo)、Ubuntu18.04 二、部署 1. 下载代码 git clone https://github.com/jrpowers/NeRF-SLAM.git --recurse-submod…

解决恶意IP地址攻击:保卫网络安全的有效方法

随着互联网的发展,网络安全威胁变得日益复杂,其中包括恶意IP地址攻击。这些攻击通常是网络犯罪分子的手段之一,用于入侵系统、窃取数据或进行其他恶意活动。本文将探讨如何解决恶意IP地址攻击,以保护网络安全。 恶意IP地址攻击是…

与云栖的浪漫邂逅:记一段寻找云端之美的旅程

云端之旅 2023 年的云栖大会如约而至,这次云栖大会也是阿里新任掌门蔡老板当任阿里巴巴董事局主席以来的第一次。大会与以往有很多不一样的地方,其中 AIGC 更是本届大会的重点议题!你会感叹,阿里还是猛啊! 我逛了下展…

Web Woeker和Shared Worker的使用以及案例

文章目录 1、前言2、介绍 Web Worker3、使用须知及兼容性3.1、使用须知3.2、兼容性 4、使用 Web Worker4.1、创建 Web Worker4.2、与主线程通信4.3、终止 Web Worker4.4、监听错误信息 5、使用 Shared Worker4.5、调试 Shared Worker 6、使用中的一些坑6.1、Web Woeker 中引入了…

8种按钮设计的常见类型分享

按钮是UI界面的元素之一,可以本能地吸引游客并将其转化为买家。界面中的UI按钮类型包括:CTA按钮、幽灵按钮、下拉按钮、浮动操作按钮、汉堡包按钮、加号按钮、消耗品按钮、共享按钮。 号召性用语按钮 CTA(呼叫语言)按钮是一种交…

被这7款在线涂鸦画板惊艳到,手残也能画出涂鸦大片!

作为一名涂鸦爱好者或者手帐达人,你是否在寻找好用的在线涂鸦画板软件呢?涂鸦画板软件释放了创造性的无限可能,让你能够将想法转化为令人惊叹的视觉效果,并轻松地与客户、同行和全球观众分享你的作品。 在这篇文章中,…

如何将微信视频号的视频保存到手机相册?

微信视频号是近年来微信推出的一项功能,它允许用户通过手机拍摄和分享短视频内容。然而,许多人纷纷表示他们想要保存微信视频号上的视频,以便在离线时观看。但一直以来这个需求腾讯一直没有开放随后也取消了复制视频链接功能,为此…

审核 Microsoft SQL Server 日志

手动审核数据库活动是一项艰巨的任务,有效完成审计的最佳方法是使用简化和自动化数据库监控的综合解决方案,该解决方案还应使数据库管理员能够监控、跟踪和即时识别任何操作问题的根本原因,并实时检测对机密数据的未经授权的访问。 什么是 S…

NI USB9218国产对标51.2 kS/s/ch,2通道C系列通用模拟输入模块

51.2 kS/s/ch,2通道C系列通用模拟输入模块 NI‑9218专为多用途测量而设计。 它使用针对特定测量的适配器提供了对加速度计、供电传感器、全桥和电压测量以及四分之一桥、半桥、60V和电流测量的内置支持。 每个通道可单独选择,因而用户可在各个通道上进行…