多模态AI产业链全景梳理

当前AI模型从单模态向多模态演进,有望实现认知智能,是AI未来发展的明确趋势。近期 AI 多模态模型不断取得突破性进展。OpenAI 于11 月发布了 GPT-4 Turbo 且开放了 GPTs再次颠覆行业,GPTs短期上线数量已超3万,揭开AIGC应用生态序幕。

海外初创公司PikaLabs正式推出的AI视频生成工具Pika1.0火爆全球,Pika1.0包括一个能生成和编辑 3D 动画、动漫、卡通、电影等各种风格视频的全新 AI 模型。12月,谷歌紧随其后发布了其认为规模最大、功能最强大的人工智能模型Gemini,声称性能超越GPT-4和人类专家。作为多模态大模型,Gemini 可以同 时识别和理解文本、图像、音频、视频和代码五种信息,且对信息的理解非常精准。有别于传统大模型对英伟达硬件及生态的依赖,Gemini 的训练来自 于谷歌的 TPU v4 和 v5e 的硬件支持。

图片来源:Google当前以Pika 1.0和Gemini为代表的AI多模态模型不断突破,或推动大模型应用领域加快落地并打开商业化空间。以上两家也代表着挑战者对OpenAI和英伟达的强力反击,AI领域的高水平竞争正式进入了全新的阶段。当前海外科技巨头之间多模态大模型的竞争日益激烈,同时驱动 着底层多模态大模型的能力不断突破,垂域应用遍地开花,AI 应用有望迎来快速爆发。据市场分析机构IDC最新报告显示,2022年全球AI应用软件市场规模为640亿美元,预计到2027年将增加到2790亿美元,复合年增长率(CAGR)为31.4%。

01

多模态AI行业概览

人工智能领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。单模态交互是一个局限的、并不完整的模型,因此“多模态”研究大势所趋已十分明朗。多模态学习(对应单模态)以多模态大规模数据为基础,同时利用多种感官进行学习,提供更丰富信息。除传统的语言以及图像间的交互作用,其结合声音、触觉以及动作等多维度信息进行深度学习,从而形成更准确、更具表现力的多模态表示。相比于单模态,多模态模型处理多种数据输入,结构上更复杂,可能涉及使用多个子网络,然后将其输出合并。多模态模型的核心是处理和整合这些不同类型的数据源。这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分析信息,从而在各种任务中表现得更好。AI模型走向多模态必然性的三大因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。

来源:AWS,IBM Research,浙商证券、行行查多模态AI以模态融合为核心技术环节,围绕“表征-翻译-对齐-融合-联合学习”五大技术环节,解决实际场景下复杂问题的多模态解任务。多模态应用场景按架构可分为视频分类、事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、转移学习、视频解码、图像合成等。多模态AI实现跨模态任务,应用场景丰富。能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用,完成跨模态领域任务,应用于各种场景。据布谷实验室统计,当前多模态内容主要应用于商业定制、游戏领域、影视领域、教育领域以及医疗领域五大行业。多模态AI图示:

根据技术迭代,多模态模型可以分为三个主要发展阶段。2010年至今,深度学习为多模态研究带来了巨大的推动力,多模态模型已经达到了前所未有的准确性和复杂性。这一阶段受益于四个关键因素的推动:1)大规模的多模态数据集;2)更强大的计算能力;3)研究者也开始掌握更为先进的视觉特征提取技术;4)出现了强大的语言特征抽取模型,包括Transformer架构。多模态模型主要经历三个时代:

数据来源:卡内基梅隆大学

02

多模态AI市场格局梳理

在 OpenAI 宣布 ChatGPT 实现联网及 支持图片、语音交流及与文字互转等多模态更新后,国内外大厂持续布局跨文本、图像、音视频等模态的AI模型,行业应用亦不断升级。OpenAI多模态应用:

资料来源:OpenAI目前,国内外各家厂商仍把目光放在多模态大模型上,对标GPT-4开发竞品。AI初创企业Anthropic开发了对标的AI聊天机器人Claude。谷歌一方面对Anthropic进行投资,一方面也在开发自己的语言模型PaLM2和聊天机器人Bard。谷歌拥有多个跨模态AI模型,并提供多项功能服务模块。Meta走上了另一条道路,开源了自己的大模型LLaMA,后来也有越来越多的公司将自己的大模型进行开源,包括Vicuna、WizardLM、Guanaco等模型;微软KOSMOS-1模型拥有16亿参数,解锁多模态功能。海外大模型加速迭代,多模态是主要方向:

资料来源:OSCHINA、ZAKER、IT之家、开源证券国内大模型百花齐放,版本与性能持续迭代。随着AI大模型的竞争在国外激烈展开,国内许多互联网企业和科技企业也开始自研大模型,比如百度、阿里、科大讯飞、百川等。相比于国外,国内大模型的版本与性能更新迭代更快。百度发布文心一言并持续迭代;腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能;盘古基础大模型提供满足行业场景需要的上百种能力,盘古大模型为客户提供100亿、380亿、710亿和1000亿参数的系列化基础大模型,能够匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。盘古大模型3.0架构图:

资料来源:华为云官网国内众多厂商也在多模态产业链上下游有所布局,代表厂商包括苏州科达、网达软件、当虹科技、竞业达、声迅股份、为亿嘉和、因赛集团、博汇科技、数字政通、大华股份、云从科技、中科创达、拓尔思、新大陆、恒生电子、易点天下、三六零、佳都科技、捷成股份、昆仑万维、科大讯飞、万兴科技、汤姆猫、中文在线、数字政通等。三六零集团旗下智能硬件及物联网事业群360智慧生活发布了360智脑-视觉大模型,以及4款AI硬件设备,并宣布360智慧生活将进军SMB(中小型企业)市场。科大讯飞星火认知大模型 V3.0 实现文本生成、语言理解、 知识问答、逻辑推理、数学、代码、多模态七大能力提升。苏州科达推出了KD-GPT大模型,包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形,并开始在实际项目中投入应用。亿嘉和发布的一种基于多模态超融合技术的大模型YJH-LM,目前已在公司商用清洁机器人上完成功能测试。当虹科技视觉多模态分析技术基于自主研发视觉多模态分析技术,对多媒体进行视频、语音、文本、图像等内容的多维分析,针对视频中出现的内容进行多模态融合的智能理解分析并进行结构化标签提取,包含视频中出现的人物、车、物体、地标建筑、文字等内容的识别。

03

多模态AI应用端梳理

AI 应用的主要方向包括已推出产品并开启商业化的 AI 应用领 域:工具、教育、音乐、校对、营销等;此外还有受益于 AI 视频生成等 AI 多模态模型的游戏、影视等 IP 开发领域。后续随着 AI 大模型进一步朝多模态方向升级,广泛的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能性。从应用趋势来看,随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用,内容创作领域可能会经历前所未有的变革。多模态模型有望显著打开下游应用场景,破除单纯文字交互的局限性。下游应用场景在工业、医学、汽车、机器人等领域应用落地带来的商业化增量空间有望不断打开。2023 年 8 月 31 日,国内首批 8 家厂商 AI 大模型通过《生成式人工智能服务管理 暂行办法》备案,11 月 3 日,又有 11 家 AI 大模型完成备案。

AI视频生成

多模态融合大势所趋,AI生成视频技术的迭代,加速应用落地和商业模式创新。文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、 缺乏高质量的数据集等,但随着视频扩散模型技术的突破,新算法模型不断涌现。以国外Runway为代表的企业在近半年内取得了较大的进步,生成视频的一致性和保真度也有了较大改进,未来在视频多模态领域的应用。AI 视频生成领域,主要布局厂商包括万兴科技、新国都、虹软科技、光云科技等。万兴科技旗下 AI 视频创作软件 Wondershare Filmora 13 内置创作 助手 Copilot,并上线了 AI 文本成片、AI 音乐生成器等 AI 生成功能;万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型。

AI+游戏

游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用,有望更好在研发端利用多模态大模型的能力,提升内容制作效率,并提高内容丰富度,同时一些基于 AI 的 NPC 等设计或进一步提升用户体验和付费意愿,打开游戏整体收入增量空间。版号发放常态化带来供给端改善,新游戏陆续上线。多模态大模型有望提高游戏研发效率及内容、玩法丰富度,增强游戏社交属性,吸引增量用户,进一步打开游戏商业化空间。“AI+游戏”相关布局厂商包括盛天网络、神州泰岳、网易、腾讯控股、吉比特、心动公司、创梦天地、姚记科技、完美世界,包括星 辉娱乐、恺英网络、掌趣科技、汤姆猫、宝通科技、巨人网络、三七互娱、吉比特、巨人网络、电魂网络等。

AI+ 影视 IP/音乐

AI多模态技术有望带来动画、影视、互动影视游戏、音乐等内容开发提速, 丰富内容供给,带来商业化增量。该环节参与布局的厂商众多,代表厂商包括芒果超媒、奥飞娱乐、阅文集团、猫眼娱乐、光线传媒、中文在线、上海电影、掌阅科技、 华策影视、捷成股份、万兴科技、易点天下、盛天网络等。

AI+教育/电商/医疗

AIGC 在海外已实现教育产品功能创新、课程研发降本增收。语言学习应用程序多邻国(Duolingo)基于GPT-4大模型,推出DuolingoMax订阅服务。国内 AI 教育产品继续更新迭代,有望逐步带来增量。AI 赋能电商“人”、“货”、“场”全面铺开,AI 导 购在国内外加速落地,实现了商品推荐、服装试穿等功能创新,有望帮助电商平 台和服务商提升商品销售效率,实现降本增效。AI+医疗方面,在医保控费、分级诊疗的大背景下,AI能够通过提升人效、精细化运营、专业赋能的方式,帮助医院实现降本增效,同时帮助基层医院提高医疗能力。因此,AI大模型所嵌入的产品有望实现较好的落地。未来多模型AI有望在成像技术、疾病筛查与预测、手术与康复等场景下持续发力。该环节相关布局厂商包括世纪天鸿、南方传媒、皖新传媒、盛通股份、佳发教育、鸥玛软件、光云科技、值得买、壹网壹创、东方甄选、焦点科技、润达医疗、嘉和美康、卫宁健康、创业慧康、迪安诊断等。医疗领域大模型支持场景:

资料来源:创业慧康

AI+办公

在AI领域,语音输入和图像输入意味着更自然便捷的人机交互方式和更广泛的应用场景,或进一步革新办公产品。微软面向企业客户全面推出Microsoft365Copilot,产品商业化步伐再度迈进,对于国内办公软件厂商来说有积极意义。当前国内“AI+办公”类厂商多个产品进入测试阶段,监管落地后相关产品商业化有望加速。金山办公发布的具备大语言模型能力的生成式人工智能应用,名为“WPS AI”,这也是国内协同办公赛道首个类ChatGPT式应用。

AI+办公环节主要布局厂商还包括彩讯股份、致远互联、科大讯飞等。

AI+元宇宙/虚拟人

苹果 MR 头显或带动整体 MR 设 备出货量提升及 AR/VR 内容需求增长。多模态大模型有望为内容开发降本提效, 从而提高各应用场景下的 VR/AR 渗透率。主要布局厂商包括风语筑、锋尚文化、恒信东方、蓝色光标、因赛集团、元隆雅图、引力传媒等。

AI+机器人

AI大模型深度赋能机器人感知层和规划层,助力机器人更贴近具身智能。以微软ChatGPT预训练语言模型、谷歌PaLM-E模型、英伟达多模态具身智能系统NVIDIAVIMA为代表的AI技术突破,进一步助力机器人突破产品力上限。2023年3月谷歌PaLM-E模型推出,融合了ViTVisionTransformer的220亿参数和PaLM的5400亿参数能力,集成了可控制机器人视觉和语言的能力。2023年5月英伟达发布多模态具身智能系统NVIDIAVIMA,标志AI能力的又一显著进步,有望显著提升机器人的智能化水平、人机交互能力、自编译能力。

04

算力:多模态AI关键基石

随着多模态时代正式开启,无论在训练阶段还是在推理阶段,对于算力的需求都相较于单模态模型有极大的提升。应用场景多或请求量大会增加对计算资源的需求,导致计算集群规模的扩大。OpenAI认为自2012年以来,大规模AI训练所需的算力呈指数级增长,每3.4个月翻一番。2012-2018期间已增长超过300,000倍。当前多模态大模型仍在不断迭代,训练阶段的算力将保持增长。算力产业链核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。服务器和算力租赁主要代表厂商包括浪潮信息、中科曙光、工业富联、寒武纪、神州数码、拓维信息、恒润股份、紫光股份、四川长虹、真视通、中国长城、莲花健康、鸿博股份、润建股份、中贝通信、烽火通信、恒为科技等;光通信头部布局厂商包括中际旭创、新易盛、华工科技、剑桥科技、光迅科技、光库科技、烽火通信、长飞光纤、亨通光电等。算力基础设施产业链图示:

资料来源:各公司官网、华泰研究、行行查

当前全球开启新一轮AI技术竞赛。大型科技公司一改传统AI解决方案的商业模式,聚焦AI大语言模型研发,并向更前沿的多模态大模型深耕。在AI浪潮持续爆发的背景下,多模态有望迎来全面爆发机遇,并带动产业链各环节高速发展。

(本文来自乐晴智库,仅供学习之用,如有侵权请联系删除)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/236031.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CSS 实现无缝滚动

效果展示 CSS 知识点 animation 综合运用 页面整体布局 <div class"scroll" style"--t: 20s"><div><span>HTML</span><span>CSS</span><span>JavaScript</span><span>React</span><spa…

WEB 3D技术 以vue3+vite环境为例 讲解vue项目中使用three

上文 WEB 3D 技术&#xff0c;通过node环境创建一个three案例 中 我们打造了自己的第一个Web 3D界面 那么 今天 我们就来结合vue来开发我们的3D界面 这里 我们先创建一个文件夹 作为文件目录 千万不要放C盘 我们 依旧是在终端执行命令 npm init vitelatest输入一下项目名称 …

自动驾驶学习笔记(十七)——视觉感知

#Apollo开发者# 学习课程的传送门如下&#xff0c;当您也准备学习自动驾驶时&#xff0c;可以和我一同前往&#xff1a; 《自动驾驶新人之旅》免费课程—> 传送门 《Apollo 社区开发者圆桌会》免费报名—>传送门 文章目录 前言 分类 目标检测 语义分割 实例分割 …

uniapp中使用 unicloud

一、新建一个带有unicloud 二、创建一个服务空间 1. 右键uniCloud&#xff0c;关联云服务空间 我当前没有服务空间&#xff0c;需要新建一个服务空间&#xff0c;之后将其关联。初始化服务空间需要的时间有点长 服务空间初始化成功后&#xff0c;刷新HBuilder&#xff0c;勾选…

数字图像处理(实践篇)二十 人脸特征提取

目录 1 安装face_recognition 2 涉及的函数 3 实践 使用face_recognition进行人脸特征提取. 1 安装face_recognition pip install face_recognition 或者 pip --default-timeout100 install face_recognition -i http://pypi.douban.com/simple --trusted-host pypi.dou…

【51单片机系列】矩阵按键扩展实验

本文对矩阵按键的一个扩展&#xff0c;利用矩阵按键和动态数码管设计一个简易计算器。代码参考&#xff1a;https://blog.csdn.net/weixin_47060099/article/details/106664393 实现功能&#xff1a;使用矩阵按键&#xff0c;实现一个简易计算器&#xff0c;将计算数据及计算结…

15Linux、GIT及相关相似面试题、PostMan

Linux和git相似是命令相关的层次结构相似 Linux Linux Linux常用操作_linux操作-CSDN博客 程序员常用的10个Linux命令_简介linux系统中的10个常用命令及功能-CSDN博客 help help 命令 &#xff1a;获得 shell 内置命令的帮助信息&#xff0c;常用形式 help cd ls --help …

SPI 通信-stm32入门

本节我们将继续学习下一个通信协议 SPI&#xff0c;SPI 通信和我们刚学完的 I2C 通信差不多。两个协议的设计目的都一样&#xff0c;都是实现主控芯片和各种外挂芯片之间的数据交流&#xff0c;有了数据交流的能力&#xff0c;我们主控芯片就可以挂载并操纵各式各样的外部芯片&…

SpringBoot+Netty+Websocket实现消息推送

这样一个需求&#xff1a;把设备异常的状态每10秒推送到页面并且以弹窗弹出来&#xff0c;这个时候用Websocket最为合适&#xff0c;今天主要是后端代码展示。 添加依赖 <dependency><groupId>io.netty</groupId><artifactId>netty-all</artifact…

【SpringSecurity】-- 认证、授权

文章目录 SpringSecurity简介快速入门1.准备工作1.2引入SpringSecurity 认证1.登录校验流程2.原理2.1SpringSecurity完整流程2.2认证流程详解 3.解决问题3.1思路分析3.2准备工作3.3.实现3.3.1数据库校验用户3.3.2密码加密存储3.3.3登录接口3.3.4认证过滤器3.3.5退出登录 授权1.…

YOLOv8改进 | Neck篇 | Slim-Neck替换特征融合层实现超级涨点 (又轻量又超级涨点)

一、本文介绍 本文给大家带来的改进机制是Slim-neck提出的Neck部分&#xff0c;Slim-neck是一种设计用于优化卷积神经网络中neck部分的结构。在我们YOLOv8中&#xff0c;neck是连接主干网络&#xff08;backbone&#xff09;和头部网络&#xff08;head&#xff09;的部分&…

Tair(2):Tair安装部署

1 安装相关依赖库 yum install -y gcc gcc-c make m4 libtool boost-devel zlib-devel openssl-devel libcurl-devel yum&#xff1a;是yellowdog updater modified 的缩写&#xff0c;Linux中的包管理工具gcc&#xff1a;一开始称为GNU C Compiler&#xff0c;也就是一个C编…

本地如何使用PHP搭建简单Imagewheel云图床,结合内网穿透实现在外远程访问?

文章目录 1.前言2. Imagewheel网站搭建2.1. Imagewheel下载和安装2.2. Imagewheel网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar临时数据隧道3.2.Cpolar稳定隧道&#xff08;云端设置&#xff09;3.3.Cpolar稳定隧道&#xff08;本地设置&#xff09; 4.公网访问测…

vue3使用Mars3D写区块地图

效果图 引入相关文件 因为我也是第一次使用&#xff0c;所以我是把插件和源文件都引入了&#xff0c;能使用启动 源文件 下载地址&#xff1a; http://mars3d.cn/download.html 放入位置 在index.html中引入 <!--引入cesium基础lib--><link href"/static/C…

Stable diffusion 简介

Stable diffusion 是 CompVis、Stability AI、LAION、Runway 等公司研发的一个文生图模型&#xff0c;将 AI 图像生成提高到了全新高度&#xff0c;其效果和影响不亚于 Open AI 发布 ChatGPT。Stable diffusion 没有单独发布论文&#xff0c;而是基于 CVPR 2022 Oral —— 潜扩…

爆肝整理,Java接口自动化测试实战-rest-assured(详细总结)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、关于rest-assu…

聊个开心的敏捷话题——40小时工作制

近年来&#xff0c;加班现象在很多行业已经普遍制度化&#xff0c;甚至“996”已成为一些行业标签。企业高强度的压榨让员工不堪重负&#xff0c;且时常由此引发的各种悲剧也并不鲜见。 所以&#xff0c;今天我们一起来聊一个开心轻松的话题——极限编程的40h工作制原则。 40…

本科毕业论文查重率高吗【一文读懂】

大家好&#xff0c;今天来聊聊本科毕业论文查重率高吗&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff1a; 本科毕业论文查重率高吗&#xff1f;重要性与应对策略 摘要&#xff1a;对于本科毕业生来说&#…

PyQt6 QDateEdit日期控件

​锋哥原创的PyQt6视频教程&#xff1a; 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计39条视频&#xff0c;包括&#xff1a;2024版 PyQt6 Python桌面开发 视频教程(无废话…

java--正则表达式书写规则

1.正在表达式 ①就是由一些特定的字符组成&#xff0c;代表的是一个规则。 ②作用一&#xff1a;用来校验数据格式是否合法。 ③作用二&#xff1a;在一段文本中查找满足要求的内容 2.String提供了一个匹配正则表达式的方法 3.正则表达式的书写规则