【多模态大模型】端侧语音大模型minicpm-o:手机上的 GPT-4o 级多模态大模型

MiniCPM-o ,它是一款 开源、轻量级 的多模态大语言模型,目标是在手机等资源受限的环境中实现 GPT-4o 级别的多模态能力
在这里插入图片描述

1. MiniCPM-o:小身材,大能量!

MiniCPM-o 的名字已经暗示了它的核心特点:Mini (小巧)CPM (中文预训练模型),最后的 “o” 则代表 Omnimodal (全模态)。 它由 OpenBMB 团队推出,旨在打造一款真正 实用化 的多模态大模型,让每个人都能在自己的手机上体验到强大的 AI 能力。

核心亮点:

  • GPT-4o 级别多模态能力: 官方宣称在视觉、语音和多模态理解方面,MiniCPM-o 达到了 GPT-4o 的水平,甚至在某些方面超越。
  • 极致轻量化: 模型体积小巧,易于部署在移动设备和边缘设备上,摆脱对云端计算的依赖。
  • 全模态输入: 不仅支持文本和图像,还加入了 语音 输入,能够理解更丰富的多模态信息。
  • 实时流式处理: 支持 多模态实时流式输入,为实时交互应用场景打开了大门,例如多模态直播、实时翻译等。
  • 完全开源: 模型权重、代码和数据全部开源,方便研究者和开发者使用和改进。

简而言之,MiniCPM-o 的目标就是:将 GPT-4o 级别的多模态能力,装进你的手机里!

2. 模型结构:全融合多模态架构

MiniCPM-o 采用了 全融合多模态架构,这意味着它并非简单地将不同模态的信息拼接在一起,而是从模型底层就实现了多模态信息的深度融合。 这种架构能够更好地捕捉不同模态之间的关联性,从而提升模型的理解和推理能力。

虽然 Notion 页面没有详细展开模型结构的细节,但我们可以推测其大致组成部分:

  • 视觉编码器 (Vision Encoder): 负责处理图像输入,提取视觉特征。 可能采用类似 ViT (Vision Transformer) 或 CNN 的结构。
  • 音频编码器 (Audio Encoder): 负责处理音频输入,提取音频特征。 可能采用类似 Whisper 或其他音频特征提取模型的结构。
  • 语言编码器 (Language Encoder): 负责处理文本输入,提取文本特征。 可能基于 Transformer 架构,例如类似 CPM 或其他 LLM 的结构。
  • 多模态融合模块 (Multimodal Fusion Module): 核心组件,将来自视觉、音频和语言编码器的特征进行深度融合。 具体融合方式可能包括 Cross-Attention、Gate Mechanisms 等。
  • 解码器 (Decoder): 基于融合后的多模态特征,生成文本输出。 同样可能基于 Transformer 架构。

**架构示意图

在这里插入图片描述

全融合的优势:

传统的多模态模型可能采用 late fusion (后期融合)intermediate fusion (中期融合) 的方式,即将不同模态的信息先独立处理,然后在后期或中间层进行融合。 而 全融合架构 则更强调 early fusion (早期融合)deep fusion (深度融合),让不同模态的信息在模型更底层的网络层就开始交互和融合,从而更好地捕捉模态间的细粒度关联。

举例说明:

假设模型需要理解一张 “猫咪坐在钢琴前弹奏音乐” 的图片。

  • Late Fusion: 模型可能先独立识别出 “猫咪”、“钢琴” 和 “音乐”,然后简单地将这些标签组合在一起。 但无法深入理解 “猫咪” 和 “弹奏音乐” 之间的 动作关系
  • 全融合: 模型在底层就将视觉特征 (猫咪的姿态、钢琴的形状) 和文本特征 (“弹奏音乐”) 进行融合,能够更准确地理解猫咪正在 “弹奏” 钢琴,而不是简单地 “靠近” 钢琴。

3. 训练步骤:大规模多模态数据驱动

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977909.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】深入理解List:双向链表的应用

凭时间赢来的东西,时间肯定会为之作证。 前言 这是我自己学习C的第七篇博客总结。后期我会继续把C学习笔记开源至博客上。 上一期笔记是关于C的vector类知识,没看的同学可以过去看看:【C】探索Vector:灵活的数据存储解决方案-CS…

Spring Cloud源码 - Eureka源码原理分析

Eureka源码原理分析 文章目录 Eureka源码原理分析一:启动过程源码1:初始化环境2:初始化上下文2.1:加载erueka-server配置文件2.2:构造实例信息管理器2.3:初始化erueka-client2.4:处理注册相关的…

2.23操作列表

操作列表 一:遍历整个列表 – for循环 names[xixi, gofy, haha] for name in names:print(f"{name} is very very good good")print(f"{name},欢迎回家\n")xixi is very very good good xixi,欢迎回家gofy is very ver…

Solidity study

Solidity 开发环境 Solidity编辑器:Solidity编辑器是一种专门用于编写和编辑Solidity代码的编辑器。常用的Solidity编辑器包括Visual Studio Code、Atom和Sublime Text。以太坊开发环境:以太坊开发环境(Ethereum Development Environment&am…

Git版本控制系统---本地操作(万字详解!)

目录 git基本配置 认识工作区、暂存区、版本库 添加文件--情况一: 添加文件-情况二: 修改文件: 版本回退: git基本配置 1.初始化本地仓库,注意:一定要在一个目录下进行,一般都是新建一个文件夹,在文件…

IDEA配置JSP环境

首先下载IDEA2021.3,因为最新版本不能简单配置web开发环境。然后新建一个java开发项目: 然后右键创建的项目,添加web框架: 选择web appliciation 在web inf文件夹下创建classes和lib文件夹: 点击file ,选择…

前端兼容处理接口返回的文件流或json数据

参考文档:JavaScript | MDN 参考链接:Blob格式转json格式,拿到后端返回的json数据_blob转json-CSDN博客 参考链接:https://juejin.cn/post/7117939029567340557 场景:导入上传文件,导入成功,…

短剧源码部署搭建小程序搭建IAA+IAP混合解锁模式

在当今数字化内容消费迅速增长的时代,短剧作为一种新兴的内容形式,凭借其短小精悍、节奏紧凑的特点,迅速吸引了大量用户。作为一名软件体验测试人员,我有幸体验了一款集创新与实用为一体的短剧小程序。这款小程序不仅在前端用户体…

网络原理---HTTP/HTTPS

通过之前的网络编程,我们已经初步了解UDP和TCP的基本实现方法,接下来我们对其进一步的学习。 在网络编程中: 1.读和写数据通过Socket,通过Socket内置的InputStream和OutputStream(读写的基本单位都是字节)。2.当在编…

【Python修仙编程】(二) Python3灵源初探(2)

第一部分:林羽的修仙之旅——字符串与布尔类型的修炼 林羽站在练气期一阶的起点,望着手中的《Python无极心法》秘籍,心中充满了期待。师傅玄天真人在一旁微笑着说道:“林羽,今天我们要修炼的是‘字符串’和‘布尔类型…

【HTML— 快速入门】HTML 基础

准备工作 vscode下载 百度网盘 Subline Text 下载 Sublime Text下载 百度网盘 vscode 下载 Sublime Text 是一款轻量好用的文本编辑器,我们在写前端代码时,使用 Sublime Text 打开比使用记事本打开,得到的代码体验更好,比 vscode…

pipeline 使用git parameter插件实现动态选择分支构造

效果,,点击build with Parameters 就会出现右边的当前仓库的所有的分支,默认最多显示5个,可以修改配置,修改显示的最大分支数量。如果分支太多,可以通过右边的过滤框输入过滤。 安装git params插件 搜索g…

国产OS上完整编译Qt5.15、搭建基本开发环境需要的库

近期有师弟问我国产OS安装Qt5.15编译老是不完整,不是没声音,就是没视频,或者没有xcb。通过QEMU模拟Arm64,闲来20几天摸索,完整编译了Qt5.15,并编译成功了我的SDR玩具taskBus。 1.主要结论: 该O…

数据库 安装initializing database不通过

出现一下情况时: 处理方法: 将自己的电脑名称 中文改成英文 即可通过

【视频2 - 4】初识操作系统,Linux,虚拟机

📝前言说明: ●本专栏主要记录本人的基础算法学习以及LeetCode刷题记录,主要跟随B站博主灵茶山的视频进行学习,专栏中的每一篇文章对应B站博主灵茶山的一个视频 ●题目主要为B站视频内涉及的题目以及B站视频中提到的“课后作业”。…

AI绘画软件Stable Diffusion详解教程(2):Windows系统本地化部署操作方法(专业版)

一、事前准备 1、一台配置不错的电脑,英伟达显卡,20系列起步,建议显存6G起步,安装win10或以上版本,我的显卡是40系列,16G显存,所以跑大部分的模型都比较快; 2、科学上网&#xff0…

将Ubuntu操作系统的安装源设置为阿里云

在使用Ubuntu操作系统时,默认的软件源通常是国外的仓库,这可能会导致软件安装和更新速度较慢。为了提高下载速度和稳定性,我们可以将Ubuntu的安装源设置为阿里云镜像源。以下是详细步骤: 一、准备工作 在开始之前,请确保您的Ubuntu系统可以正常上网,并且您拥有管理员权…

IP-------GRE和MGRE

4.GRE和MGRE 1.应用场景 现实场景 居家工作,公司工作,分公司工作----------需要传输交换数据--------NAT---在该场景中需要两次NAT(不安全) 为了安全有两种手段-----1.物理专线---成本高 2.VPN--虚拟专用网---隧道技术--封装技…

Visual Studio Code 跨平台安装与配置指南(附官方下载链接)

一、软件定位与核心功能 Visual Studio Code(简称VS Code)是微软开发的开源跨平台代码编辑器,支持超过50种编程语言的智能补全、调试和版本控制功能。2025版本新增AI辅助编程模块,可自动生成单元测试代码和API文档注释。 二、下载…

小智AI桌宠机器狗

本文主要介绍如何利用开源小智AI制作桌宠机器狗 1 源码下载 首先下载小智源码,下载地址, 下载源码后,使用vsCode打开,需要在vscode上安装esp-idf,安装方式请自己解决 2 源码修改 2.1添加机器狗控制代码 在目录main/iot/things下添加dog.cc文件,内容如下; #include…