震撼发布！4M-21：苹果多模态AI巨擘，一键解锁21种模态

前沿科技速递🚀

来自洛桑联邦理工学院（EPFL）与苹果科研巨擘的强强联手，震撼发布全新跨时代成果——4M-21模型！这一革命性单一模型，突破性地覆盖了数十种高度多样化的模态，通过大规模多模态数据集与文本语料库的协同训练，实现了前所未有的跨领域能力飞跃。

想象一下，从图像特征到人体姿态，从向量到实例分割，无论数据形态如何复杂多变，4M-21都能以统一的视角进行解析与生成。这一壮举，不仅将现有模型的模态处理能力提升至三倍以上，更在细粒度控制与多模态生成上迈出了坚实步伐。

立即加入我们的探索之旅，一同见证这一颠覆性研究的魅力所在！论文详情、代码资源、实验成果，尽在掌握。快来解锁未来科技的无限可能，与全球科研先锋并肩前行！

论文地址：https://opencsg.com/daily_papers/cFdzaqtfY7xc

模型地址：https://www.opencsg.com/models/EPFL-VILAB/base-4M-21_XL

来源：传神社区

01 模型亮点：单一模型，三倍效能

革命性AI研究来袭！一款单一模型，竟能完成现有模型三倍以上的任务与模态，且性能不减反增。这不仅是技术的飞跃，更是效率与功能的双重提升。

模态大跃进：从7到21，模态数量翻倍增长，涵盖图像、文本、人体姿态等多种类型。这意味着，无论是跨模态检索还是可控生成，这款模型都能轻松应对，开箱即用，性能卓越。
细节与可控性：生成内容更加精细，控制更加灵活。无论是全局图像嵌入还是人体姿态的微妙变化，都能精准捕捉，按需生成。
多模态预训练：基于先进的多模态掩码预训练方案，模型在数十种高度多样化的模态中锤炼成长，实现了跨模态的统一与融合。
特定分词器：创新使用特定于模态的离散分词器，为每种模态量身定制编码方式，确保信息精准传达，模型性能更上一层楼。
规模扩展：模型参数增至3B，数据集扩容至0.5B样本，强大的计算能力与丰富的数据支撑，让模型学习更加深入，表现更加出色。
协同训练：视觉与语言双管齐下，协同训练让模型在理解世界时更加全面与深刻，输出更加精准与生动。

02 方法介绍

来自EPFL与苹果的强强联合，去年震撼发布的4M预训练方案，如今再次进化！这一被验证为通用且高效的方法，正引领我们向多模态AI的新纪元迈进。

规模升级，性能飙升：保持原有架构与多模态掩码训练目标的精髓，本研究通过前所未有的方式提升模型与数据规模。更多模态类型与数量的融入，加之跨数据集的联合训练，让模型性能与适应性实现质的飞跃。
模态分类，全面覆盖：从RGB视觉盛宴到几何结构的精妙，从语义的深邃到边缘的细腻，再到特征图的丰富、元数据的精准与文本的广阔，本研究将模态细分为六大类别，全方位捕捉世界之美。

模态分为以下几大类别：RGB、几何、语义、边缘、特征图、元数据和文本。

Tokenization革新，统一表示空间：如何将不同模态与任务无缝对接？本研究创新性地采用多样化tokenization方法，将一切转化为序列或离散token，构建统一的表示空间。ViT、MLP及文本tokenizer三大利器并出，让每种模态都能找到最适合自己的表达方式。

03 多模态能力测评

4M-21模型凭借其强大的迭代解码token能力，能够以前所未有的灵活性预测并生成任意训练模态的内容。如图所示，该模型能够从给定的单一输入模态出发，以高度一致和连贯的方式，生成所有已训练的模态输出，展现了其在多模态生成领域的非凡潜力。

更令人兴奋的是，4M-21支持有条件和无条件的生成模式，允许用户从其他模态的任何子集出发，生成所需的任何训练模态。这一特性极大地丰富了多模态编辑的可能性，如图所示，用户可以在保留原有信息的基础上，对多个模态进行精细调整和优化，实现更加个性化和定制化的输出。此外，4M-21在文本理解能力上也实现了显著提升，无论是基于T5-XXL嵌入还是常规字幕，都能生成几何和语义上均合理的内容，进一步证明了其强大的多模态理解能力。

在传统模型中，多模态检索往往受限于固定的查询方式。而4M-21则彻底打破了这一束缚，实现了前所未有的检索功能。如图所示，用户不仅可以使用RGB图像等传统模态作为查询条件，还可以利用其他任何模态来检索所需的信息。这种跨模态的检索能力极大地拓宽了信息获取的渠道和方式。

此外，4M-21还创新性地引入了多模态组合预测全局嵌入的方法，通过整合多种模态的信息来优化检索结果的控制。这一方法不仅提高了检索的准确性和效率，还为用户提供了更加灵活和个性化的检索体验。

为了验证4M-21的性能优势，论文在多个基准数据集上进行了评估。如表所示，在DIODE表面法线和深度估计、COCO语义和实例分割、3DPW 3D人体姿态估计等任务中，4M-21均取得了显著优于现有模型的表现。这些结果表明，4M-21不仅具备强大的多模态处理能力，还在实际应用中展现出了极高的实用价值。