超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源

随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenAI在发布GPT-4V时就已经明确表示:

将额外模态(如图像输入)融入大语言模型(LLMs)被认为是 AI 研究和发展的一个关键新领域。

昨天,HyperGAI 研究团队推出了 HPT(Hyper-Pretrained Transformers)系列,包含两个模型,HPT Air 和 HPT Pro。

其中HPT Pro 在部分基准测试中已经超越了 GPT-4V 和 Gemini Pro 的表现。同时,高效的版本 HPT Air 也相当强大,在同等小规模的模型中效果达到了最优,且已经开源。

分享几个自用的Claude 3和GPT-4的镜像站给大家吧,均为国内可用:


hujiaoai.cn(最牛的Claude 3 Opus,注册即用,测评下来完全吊打了GPT4)

higpt4.cn(稳定使用一年的chatgpt-4研究测试站,非商业目的,而且用的是最牛的128k窗口的版本)

图片

图1.HPT(Hyper-Pretrained Transformers)模型结构的介绍。

项目地址:

Github: https://github.com/hyperGAI/HPT

huggingface: https://huggingface.co/HyperGAI/HPT

过去模型只处理单一类型的数据,如文本、图像或者音频,往往单一模态下优化的模型的能力要强于多模态的模型。

去年,许多研究团队推出了自己的多模态大模型,比如DeepMind的Flamingo、Salesforce的Blip、Google的PaLM-E和Gemini等。从输入输出看,多模态可以简单分为模态转换、输入多模态、输出多模态,输入输出多模态。

HyperGAI 研究团队提出了一种名为“Hyper-Pretrained Transformers”(HPT)的新型多模态LLM预训练框架,可以理解多种输入模态。

HPT介绍

HPT的主要部件,如大语言模型和视觉编码器都可以使用开源的预训练模型,而HPT中连接视觉和语言模态的桥梁,称之为H-former,它将视觉数据转换为语言标记。

为了使语言模型能够充分理解视觉信息,H-Former 采用双网络设计,学习视觉—语言对齐的本地特征和全局特征,使 HPT 能够理解细粒度细节和抽象的高层信息。

如下图所示,H-former将图像转换成视觉嵌入,该嵌入具备与文本对齐的信息,可以直接作为视觉嵌入与文本嵌入一齐送入语言模型,如Yi-6B。

图片

图2.H-former在传统的视觉编码器之后对视觉嵌入进行重新表示,生成的视觉嵌入可与文本嵌入组合送入预训练语言模型。

图片

图3. 破案了,其实H-former就是Q-former,或者说是基于Q-former,其全局与局部的视觉—语言对齐应该是体现在对q_feat的处理上。

在原则上,HPT 可以从头开始训练,也可以利用现有的预训练视觉和语言模型。对于开源的 HPT Air 模型,作者利用了一个预训练的语言模型(Yi-6B)和视觉编码器(clip-vit-large-patch14-336),在只有大约 160 万个文本—图像样本的多模态训练数据集上进一步训练,其中文本仅使用英文数据。

实验结果

作者在多个具有挑战性的多模态基准上进行了实验,包括 MMMU、CMMMU、SEED(img)、MMBench 和 MMBench-CN。

这些基准涵盖了各种图像类别,包括图表、图解、肖像和照片,需要对大学水平的学科知识和多学科领域的推理(MMMU 和 CMMMU),或者对各种视觉和语言任务中的常识和空间理解(SEED(img)、MMBench 和 MMBench-CN)。

在许多情况下,HPT Pro 和 HPT Air 在多项基准测试中表现出色,优于 GPT-4V、Gemini Pro 和 Qwen-VL 等。例如,在 SEED(img)基准测试中,HPT Pro 在所有对比的方法里取得了最佳结果(73.1%),而 HPT Air 在性能上超过了 Qwen-VL-Chat(69.7% 比 65.4%),甚至接近 Gemini Pro 的性能水平(69.7% 比 70.7%)。

在 MMBench 和 MMBench-CN 基准测试中也可以观察到类似的结论,唯一的例外是 LLaVA-NeXT 在 SEED(img)基准测试上优于 HPT Air。

图片

对于需要大学级学科知识和深思熟虑的 MMMU 和 CMMMU 基准测试,HPT Pro 和 HPT Air 分别是同类尺寸模型中最好的。截止至2024年3月21日,MMMU官网的验证集leaderboard如下:

图片

据作者介绍,HPT 模型仅基于英语多模态数据进行训练,但在 Bench-CN 和 CMMMU 基准测试上的竞争表明,HPT 模型可以很好地泛到其他语言,比如中文。综合来看,HPT模型在多模态基准测试中的成绩还是非常出色的。

HPT示例效果

在一系列实际的定性示例中,展示了 HPT 的多模态能力,包括理解、推理、艺术表达等方面的能力。以下的示例均来自官方博客:

  1. 查看、描述并遵循指令 HPT可以理解和表达视觉图像的内容。尽管示例 1.1 和 1.2 中的图像具有非常规性质,但 HPT 准确地辨别了主要主题并阐明了其特征。值得注意的是,示例 1.1 与图 1 中的示例相似。HPT 可以根据用户偏好定制其描述的详细程度,在提示关键字“简短答案”时提供简洁的响应。此功能可确保 HPT 可以按照说明满足用户的需求。

图片

图片

  1. 解释和推理。HPT 可以解释图表、图表,并回答基于所提供数据的科学问题。例如,在示例 2.1 中,HPT 演示了其识别与图表数据相对应的数字序列(76、_、68、67、58)的能力,能够通过图表分析推断出缺失的数字。在示例 2.2 中,HPT 可以回答大学水平的问题并提供正确的解释。这些例子说明了HPT从视觉数据中提取和应用信息以解决复杂问题。

图片

图片

  1. 了解概念艺术。HPT还擅长把握艺术表现形式,准确诠释例3.1中传达的情感,并在例3.2中认识到鱼尾狮作为新加坡象征的文化意义。这种能力证明了HPT在分析和理解艺术品中复杂的视觉和概念线索方面的熟练程度。

图片

图片

  1. 创意。 HPT不仅理解力强,而且创造力强。如例 4.1 所示,它不仅了解在爱因斯坦时代不存在智能手机,而且还可以创造性地推测他获得现代技术的可能性。此外,HPT准确地解释了代词的引用,如第二个问题所示,它正确地将“他”识别为阿尔伯特·爱因斯坦并做出适当的回应。这凸显了HPT细致入微的理解和富有想象力的推理。HPT 还可以根据提供的图像编写有趣的小说故事,如示例 4.2 所示。

图片

图片

  1. 推荐和协助。HPT还可以提供有用的建议。尽管示例 5.1 中的视觉外观很棘手,但它理解图像内容,推荐可以使用此类食材烹制的菜肴,以及享用此类餐点的地方。同样,根据用户的图像,HPT 可以帮助规划下一艘游轮并提供缓解晕船的建议(示例 5.2)。这展示了HPT提供可操作的见解和有用建议以增强用户体验的能力。

图片

图片

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/476636.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙一次开发,多端部署(一)简介

背景 随着终端设备形态日益多样化,分布式技术逐渐打破单一硬件边界,一个应用或服务,可以在不同的硬件设备之间随意调用、互助共享,让用户享受无缝的全场景体验。而作为应用开发者,广泛的设备类型也能为应用带来广大的…

Unity访问安卓(Android)或苹果(iOS)相册

1.下载Native Gallery for Android & iOS插件 2.在场景中添加截图按钮、选择图片按钮、选择视频按钮等 using OpenCVForUnity.CoreModule; using OpenCVForUnity.ImgprocModule; using OpenCVForUnity.UnityUtils; using System.Collections; using System.Collections.Gen…

线段树+暴力区修 P4145 上帝造题的七分钟 2 / 花神游历各国

传送门https://www.luogu.com.cn/problem/P4145 这道题着实想了好久,本来想的是用数学方法找规律,结果写了好久,发现想假了,于是只好看思路,暴力区修!原因是被开根号一定次数就会变成1,是有限的…

安卓studio连接手机之后,一两秒之后就自动断开了。问题解决。

太坑了,安卓studio链接手机之后。几秒之后就断开了。我以为是adb的问题,就重新安装了一下adb。并且在环境变量中配置了Path的路径。然而并没有什么用啊。 后来查看是wps的服务和ADB有冲突。直接把WPS卸载掉之后就没有出现链接手机闪现的的问题。

网络通信——IP地址、端口号、协议(TCP、UDP)

通信架构 网络通信三要素 IP地址 IPv4地址 IPv6地址 IP域名 IP常识 端口号 概念 协议 开放式网络互联标准:OSI、TCP/IP 传输层的2个通信协议——UDP、TCP TCP协议:三次握手建立建立可靠连接 进行三次握手的原因:为了确保客户端和服务端…

在基于Android相机预览的CV应用程序中使用 OpenCL

查看:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV4.9.0在Android 开发简介 下一篇:在 MacOS 中安装 本指南旨在帮助您在基于 Android 相机预览的 CV 应用程序中使用 OpenCL ™。教程是为 Android Studio 20…

复习斐波那契(用C++写)

或者这样写: 斐波那契数列 题目描述 斐波那契数列是指这样的数列:数列的第一个和第二个数都为 1 1 1,接下来每个数都等于前面 2 2 2 个数之和。 给出一个正整数 a a a,要求斐波那契数列中第 a a a 个数是多少。 输入格式…

霍格沃兹测试开发从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

随着学社的学员越来越多,影响力越来越大,不停有学员和企业问我们:能否提供人员外包服务?与此同时,企业对于外包人员的业务技能要求也越来越高,寻找一个稳定靠谱的供应商也成了很多学员所在公司的需求。对此…

SCI一区 | Matlab实现SSA-TCN-BiGRU-Attention麻雀算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现SSA-TCN-BiGRU-Attention麻雀算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现SSA-TCN-BiGRU-Attention麻雀算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

树莓派夜视摄像头拍摄红外LED灯

NoIR相机是一种特殊类型的红外摄像头,其名称来源于"No Infrared"的缩写。与普通的彩色摄像头不同,NoIR相机具备红外摄影和低光条件下摄影的能力。 一般摄像头能够感知可见光,并用于普通摄影和视频拍摄。而NoIR相机则在设计上去除了…

基于python+vue共享单车信息系统的设计与实现flask-django-php-nodejs

课题主要分为二大模块:即管理员模块和用户模块,主要功能包括:用户、区域、共享单车、单车租赁、租赁归还、报修信息、检修信息等;快速发展的社会中,人们的生活水平都在提高,生活节奏也在逐渐加快。为了节省…

安卓实现翻转时间显示效果

效果 废话不多说上代码 自定义组件 import android.content.Context; import android.content.res.TypedArray; import android.graphics.Camera; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Matrix; import android.graphics.…

谷歌具身智能最新进展:RT-H 机器人通用灵巧抓取

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人&…

实现React组件之间的数据共享:使用React Redux

实现React组件之间的数据共享:使用React Redux 在复杂的React应用中,组件之间的数据共享是必不可少的。为了解决这个问题,可以使用React Redux来管理应用的状态,并实现组件之间的数据共享。在本文中,我们将介绍如何使…

修改网站源码,给电子商城的商品添加图片时商品id为0的原因

修改网站源码,给电子商城的商品添加图片时商品id为0的原因。花了几个小时查找原因。后来,由于PictureControl.class.php是复制CourseControl.class.php而来,于是对比了这两个文件,在CourseControl.class.php找到了不一样的关键几条…

Svg Flow Editor 原生svg流程图编辑器(三)

系列文章 Svg Flow Editor 原生svg流程图编辑器(一) Svg Flow Editor 原生svg流程图编辑器(二) Svg Flow Editor 原生svg流程图编辑器(三) 实现对齐辅助线 在 logicFlow 中,辅助线的实现是通…

SpringCloudGateway之高性能篇

SpringCloudGateway之高性能篇 背景 在公司的开放平台中,为了统一管理对外提供的接口、处理公共逻辑、实现安全防护及流量控制,确实需要一个API网关作为中间层。 场景 统一接入点: API网关作为所有对外服务的单一入口,简化客户端对内部系统…

基于python+vue渔船出海及海货统计系统的设计与实现flask-django-php-nodejs

当今社会已经步入了科学技术进步和经济社会快速发展的新时期,国际信息和学术交流也不断加强,计算机技术对经济社会发展和人民生活改善的影响也日益突出,人类的生存和思考方式也产生了变化。传统渔船出海及海货统计采取了人工的管理方法&#…

2024.3.22 使用nginx在window下运行前端页面

2024.3.22 使用nginx在window下运行前端页面 使用nginx可以在本地运行前端程序,解决本地前后端程序跨域问题,是个前期编程及测试的好办法。 nginx下载 直接在官网下载 本次选择了1.24版本(stable version) nginx安装 解压后…

低压MOS在无人机上的应用-REASUNOS瑞森半导体

一、前言 无人机的结构由机身、动力系统、飞行控制系统、链路系统、任务载荷等几个方面组成的。 无人机动力系统中的电机,俗称“马达”,是无人机的动力来源,无人机通过改变电机的转速来改变无人机的飞行状态。即改变每个电机的速度&#xf…