PaliGemma – 谷歌的最新开源视觉语言模型(一)

在这里插入图片描述

引言

PaliGemma 是谷歌推出的一款全新视觉语言模型。该模型能够处理图像和文本输入并生成文本输出。谷歌团队发布了三种类型的模型:预训练(PT)模型、混合(Mix)模型和微调(FT)模型,每种模型都有不同的分辨率和多种精度可供选择,方便用户使用。

所有模型都已在 Hugging Face Hub 模型库中发布,并附有模型卡和许可证,并与 transformers 集成。

什么是 PaliGemma?

PaliGemma 是一组视觉语言模型,其架构由 SigLIP-So400m 作为图像编码器和 Gemma-2B 作为文本解码器组成。SigLIP 是一个先进的模型,能够理解图像和文本。像 CLIP 一样,它由图像和文本编码器共同训练。类似于 PaLI-3,PaliGemma 模型预训练于图像-文本数据集上,然后可以轻松地在下游任务上进行微调,例如图像字幕生成或引用分割。Gemma 是一个仅用于文本生成的解码器模型。通过使用线性适配器将 SigLIP 的图像编码器与 Gemma 结合,使 PaliGemma 成为一个强大的视觉语言模型。

PaliGemma 发布了三种类型的模型:

  • PT 检查点:预训练模型,可以微调到下游任务。
  • Mix 检查点:对多任务进行微调的 PT 模型。适用于带有自由文本提示的通用推理,仅供研究用途。
  • FT 检查点:一组已经微调的模型,每个模型都专注于不同的学术基准。以多种分辨率提供,仅供研究用途。

这些模型提供三种不同的分辨率(224x224448x448896x896)和三种不同的精度(bfloat16float16float32)。每个模型库包含适用于给定分辨率和任务的检查点,并为每种可用精度提供三个修订版本。每个模型库的 main 分支包含 float32 检查点,而 bfloat16float16 修订版本包含相应的精度版本。有适用于 🤗 transformers 和原始 JAX 实现的模型库。

模型能力

PaliGemma 是一个单轮视觉语言模型,不适合用于对话。它在微调到特定使用场景时效果最佳。

你可以通过条件化任务前缀(例如“detect”或“segment”)来配置模型解决的任务。预训练模型通过这种方式训练,以赋予它们丰富的功能(问答、字幕生成、分割等)。然而,它们不是设计用于直接使用的,而是通过微调转移到使用类似提示结构的特定任务上。对于交互式测试,可以使用经过多任务微调的 Mix 模型。

以下示例使用 Mix 检查点来展示一些能力。

图像字幕生成

PaliGemma 可以根据提示为图像生成字幕。你可以尝试使用各种字幕提示词与 Mix 检查点来查看它们的响应。

在这里插入图片描述

视觉问答

PaliGemma 可以回答关于图像的问题,只需将你的问题与图像一起传递即可。

在这里插入图片描述

检测

PaliGemma 可以使用 detect [entity] 提示词检测图像中的实体。它会输出规范化坐标形式的边界框坐标,使用特殊的 <loc[value]> 标记,其中 value 是表示规范化坐标的数字。每个检测表示为按顺序排列的四个位置坐标 y_min, x_min, y_max, x_max,然后是检测到的标签。要将值转换为坐标,首先需要将数字除以 1024,然后乘以图像高度和宽度。这将给出相对于原始图像大小的边界框坐标。

在这里插入图片描述

引用表达分割

PaliGemma Mix 检查点还可以在给定 segment [entity] 提示词时分割图像中的实体。这称为引用表达分割,因为我们使用自然语言描述来引用感兴趣的实体。输出是位置和分割标记的序列。位置标记表示为上文所述的边界框。分割标记可以进一步处理以生成分割掩码。

在这里插入图片描述

文档理解

PaliGemma Mix 检查点在文档理解和推理方面表现出色。

在这里插入图片描述
PaliGemma的代码案例,可进一步参考PaliGemma – 谷歌的最新开源视觉语言模型(二)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/652672.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

项目计划书(Word)

项目开发计划包括项目描述、项目组织、成本预算、人力资源估算、设备资源计划、沟通计划、采购计划、风险计划、项目过程定义及项目的进度安排和里程碑、质量计划、数据管理计划、度量和分析计划、监控计划和培训计划等。 软件全资料获取&#xff1a;点我获取 本文末个人名片获…

mac下载安装好软件后提示已损坏

mac下载安装好软件后提示已损坏 解决方法&#xff1a; 首先确保系统安全设置已经改为任何来源。 打开任何来源后&#xff0c;到应用程序目录中尝试运行软件&#xff0c;如果仍提示损坏&#xff0c;请在应用图标上&#xff0c;鼠标右键&#xff0c;在弹出菜单中点打开。 如果…

基于 IP 的 DDOS 攻击实验

介绍 基于IP的分布式拒绝服务&#xff08;Distributed Denial of Service, DDoS&#xff09;攻击是一种利用大量受控设备&#xff08;通常是僵尸网络&#xff09;向目标系统发送大量请求或数据包&#xff0c;以耗尽目标系统的资源&#xff0c;导致其无法正常提供服务的攻击方式…

巨额分红与大幅下调募资金额,小方制药注册生效半年后仍无进展

《港湾商业观察》施子夫 2022年7月1日&#xff0c;上海小方制药股份有限公司&#xff08;以下简称&#xff0c;小方制药&#xff09;递表上交所板&#xff0c;2023年9月1日公司提交了注册申请&#xff0c;并于同年12月19日获得生效。 离挂牌上市仅有一步之遥的小方制药注册生…

金融行业专题|超融合对国密卡和国产加密技术的支持能力如何?

目前&#xff0c;不少金融机构都使用国密卡&#xff08;满足国密算法要求的加密卡&#xff09;和国产密码解决方案保障金融信息安全。而在传统虚拟化架构下&#xff0c;单块加密卡通常只能服务一个系统&#xff0c;经常会出现资源利用率低、加密处理性能不足等问题&#xff0c;…

【设计模式】JAVA Design Patterns——Data Transfer Object(数据传递对象模式)

&#x1f50d;目的 次将具有多个属性的数据从客户端传递到服务器&#xff0c;以避免多次调用远程服务器 &#x1f50d;解释 真实世界例子 我们需要从远程数据库中获取有关客户的信息。 我们不使用一次查询一个属性&#xff0c;而是使用DTO一次传送所有相关属性。 通俗描述 使用…

剪画小程序:自媒体创作的第一步:如何将视频中的文案提取出来?

自媒体创作第一步&#xff0c;文案提取无疑是至关重要的一环。 做自媒体之所以要进行文案提取&#xff0c;有以下重要原因&#xff1a; 首先&#xff0c;提高效率。通过文案提取&#xff0c;可以快速获取关键信息&#xff0c;避免在无关紧要的内容上浪费时间&#xff0c;从而…

饮料添加剂新型褪色光照试验仪器太阳光模拟器

太阳光模拟器的定义和功能 太阳光模拟器是一种高科技设备&#xff0c;它可以模拟太阳光的光谱、光强和光照条件&#xff0c;用于实验室环境中对太阳能电池、光电器件以及其他需要太阳光条件的设备和材料进行评估。太阳光模拟器的主要功能包括模拟太阳光的光谱分布、辐照度、光…

OpenCV学习(2.1) 初识图像

1.图像对象 图像是由一个个像素组成的&#xff0c;像素越多&#xff0c;体现到图像就是更加清晰&#xff0c;有更多的细节。举个例子&#xff0c;通常来说的分辨率&#xff0c;1080P&#xff0c;720P&#xff0c;480P就是指像素的数量&#xff0c;数量越多就越清晰。 2.打印图…

打工人好用的大模型问答,还需要一款可靠的文档解析工具

如果说三四年前&#xff0c;我们对AI的展望还停留在科幻片的话&#xff0c;现在&#xff0c;通向AI智能的路径已经初现端倪。各行各业的朋友们不约而同地嗅到了大模型带来的生产方式变革气息。 LLM宣布了AI时代的正式到来。 2022年11月30日&#xff0c;ChatGPT发布&#xff0…

c++(四)

c&#xff08;四&#xff09; 运算符重载可重载的运算符不可重载的运算符运算符重载的格式运算符重载的方式友元函数进行运算符重载成员函数进行运算符重载 模板定义的格式函数模板类模板 标准模板库vector向量容器STL中的listmap向量容器 运算符重载 运算符相似&#xff0c;运…

AI写作工具的革命:AIGC如何提升内容生产效率

AIGC&#xff0c;即人工智能生成内容&#xff0c;是一种新兴的内容生产方式&#xff0c;它利用人工智能技术来自动生成文本、图像、音频、视频等多种形式的内容即进入实际应用层面。 所以AI不再是高深的、让人望尘莫及的算力算法&#xff0c;而是真实地贴近了我们的生活&#…

Java 泛型 <? super T> 中 super 怎么 理解?与 extends 有何不同?

作者&#xff1a;zhang siege 链接&#xff1a;https://www.zhihu.com/question/20400700/answer/91106397 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 首先&#xff0c;泛型的出现时为了安全&#xff0c;所有与…

经典神经网络(9)VAE模型原理及其在MNIST数据集上的应用

经典神经网络(9)VAE模型原理及其在MNIST数据集上的应用 图片生成领域来说&#xff0c;有四大主流生成模型&#xff1a;生成对抗模型&#xff08;GAN&#xff09;、变分自动编码器&#xff08;VAE&#xff09;、流模型&#xff08;Flow based Model&#xff09;、扩散模型&#…

【最优化方法】实验一 熟悉MATLAB基本功能

实验一  熟悉MATLAB基本功能 实验的目的和要求&#xff1a;在本次实验中&#xff0c;通过亲临使用MATLAB&#xff0c;对该软件做一全面了解并掌握重点内容。 实验内容&#xff1a; &#xff11;、全面了解MATLAB系统 &#xff12;、实验常用工具的具体操作和功能 学习建…

【基础篇-Day8:JAVA字符串的学习】

目录 1、常用API2、String类2.1 String类的特点2.2 String类的常见构造方法2.3 String类的常见面试题&#xff1a;2.3.1 面试题一&#xff1a;2.3.2 面试题二&#xff1a;2.3.3 面试题三&#xff1a;2.3.4 面试题四&#xff1a; 2.4 String类字符串用于比较的方法2.5 String类字…

基坑气膜:建筑工地环保新利器—轻空间

随着城市化进程的加快&#xff0c;建筑行业的飞速发展带来了严重的环境问题&#xff0c;如噪音和粉尘污染&#xff0c;给人们的生活带来诸多不便。为了解决这些问题&#xff0c;建筑行业一直在探索更为环保和高效的施工方式。近年来&#xff0c;基坑气膜技术逐渐崭露头角&#…

【国信华源:以专业服务,协助水利厅抵御强暴雨】

5月18日-19日&#xff0c;广西出现入汛以来最强暴雨天气过程&#xff0c;钦州、防城港、北海、南宁等地出现特大暴雨&#xff0c;多地打破降雨量极值。国信华源技术团队积极行动驻守一线&#xff0c;为打好山洪灾害防御的提前战、主动战提供了技术支撑。 5月17日18时&#xff0…

SOAR-Top 10安全剧本最佳实践-百度网盘下载

概述: SOAR&#xff08;Security Orchestration,Automation and Response安全编排自动化响应&#xff09;&#xff0c;Gartner 对 SOAR 的最新描述性定义&#xff08;摘自 Gartner 报告《Hype Cycle on Threat-Facing Technologies, 2018》) 是&#xff1a;SOAR 是一系列技术的…

基于SpringBoot+Vue在线动漫信息平台设计和实现(源码+LW+部署讲解)

&#x1f339;作者主页&#xff1a;青花锁 &#x1f339;简介&#xff1a;Java领域优质创作者&#x1f3c6;、Java微服务架构公号作者&#x1f604; &#x1f339;简历模板、学习资料、面试题库、技术互助 &#x1f339;文末获取联系方式 &#x1f4dd; &#x1f339;推荐一个人…