引领视觉基础模型新纪元! | 微软宣布开源Florence-2

01 模型介绍

🎉重大突破!微软宣布开源Florence-2视觉基础模型,引领AI新纪元!🚀

Florence-2这一创新力作,以统一的提示为基础,跨越式地解决了计算机视觉与视觉语言领域的多样任务难题。从字幕生成到对象检测,从基础识别到精细分割,只需简单文本指令,Florence-2即可轻松驾驭,展现了前所未有的灵活性与强大能力!

面对垂直领域的特定需求,Florence-2虽非万能,但通过微调,其性能可显著优化,精准匹配行业需求。这标志着AGI系统正逐步迈向现实,利用预训练表征的多功能性,在不同应用中展现出惊人的任务无关适应性。

Florence-2的问世,是微软对NLP成功经验的智慧延伸,解决了视觉领域长久以来的挑战:如何整合复杂的空间层次与语义粒度。通过多任务学习与广泛视觉注释,Florence-2构建了统一的预训练框架,为视觉任务带来了革命性的解决方案。

快来探索Florence-2的无限可能,共同见证AI技术的新飞跃吧!

图片

02 模型架构

任务制定新视角:Florence-2以序列到序列的框架,重塑视觉任务处理模式。每个任务化作翻译挑战,图像与任务提示携手,激发模型生成精准响应。无论是文本还是区域信息,标记灵活融入,适配多样格式,让任务处理更灵活!

视觉编码器的力量:DaViT,数据高效视觉转换器的加入,让视觉编码器如虎添翼。它捕捉图像的空间与语义精髓,转化为扁平化视觉标记嵌入,与文本无缝对接,为跨模态融合奠定坚实基础。

多模态融合的魔法:Florence-2的心脏——多模态编码器-解码器变换器,是视觉与语言交融的催化剂。它游走于视觉与语言标记之间,编织出对输入图像与任务提示的深刻理解,生成富有洞察力的响应。

优化目标的智慧:语言建模目标引领训练之路,交叉熵损失护航每个任务。Florence-2在视觉相关任务的海洋中航行,精准生成反应,不断逼近完美。

图片

03 模型评测

以下是几款通用视觉基础模型在零样本(Zero-shot)设置下的图像描述与物体检测任务评测结果,这些模型在训练阶段均未接触过评测任务的数据集。

图片

🔍 评测亮点:

  • Flamingo(800亿参数):在COCO Captioning任务上表现出色,CIDEr得分达84.3,但其他数据集信息未提供。

  • Florence-2-base(仅0.23亿参数):以惊人实力逆袭,COCO Captioning CIDEr高达133.0,NoCaps和TextCaps数据集上也分别取得118.7和70.1的高分,同时COCO Detection mAP达34.7,小模型大能量!

  • Florence-2-large(0.77亿参数):性能再升级,COCO Captioning CIDEr提升至135.6,NoCaps和TextCaps分别飙升至120.8和72.8,COCO Detection mAP也达到37.5,证明了其在大规模参数下的卓越表现。

🚀 Florence-2 亮点总结:

  • 高效性:即便是基础版,Florence-2也展现出远超同类大模型的零样本性能,参数效率极高。

  • 全面性:在多个评测任务上均表现出色,验证了其强大的泛化能力和通用视觉理解能力。

  • 潜力无限:随着模型规模的增加,Florence-2的性能持续攀升,预示着其在更大规模数据集和更复杂任务上的无限可能。

04 模型与论文地址

传神社区:https://www.opencsg.com/models/microsoft/Florence-2-large

https://www.opencsg.com/models/microsoft/Florence-2-base

hugging face 模型:https://huggingface.co/microsoft/Florence-2-large

https://huggingface.co/microsoft/Florence-2-base

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/767078.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Hyper-V虚拟机固定IP地址(手把手教设置)

链接虚拟机修改网络配置文件 输入指令 sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0 然后 输入 按 i 键 再按回车 (enter) 进入编辑模式 修改配置(这几项)其中 IPADDR 就是你想给虚拟机固定的 IP 地址 多台的话只需要修改这个IP 就行其他不变 BOOTPROTO=static…

半导体划片研磨废水的处理效果

半导体划片研磨废水处理是一个复杂而关键的过程,因为这类废水中含有大量颗粒物、有机物、重金属等有害物质,具有浓度高、毒性大、难以处理等特点。以下是对半导体划片研磨废水处理过程的详细阐述,结合相关数字和信息进行归纳: 一、…

【Java集合类】ArrayList

方法 subList(int fromIndex, int toIndex) 可以看一下subList源码片段 public List<E> subList(int fromIndex, int toIndex) {subListRangeCheck(fromIndex, toIndex, size);return new SubList<>(this, fromIndex, toIndex);} private static class SubList…

nginx的vim nginx.conf配置文件内容详解及实验,nginx的优化和防盗链

一、nginx网络服务器&#xff1a; 1. nginx是开源的&#xff0c;是一款高性能&#xff0c;轻量级的web服务软件&#xff1b;稳定性高&#xff0c;而且版本迭代比较快&#xff1b;修复bug速度比较快&#xff0c;安全性高&#xff1b;消耗资源低&#xff0c;http的请求并发连接&…

My sql 安装,环境搭建

以下以MySQL 8.0.36为例。 一、下载软件 1.下载地址官网&#xff1a;https://www.mysql.com 2. 打开官网&#xff0c;点击DOWNLOADS 然后&#xff0c;点击 MySQL Community(GPL) Downloads 3. 点击 MySQL Community Server 4.点击Archives选择合适版本 5.选择后下载第二个…

bWAPP靶场安装

bWAPP安装 下载 git地址&#xff1a;https://github.com/raesene/bWAPP 百度网盘地址&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1Y-LvHxyW7SozGFtHoc9PKA 提取码&#xff1a;4tt8 –来自百度网盘超级会员V5的分享 phpstudy中打开根目录&#xff0c;并将下载的文…

【C++知识点总结全系列 (06)】:STL六大组件详细总结与分析- 配置器、容器、迭代器、适配器、算法和仿函数

STL六大组件目录 前言1、配置器(1)What(2)Why(3)HowA.调用new和delete实现内存分配与销毁B.STL Allocator (4)allocator类A.WhatB.HowC.allocator的算法 2、容器(1)What(2)Which&#xff08;有哪些容器&#xff09;(3)序列容器&#xff08;顺序容器&#xff09;A.WhichB.array&…

Unity编辑器工具---版本控制与自动化打包工具

Unity - 特殊文件夹【作用与是否会被打包到build中】 Unity编辑器工具—版本控制与自动化打包工具&#xff1a; 面板显示&#xff1a;工具包含一个面板&#xff0c;用于展示软件的不同版本信息。版本信息&#xff1a;面板上显示主版本号、当前版本号和子版本号。版本控制功能…

音视频开发35 FFmpeg 编码- 将YUV 和 pcm合成一个mp4文件

一 程序的目的 /*** *该程序的目的是: * 将 一个pcm文件 和 一个 yuv文件&#xff0c;合成为一个 0804_out.mp4文件 * pcm文件和yuv文件是从哪里来的呢&#xff1f;是从 sound_in_sync_test.mp4 文件中&#xff0c;使用ffmpeg命令 抽取出来的。 * 这样做的目的是为了对比前…

【C语言】文件的顺序读写

©作者:末央&#xff06; ©系列:C语言初阶(适合小白入门) ©说明:以凡人之笔墨&#xff0c;书写未来之大梦 目录 前言字符输入输出函数 - fgetc和fputc文本行输入输出函数 - fgets和fputs格式化输入输出函数 - fscanf和fprintf 前言 对文件数据的读写可以分为顺序…

【Elasticsearch】一、概述,安装

文章目录 概述全文搜索引擎概述ES&#xff08;7.x&#xff09; 安装ES&#xff08;Docker&#xff09;测试&#xff0c;是否启动成功 可视化工具配置中文 客户端Postman下载 概述 ES是开源的高扩展的分布式全文搜索引擎&#xff0c;实时的存储、检索数据&#xff1b;本身扩展性…

function-calling初体验

课程地址&#xff1a;https://learn.deeplearning.ai/courses/function-calling-and-data-extraction-with-llms/lesson/1/introduction github notebook地址&#xff1a;https://github.com/kingglory/LLMs-function-calling/tree/main Function-Calling 介绍 函数调用(Funct…

Linux Centos7部署Zookeeper

目录 一、下载zookeeper 二、单机部署 1、创建目录 2、解压 3、修改配置文件名 ​4、创建保存数据的文件夹 ​5、修改配置文件保存数据的地址 ​6、启动服务 7、api创建节点 一、下载zookeeper 地址&#xff1a;Index of /dist/zookeeper/zookeeper-3.5.7 (apache.org…

Python23 使用Tensorflow实现线性回归

TensorFlow 是一个开源的软件库&#xff0c;用于数值计算&#xff0c;特别适用于大规模的机器学习。它由 Google 的研究人员和工程师在 Google Brain 团队内部开发&#xff0c;并在 2015 年首次发布。TensorFlow 的核心是使用数据流图来组织计算&#xff0c;使得它可以轻松地利…

【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧

【Python画图-驯化seaborn】一文搞懂seaborn中的箱线图实践技巧 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 免费获取相关内容文档关注&a…

05 docker 镜像

目录 1. 镜像 2. 联合文件系统 3. docker镜像加载原理 4. 镜像分层 镜像分层的优势 5. 容器层 1. 镜像 镜像是一种轻量级、可执行的独立软件包&#xff0c;它包含运行某个软件所需的所有内容&#xff0c;我们把应用程序和配置依赖打包好行程一个可交付的运行环境&#xf…

每日一题 7月1日

1 设数组data[m]作为循环队列的存储空间,front为队头指针,rear为队尾指针,则执行出队操作后其头指针front值为____ 2 采用滑动窗口机制对两个相邻结点A(发送方)和B(接收方)的通信过程进行流量控制。假定帧的序号长度为3比特,发送窗口与接收窗口的大小均为7,当A发送了…

昇思25天学习打卡营第9天|MindSpore-Vision Transformer图像分类

Vision Transformer图像分类 Vision Transformer(ViT)简介 近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前…

传输线在阻抗匹配时串联端接电阻为什么要靠近发送端

传输线在阻抗匹配时串联端接电阻为什么要靠近发送端 在进行阻抗匹配的时候我们可以在电阻源端放置一个串联端接电阻&#xff0c;但是有时候受到空间的限制可能会把电阻摆的稍微远一点&#xff0c;那么这个时候大家可能会有疑问&#xff0c;电阻离发送端远一点或者电阻放置在接…

java+mysql教师管理系统

完整源码地址 教师信息管理系统使用命令行交互的方式及数据库连接实现教师信息管理系统&#xff0c;该系统旨在实现教师信息的管理&#xff0c;并根据需要进行教师信息展示。该软件的功能有如下功能 (1)基本信息管理(教师号、姓名、性别、出生年月、职称、学历、学位、教师类型…