微软发布多模态模型Phi-3-vision,仅4.2B,小模型大潜力

前言

在大型语言模型(LLM)领域,模型参数规模与性能之间一直存在着密切的联系。近年来,虽然参数规模不断攀升,但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境,微软推出了 Phi-3 模型家族,旨在用更小的模型实现更高的性能。近期,微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision,一个仅有 42 亿参数的多模态模型,展现了小模型的巨大潜力。

  • Huggingface模型下载:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

  • AI快站模型免费加速下载:https://aifasthub.com/models/microsoft

技术特点

Phi-3-vision是Phi-3家族中的第一个多模态模型,结合了文本和图像视觉功能,以及对现实世界图像进行推理和从图像中提取文本并进行推理的能力。同时还针对图表和图解的理解进行了优化,可用于生成数据洞见和回答问题。Phi-3-vision是在Phi-3-mini的基础模型上构建的,微软继续坚持小型模型大潜力的路线:提供了强大的语言和图像视觉推理性能。

性能表现

Phi-3-vision 的性能表现超乎预期,在通用视觉推理任务、OCR、表格和图表理解任务中超越了像 Claude-3 Haiku 和 Gemini 1.0 Pro V 这样的更大模型。这充分证明了 Phi-3 家族在小模型设计方面的成功,以及在多模态领域的强大实力。

优势:
  • 小模型大潜力: 仅有 42 亿参数,性能却超越了更大的模型,证明了 Phi-3 模型家族在模型压缩和性能优化方面的突破。

  • 多模态能力: 结合了语言和视觉能力,能够进行图像理解,并进行文本推理和问答,以及图表、图解和表格理解任务。

  • 高效推理: 模型体积小,推理硬件资源需求低,非常适合在本地设备部署,满足企业对高效推理的需求。

Phi-3 模型家族:

除了 Phi-3-vision,微软还发布了其他三个 Phi-3 模型:

  • Phi-3-mini: 一个 38 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。

  • Phi-3-small: 一个 70 亿参数的语言模型,提供两种上下文长度(128K 和 8K)。

  • Phi-3-medium: 一个 140 亿参数的语言模型,提供两种上下文长度(128K 和 4K)。

这些模型均已开源,在 Hugging Face 平台上可以找到所有 Phi-3 模型。

  • 应用场景

Phi-3 模型家族具有广泛的应用场景:

  • 语言理解和生成: Phi-3-mini、Phi-3-small 和 Phi-3-medium 模型可以被用于各种语言理解和生成任务,如内容创作、摘要、问答和情感分析。

  • 视觉推理: Phi-3-vision 模型非常适合需要对图像和文本进行推理的任务,例如 OCR 任务,以及图表、图解和表格理解任务。

  • 企业应用: 由于体积小,推理成本低,Phi-3 模型家族非常适合企业进行特定任务的微调训练,满足企业对成本效益和本地部署的需求。

总结

Phi-3-vision 的发布,再次证明了微软在 LLM 领域的技术实力,并展现了小模型在多模态领域的巨大潜力。随着技术的不断发展,相信 Phi-3 模型家族将会在更多领域发挥作用,为人们的生活带来更多便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/651483.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Livox-SDK2 用vs2017编译

Livox-SDK2 Livox-SDK2代码去上面下载,文章中给出的是用vs2019进行编译的,生成项目时用的 > cmake .. -G "Visual Studio 16 2019" -A x64 但如果我想用vs2017进行编译,那么只需要将上面语句改为如下: cmake .. -…

【数据结构】快速排序C语言

目录 前言 一、快排思想过程 二、算法思路 三、代码实现 C语言实现: C实现: 总结 前言 排序是一个相对复杂的过程,进一步思考排序这个问题,我们可以借助分治的思想来解决这个问题, 什么叫分治呢?就是把大问题化成小问题,进而缩小问题的规模,并且大问题和小问…

牛客NC166 连续子数组的最大和(二)【中等 前缀和数组+动态规划 Java/Go/PHP/C++】

题目 题目链接: https://www.nowcoder.com/practice/11662ff51a714bbd8de809a89c481e21 思路 前缀和数组动态规划Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规…

课时138:变量进阶_变量实践_综合案例

2.1.3 综合案例 学习目标 这一节,我们从 免密认证、脚本实践、小结 三个方面来学习 免密认证 案例需求 A 以主机免密码认证 连接到 远程主机B我们要做主机间免密码认证需要做三个动作1、本机生成密钥对2、对端机器使用公钥文件认证3、验证手工演示 本地主机生成…

MyBatis报错:TypeException Could not set parameters for mapping问题解决

MyBatis报错:TypeException: Could not set parameters for mapping问题解决 问题收录 org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.type.TypeException: Could not set parameters for mapping: ParameterMapping{proper…

【详细介绍下PostgreSQL】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

考研数学|强化跟「张宇」还是「武忠祥」?看这一篇!

考研数学强化阶段是备考过程中非常关键的一环,它不仅要求学生巩固和深化基础知识,还要求学生能够灵活运用所学知识解决复杂问题。 在选择张宇老师或武忠祥老师的高数强化课时,你可以考虑以下几个方面。 首先每位学生都有自己独特的学习风格…

图片数据增强-resize(不同插值)、各种模糊

各种不同的模糊处理 import os import cv2def apply_blur_to_images(input_folder_path, output_folder_path):# 遍历文件夹下的所有文件for filename in os.listdir(input_folder_path):# 检查文件类型是否为图片if filename.endswith(.jpg) or filename.endswith(.jpeg) or …

探索演进:了解IPv4和IPv6之间的区别

探索演进:了解IPv4和IPv6之间的区别 在广阔的互联网领域中,设备之间的通信依赖于一组独特的协议来促进连接。前景协议中,IPv4(Internet 协议版本 4)和 IPv6(Internet 协议版本 6)是数字基础设施…

ThreadLocal简介

Thread类中,有个ThreadLocal.ThreadLocalMap 的成员变量。 ThreadLocalMap内部维护了Entry数组,每个Entry代表一个完整的对象,key是ThreadLocal本身,value是ThreadLocal的泛型对象值 public void set(T value) {Thread t Thread…

【Text2SQL 论文】IncSQL:通过增量式生成 action 序列来得到 SQL

论文:IncSQL: Training Incremental Text-to-SQL Parsers with Non-Deterministic Oracles ⭐⭐⭐ ICLR 2019,arXiv:1809.05054, Microsoft Research 一、论文速读 本文提出了 IncSQL,一个使用 Non-Deterministic Oracles 思路的增量式 Text…

问题记录_stm32“No target connected“

问题描述: 基于HAL库和stm32cubeMX生成的代码,烧录时出现如下报错窗口: 问题原因: stm32cubeMX生成代码时关闭了SWJ调试功能 解决方法: 在项目中找到__HAL_AFIO_REMAP_SWJ_DISABLE();并注释掉 然后短按复位键的…

电脑技巧:一台主机两个显示器的连接设置方法

目录 一、先与电脑连接好两个显示器 二、先来看看WIN7连接两个显示器设置方法 三、再来看看WIN10连接两个显示器设置方法 在日常办公场景中,为了提高工作效率和增强交互体验,常需一台电脑同时连接两个显示器,正如我们在营业厅常见到的那样…

这是你要找的可视化开发平台吗?【送源码】

今天着重推荐一款高效的拖拽式低代码数据可视化开发平台 它就是 goView 它将图表或页面元素封装为基础组件,无需编写代码即可制作数据大屏,减少心智负担。 介绍 框架:基于 Vue3 框架编写,使用 hooks 写法抽离部分逻辑&#xf…

Java通过Html(ftl模板)生成PDF实战, 可支持商用

Java通过Html(freemarker模板)生成PDF实战, 可支持商用 技术架构 springboot freemarker [pdfbox] flying-saucer-pdf 生成流程: freemarker: 根据数据填充ftl模板文件,得到包含有效数据的html文件(包含页眉页脚页码的处理&#xff0c…

服务器软件架构演进

服务器软件架构演进 背景介绍阶段一:单机部署阶段二:应用与数据分离部署阶段三:启用缓存优化阶段四:启用应用服务器集群阶段五:数据库读写分离阶段六:启用反向代理及CDN加速阶段七:启用分布式文…

论文阅读--GroupViT

视觉之前做无监督分割的时候,经常使用grouping方法:如果有一些聚类的中心点,从这写点开始发散,把周围相似的点逐渐扩充成一个group,这个group就相当是一个segmentation mask 右边是grouping block,左边的两…

【Java】IdentityHashMap 的使用场景

文章目录 前言1. Druid 应用场景2. IdentityHashMap 特性3. IdentityHashMap 同步化4. IdentityHashMap 处理key为空值后记 前言 最近有兴趣看一下 Druid 连接池怎么做连接管理的,看到一个类 IdentityHashMap ,这里记录一下使用场景。 1. Druid 应用场…

MySQL数据库语法(二)

一、数据库的创建 创建数据库CRATE DATABASE语法&#xff1a;CREATE DATABASE [IF NOT EXISTS]数据库名;功能&#xff1a;用给定的名字创建一个数据库如果数据库已经存在&#xff0c;发生一个错误。查看创建数据库&#xff1a;SHOW CREATE DATABASE <数据库名>&#xff…

通过键值对访问字典

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中&#xff0c;如果想将字典的内容输出也比较简单&#xff0c;可以直接使用print()函数。例如&#xff0c;要想打印dictionary字典&#xff…