微软发布Phi-3 Mini,性能媲美GPT-3.5、Llama-3,可在手机端运行

前言

微软发布了最新版的Phi系列小型语言模型(SLM) - Phi-3。这个系列包括3个不同参数规模的版本:Phi-3 Mini (38亿参数)、Phi-3 Small (70亿参数)和Phi-3 Medium (140亿参数)。

Phi系列模型是微软研究团队开发的小规模参数语言模型。从第一代Phi-1到第二代Phi-2,参数规模都控制在30亿以内,但在各种评测中都取得了出色的成绩。第三代Phi-3系列进一步扩大了参数规模,以期在性能上更进一步。

  • Huggingface模型下载:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

  • AI快站模型免费加速下载:https://aifasthub.com/models/microsoft

技术特点

Phi-3系列模型的创新主要体现在两个方面:

  • 训练数据集的设计 Phi-3模型是基于一个高达3.3万亿tokens的大规模数据集训练的。这个数据集结合了经过严格过滤的网络数据和高质量的合成数据,使得相对较小的模型也能取得出色的性能。

  • 安全性和稳健性的考虑 Phi-3模型经历了周密的安全评估和调整,包括有监督微调、直接偏好优化、自动化测试和红队评估等,确保了模型在安全性和可靠性方面符合微软的要求。

此外,Phi-3在支持更长上下文长度(4K和128K tokens)、针对不同平台的优化部署等方面也有创新。

性能表现

从评测结果来看,Phi-3系列模型的性能都非常出色。以30亿参数规模为例,Phi-3 Mini在MMLU、GSM8K和MT-Bench等基准测试中均优于同等或更大模型,与Mixtral 8x7B和GPT-3.5相媲美。

更大规模的Phi-3 Small和Phi-3 Medium也展现出更强大的能力,在一些测试指标上甚至超过了Mixtral 8x22B-MoE这样的大型模型。这说明Phi系列模型在小尺寸下也能取得出色的性能。

应用场景

Phi-3系列模型的小尺寸和高性能使它们非常适合部署在资源受限的设备和场景中,例如手机、嵌入式设备等。这使得它们能够在没有稳定网络连接的情况下,为用户提供高质量的对话服务和个性化内容。

微软的客户已经开始在农业等领域使用Phi-3模型,为缺乏稳定网络的农民提供便捷、经济的AI解决方案。未来我们也可以期待Phi-3模型被集成到智能手机、家用电器等设备中,为日常生活带来智能化的新体验。

未来展望

随着AI技术的不断进步,小型但功能强大的语言模型如Phi-3必将在各行各业中扮演重要角色。它们可以弥补大模型在部署成本、延迟和离线使用等方面的缺陷,为用户提供更贴近生活的智能化服务。

微软Phi系列模型的发展史也表明,通过优化训练数据和采用负责任的开发方法,即使在相对较小的模型规模下也能取得出色的性能。这为未来小型语言模型的应用开辟了广阔的前景。

总结

微软Phi-3系列小语言模型的推出,标志着小型模型在性能和应用场景上都取得了突破性进展。凭借创新的训练数据设计和周密的安全考量,Phi-3系列在各项评测中均取得了出色的成绩,媲美甚至超越了许多大型模型。

这种"小而强"的特点,使Phi-3系列模型非常适合部署在资源受限的设备和场景中,开启了离线AI应用的新篇章。随着技术的不断进步,我们有理由相信小型语言模型将在未来扮演越来越重要的角色,让智能技术真正融入到人们的日常生活中。

模型下载

Huggingface模型下载

https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

AI快站模型免费加速下载

https://aifasthub.com/models/microsoft

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/571594.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度学习中的熵、交叉熵、相对熵(KL散度)、极大释然估计之间的联系与区别

熵的最初来源于热力学。在热力学中,熵代表了系统的无序程度或混乱程度,也可以理解为系统的热力学状态的一种度量。后来被广泛引用于各个领域中,如信息学、统计学、AI等,甚至社会学当中。接下来将大家领略一下深度学习中熵的应用。…

【高阶数据结构】B树 {B树的概念;B树的实现:节点设计,查找,插入,遍历,删除;B树的性能分析;B+树和B*树;B树的应用}

一、常见的搜索结构 以上结构适合用于数据量相对不是很大,能够一次性存放在内存中,进行数据查找的场景。如果数据量很大,比如有100G数据,无法一次放进内存中,那就只能放在磁盘上了,如果放在磁盘上&#xff…

短视频素材哪里有?8个视频素材免费下载素材库无水印

在这个视觉内容至关重要的时代,每一位视频创作者都需要接触到多样化和高质量的视频素材,以提升作品的吸引力和专业度。以下这些视频素材网站将为你提供从全球各地收集的丰富资源。 1. 蛙学府(中国) 着重提供有关中国文化和场景的…

黑盒优化系列(一):自动化提示词优化【一、绪论】

大语言模型的提示词 随着ChatGPT等大语言模型的问世,我们获取知识的方式从单一的搜索引擎如Google转变为类似ChatGPT这种通过 Q & A 方式提供的方法。 我们尝试对比一下不同提示词,对应的模型输出 ChatGPT无提示词 API: ChatGPT 3.5 …

牛客NC216 逆波兰表达式求值【中等 栈 C++/Java/Go/PHP】

题目 题目链接:https://www.nowcoder.com/practice/885c1db3e39040cbae5cdf59fb0e9382 核心 栈 参考答案C class Solution {public:/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可*** param tokens strin…

STM32中的PWM

一、介绍 二、制作一个呼吸灯的效果(使用PWM) 原理是中心对齐的方式 学会分析复用管脚(根据手册) 配置 更正:是 最后一个输出的模式 最后生成代码 三、代码 要修改的业务代码 改代码,实现呼吸灯

「ChatGPT」掀起新一轮AI热潮!超越GPT-4 Turbo,商汤日日新大升级!

目录 拳打 GPT-4 Turbo ,脚踢 DALLE 3 端侧大模型,唯快不破 AI 应用落地需要一个即插即用的大模型超市 并不存在 AI 这个行业,只有 AI行业,强调 AI 需要与传统产业合作,这种关系是结合与赋能,而不是颠覆…

网络安全-Diffie Hellman密钥协商

密钥协商是保密通信双方(或更多方)通过公开信道来共同形成密钥的过程。一个密钥协商方案中,密钥的值是某个函数值,其输入量由两个成员(或更多方)来提供。密钥协商的记过是参与协商的双方(或更多…

政安晨:【Keras机器学习示例演绎】(十五)—— 用于图像分类的 CutMix 数据增强技术

目录 简介 设置 加载 CIFAR-10 数据集 定义超参数 定义图像预处理函数 将数据转换为 TensorFlow 数据集对象 定义 CutMix 数据增强功能 可视化应用 CutMix 扩增后的新数据集 定义 ResNet-20 模型 使用经 CutMix 扩展的数据集训练模型 使用原始非增强数据集训练模型 …

nginx 配置 SSL 证书实现 https 访问

nginx 配置SSL证书实现https访问 1. SSL 证书简介与获取1.1 SSL 证书介绍1.2 获取 SSL 证书 2. nginx 配置 SSL 文件2.1 SSL 文件放置与配置文件修改2.1.1 文件配置2.1.2 强制 https 访问 2.2 验证配置结果 同步发布在个人笔记 nginx 配置 SSL 证书实现 https 访问 配置好 ngi…

Powershell 一键安装 virtio_qemu_agent

前言 qemu-guest-agent qemu-guest-agent是一个助手守护进程,安装在客户机中。它用于在主机和客户端之间交换信息,并在客户端执行命令。 在Proxmox VE中,qemu-guest-agent主要用于三件事: 正确关闭客户机,而不是依赖于ACPI命令或windows策略在进行备份/快照时冻结客户机…

20240309web前端_第四次作业_完成随机点名程序

要求 一、结合抽奖案例完成随机点名程序,要求如下: 1.点击点名按钮,名字界面随机显示,按钮文字由点名变为停止 2.再次点击点名按钮,显示当前被点名学生姓名,按钮文字由停止变为点名 3.样式请参考css及html自由发挥完成…

flutter ios Firebase 消息通知错误 I-COR000005,I-FCM001000 解决

*前提是已经 使用firebase-tools 已经给 Flutter 加入了 消息通知相关配置。教程>> 一、I-COR000005 10.22.0 - [FirebaseCore][I-COR000005] No app has been configured yet. import Firebase....FirebaseApp.configure() 10.22.0 - [FirebaseMessaging][I-FCM001000…

kubernetes中Pod调度-Taints污点和污点容忍

一、污点的概念 所谓的污点,是给k8s集群中的节点设置的,通过设置污点,来规划资源创建是所在的节点 污点的类型 解释说明PreferNoshedule 节点设置这个污点类型后; 表示,该节点接收调度,但是会降低调度的概…

hbase 集成 phoenix 实现 sql 化

1. 依赖 hbase > hbase 集群搭建 2. 下载安装包 点击下载 ps:该网页在内网可能打不开,遇到该情况有条件的可以打开 VPN 在下载 3. 上传解压 使用工具将安装包上传的服务器上 笔者这里选择 上传到 /opt/software 目录,解压到 /opt/mo…

基于STM32和阿里云的智能台灯(STM32+ESP8266+MQTT+阿里云+语音模块)

一、主要完成功能 1、冷光模式和暖光模式两种灯光 主要支持冷光和暖光模式两种,可以通过语音模块或手机app远程切换冷暖光 2、自动模式和手动模式 主要支持手动模式和自动两种模式(app或语音助手切换) (1)自动模式:根据环境光照…

针孔相机模型原理坐标系辨析内参标定流程内参变换

针孔相机的内参标定 针孔相机原理真空相机模型图片的伸缩和裁剪变换 内参标定———非线性优化张正定标定详细原理(含公式推导)通过多张棋盘格照片完成相机的内参标定流程(C代码)其他工具箱 相机分为短焦镜头和长焦镜头,短焦镜头看到的视野更广阔,同样距…

QFD赋能人工智能:打造智能化需求分析与优化新纪元

在科技飞速发展的今天,人工智能(AI)已经渗透到我们生活的方方面面。然而,如何让AI更加贴合用户需求,提供更加精准和个性化的服务?这成为了一个亟待解决的问题。质量功能展开(Quality Function Deployment,简…

openjudge_2.5基本算法之搜索_1998:寻找Nemo

题目 1998:寻找Nemo 总时间限制: 2000ms 内存限制: 65536kB 描述 Nemo 是个顽皮的小孩. 一天他一个人跑到深海里去玩. 可是他迷路了. 于是他向父亲 Marlin 发送了求救信号.通过查找地图 Marlin 发现那片海像一个有着墙和门的迷宫.所有的墙都是平行于 X 轴或 Y 轴的. 墙的厚度可…

股票战法课程之倍阴龙战法

1. 核心要素 1、股价处于低位震荡区间 2、涨停板分时走的比较流畅,即使去到分时均线以下也能够是秒拉上来,或者沿着分时均线上攻打板 3、涨停后次日阴线的成交量是前一日涨停板成交量的两倍以上 4、倍量阴线出现后的30天以内第一个涨停板则是买点的浮现…