ChatGPT 主流模型GPT-4/GPT-4o mini的参数规模是多大?

微软论文又把 OpenAI 的机密泄露了??在论文中明晃晃写着:

  • o1-preview 约 300B;o1-mini 约 100B
  • GPT-4o 约 200B;GPT-4o-mini 约 8B
  • Claude 3.5 Sonnet 2024-10-22 版本约 175B
  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T

除此之外,论文中给 OpenAI 的 mini 系列,Claude3.5 Sonnet 也都附上了参数,总结如下:

  • o1-preview 约 300B;o1-mini 约 100B

  • GPT-4o 约 200B;GPT-4o-mini 约 8B

  • Claude 3.5 Sonnet 2024-10-22 版本约 175B

  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达 GPU 上运行的,所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的,所以不好估计。

而且微软也不是第一次干这事了。

2023 年 10 月,微软就在一篇论文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 参数,在后续论文版本中又删除了这一信息。

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的 benchmark——MEDEC。

12 月 26 日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有 1/5 的患者在阅读临床笔记时报告发现了错误,而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs (大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)。

因此,MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC 数据集包含 3848 份临床文本,其中包括来自三个美国医院系统的 488 份临床笔记,这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。

网友:按价格算合理

每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

2023 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候,就有人感叹:难怪 OpenAI 对开源模型这么紧张。

2024 年 3 月,英伟达确认 GPT-4 是 1.8T MoE,而 2000 张 B200 可以在 90 天内完成训练的时候,大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

值得一提的是Claude!!

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小,那 Anthropic 团队就拥有技术优势。

PS真的觉得claude不错,特别是写代码真的爽:需要升级的童鞋可以参考教程:国内如何使用支付宝注册Claude账号和升级订阅开通Claude Pro - AI is all your need!

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算,4o-mini 的价格是 3.5-turbo 的 40%,如果 3.5-turbo 的 20B 数字准确,那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之,OpenAI 大概是不会公布确切数字了。

此前阿尔特曼征集 2024 年新年愿望,最后公布的清单中还有“开源”。2025 年的最新版本里,开源已经被去掉了。

论文地址:https://arxiv.org/pdf/2412.19260

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/949539.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Docker 安装Elasticsearch搜索引擎 搜索优化 词库挂载 拼音分词 插件安装

介绍 允许用户快速索引和搜索大量的文本数据。通过使用倒排索引,它能够在海量数据中高效检索相关信息。提供灵活的查询语言,可以做全文搜索、模糊搜索、数据统计等,用来代替MYSQL的模糊搜索,MYSQL的模糊搜索不支持使用索引从而导…

Scala_【5】函数式编程

第五章 函数式编程函数和方法的区别函数声明函数参数可变参数参数默认值 函数至简原则匿名函数高阶函数函数作为值传递函数作为参数传递函数作为返回值 函数闭包&柯里化函数递归控制抽象惰性函数友情链接 函数式编程 面向对象编程 解决问题时,分解对象&#xff…

jenkins入门7 --发送邮件1

jenkins发送邮件配置(全局配置)_jenkins 怎么发送邮件-CSDN博客 本文通过163发送邮件 1、首先163设置选择pop3/smtp/imap,开启服务,获取授权码 2、jenkins下载邮件插件 登录Jenkins管理界面,点击“Manage Jenkins”。 选择“Man…

git 常用命令和本地合并解决冲突

目录 一、常用命令 二、本地可视化合并分支解决冲突 一、常用命令 最近&#xff0c;使用mac电脑&#xff0c;无法直接使用小乌龟进行可视化操作&#xff0c;现在记录一些常用命令。 拉取&#xff1a; git clone <git url> 仅拉起某个单独分支&#xff1a; git clo…

彻底学会Gradle插件版本和Gradle版本及对应关系

看完这篇&#xff0c;保你彻底学会Gradle插件版本和Gradle版本及对应关系&#xff0c;超详细超全的对应关系表 需要知道Gradle插件版本和Gradle版本的对应关系&#xff0c;其实就是需要知道Gradle插件版本对应所需的gradle最低版本&#xff0c;详细对应关系如下表格&#xff0…

我的创作纪念日——《惊变128天》

我的创作纪念日——《惊变128天》 机缘收获日常成就憧憬 机缘 时光飞逝&#xff0c;转眼间&#xff0c;我已在这条创作之路上走过了 128 天。回顾起 2024 年 8 月 29 日&#xff0c;我满怀忐忑与期待&#xff0c;撰写了第一篇技术博客《讲解LeetCode第1题&#xff1a;两数之和…

医学图像分析工具02:3D Slicer || 医学影像可视化与分析工具 支持第三方插件

3D Slicer 是一款功能全面的开源医学影像分析软件&#xff0c;广泛应用于影像处理、三维建模、影像配准和手术规划等领域。它支持多种医学影像格式&#xff08;如 DICOM、NIfTI&#xff09;和丰富的插件扩展&#xff0c;是神经科学、放射学和生物医学研究中不可或缺的工具。 在…

【每日学点鸿蒙知识】Hap 安装失败、ArkTS 与C++ 数组转换、渐变遮罩效果等

1、在启动调试或运行应用/服务时&#xff0c;安装HAP出现错误&#xff0c;提示“error: install failed due to older sdk version in the device”错误信息。 这是由于编译打包所使用的SDK版本与设备镜像版本不匹配。不匹配的场景包括&#xff1a; 场景一&#xff1a;设备上…

分布式搜索引擎之elasticsearch基本使用3

分布式搜索引擎之elasticsearch基本使用3 1.部署单点es 1.1.创建网络 因为我们还需要部署kibana容器&#xff0c;因此需要让es和kibana容器互联。这里先创建一个网络&#xff1a; docker network create es-net1.2.加载镜像 这里我们采用elasticsearch的7.12.1版本的镜像&…

在macOS上安装MySQL

macOS的MySQL有多种不同的形式&#xff1a; 1、本机包安装程序&#xff0c;它使用本机macOS安装程序&#xff08;DMG&#xff09;引导您完成MySQL的安装。有关详细信息&#xff0c;请参阅第2.4.2节&#xff0c;“使用本机包在macOS上安装MySQL”。您可以将包安装程序与macOS一…

Apache HTTPD 换行解析漏洞(CVE-2017-15715)

漏洞简介 pache HTTPD是一款HTTP服务器&#xff0c;它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞&#xff0c;在解析PHP时&#xff0c;1.php\x0A将被按照PHP后缀进行解析&#xff0c;导致绕过一些服务器的安全策略。 漏洞环境 vulhub/httpd/CVE-2…

jenkins入门4 --window执行execute shell

1、启动关闭jenkins 在Windows环境下&#xff0c;如果你需要关闭Jenkins服务&#xff0c;可以通过以下几种方式&#xff1a; 1、使用Windows服务管理器&#xff1a; 打开“运行”对话框&#xff08;Win R&#xff09;&#xff0c;输入services.msc&#xff0c;然后回车。 在服…

conda安装及demo:SadTalker实现图片+音频生成高质量视频

1.安装conda 下载各个版本地址&#xff1a;https://repo.anaconda.com/archive/ win10版本&#xff1a; Anaconda3-2023.03-1-Windows-x86_64 linux版本&#xff1a; Anaconda3-2023.03-1-Linux-x86_64 Windows安装 环境变量 conda -V2.配置conda镜像源 安装pip conda…

医学图像分析工具01:FreeSurfer || Recon -all 全流程MRI皮质表面重建

FreeSurfer是什么 FreeSurfer 是一个功能强大的神经影像学分析软件包&#xff0c;广泛用于处理和可视化大脑的横断面和纵向研究数据。该软件由马萨诸塞州总医院的Martinos生物医学成像中心的计算神经影像实验室开发&#xff0c;旨在为神经科学研究人员提供一个高效、精确的数据…

vite打包报错“default“ is not exported by “node_modules/dayjs/dayjs.min.js“

vite打包最开始报的错是&#xff1a; 查找各种解决办法后&#xff0c;第一次尝试如下&#xff1a; npm i rollup/plugin-commonjs npm i vite-plugin-require-transform但继续报错&#xff1a; 最后解决办法为&#xff1a; 忽略掉node_modules 在vite.config.ts里修改代码 …

医院管理住院系统的研究与实现

第三章 系统的需求分析和可行性研究 3.1 功能需求 经过对本系统的研究分析&#xff0c;本系统主要是为了方便让医院更快捷的管理。所面向的对象主要有病人、医生和医院的管理人员。病人运用该系统后&#xff0c;可以根据该系统查看自己所需要的信息&#xff0c;包括治疗自己…

安徽省地图arcgis数据美化后mxd文件shp格式下载后内容测评

标题中的“安徽省地图arcgis数据美化后mxd文件shp格式”揭示了这个压缩包的内容是经过GIS处理的、针对安徽省地图数据。ArcGIS是一款由Esri公司开发的专业地理信息系统软件&#xff0c;用于处理、分析和展示地理空间数据。MXD文件是ArcGIS的项目文件&#xff0c;包含了地图布局…

GitLab创建用户,设置访问SSH Key

继上一篇 Linux Red Hat 7.9 Server安装GitLab-CSDN博客 安装好gitlab&#xff0c;启用管理员root账号后&#xff0c;开始创建用户账户 1、创建用户账户 进入管理后台页面 点击 New User 输入用户名、邮箱等必填信息和登录密码 密码最小的8位&#xff0c;不然会不通过 拉到…

计算机网络--根据IP地址和路由表计算下一跳

一、必备知识 1.无分类地址IPV4地址网络前缀主机号 2.每个IPV4地址由32位二进制数组成 3. /15这个地址表示网络前缀有15位&#xff0c;那么主机号32-1517位。 4.地址掩码&#xff08;子网掩码&#xff09;&#xff1a;所对应的网络前缀为1&#xff0c;主机号为0。 5.计算下…

重新整理机器学习和神经网络框架

本篇重新梳理了人工智能&#xff08;AI&#xff09;、机器学习&#xff08;ML&#xff09;、神经网络&#xff08;NN&#xff09;和深度学习&#xff08;DL&#xff09;之间存在一定的包含关系&#xff0c;以下是它们的关系及各自内容,以及人工智能领域中深度学习分支对比整理。…