解码 OpenAI 的 o1 系列大型语言模型

OpenAI 表示,其 Strawberry 项目已升级为新的大型语言模型 (LLM) 系列,公司将其命名为 OpenAI o1。

该公司表示,新系列模型还包括一个 o1-mini 版本,以提高成本效益,可根据其推理能力与最新的GPT-4o 模型进行区分。

该公司在一篇博客文章中写道:

我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。这些模型目前处于预览阶段。

OpenAI 表示,下一次模型更新在物理、化学和生物学领域具有挑战性的基准任务上的表现与博士生相似,甚至在数学和编码方面表现出色。

在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。他们的编码能力在比赛中得到了评估,并在 Codeforces 比赛中达到了第 89 个百分位。

OpenAI 表示,OpenAI o1 模型中的推理能力有望帮助解决科学、编码和数学等领域的复杂问题。

例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各个领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

模型如何获得推理能力?

新的 o1 模型系列的推理能力源自该公司的大规模强化学习算法,该算法教会模型如何在“高度数据高效的训练过程”中使用其“思路链”机制进行有效思考。

该公司在另一篇博客文章中表示:

我们发现,随着强化学习(训练时间计算)的增加和思考时间的增加(测试时间计算),o1 的性能会持续提高。与 LLM 预训练相比,这种方法具有很大不同的约束。

在人工智能和生成式人工智能领域,专家表示,任何模型在训练期间都会尝试根据输入的训练数据重新排列或修改其参数,以减少错误,从而提高准确性。

相反,在测试期间,开发人员和研究人员将模型暴露于新数据,以衡量其性能以及它如何适应新的数据实例。

因此,对于新模型来说,它花在分析和解决问题上的时间越多,它学到的东西就越多,从而提高了其推理能力。

这种学习是由模型的思路链算法激活的,其工作原理类似于人类在回答一个难题之前长时间思考的方式,通常将问题分解成更小的部分。

世界终于看到了推理时间扩展范式在生产中的普及和部署。

你不需要一个庞大的模型来进行推理。许多参数专门用于记忆事实,以便在琐事问答等基准测试中表现良好。可以从知识中分离出推理,即一个知道如何调用浏览器和代码验证器等工具的小型“推理核心。预训练计算可能会减少。

此外,OpenAI 肯定早就搞清楚了推理扩展定律,而学术界最近才发现这一点。不过,生产 o1 比确定学术基准要困难得多。

对于自然推理问题,模型如何决定何时停止搜索?奖励函数是什么?成功标准是什么?何时在循环中调用代码解释器之类的工具?如何将这些 CPU 进程的计算成本考虑在内?

OpenAI 也在一篇博客文章中表示,新模型仍处于开发的早期阶段,预计将进行重大迭代,目前还不具备ChatGPT的许多实用功能,例如浏览网页获取信息以及上传文件和图像。

对于许多常见情况,GPT-4o 将在短期内发挥更强大的作用。

OpenAI 隐藏了推理令牌

尽管新模型系列具有更好的推理能力,但 OpenAI 隐藏了模型的推理标记或思路链算法。

尽管该公司承认,公开思路链算法可以让企业了解模型的运作方式,以及是否有操纵用户的迹象,但它认为,直接向用户公开模型不一致的思路链或推理标记是没有帮助的。

干扰任何不一致的思路或推理标记都会对模型的运行产生违反直觉的影响,要准确理解模型的推理方式,它必须能够自由地以不变的形式表达其思想。

这就是为什么 OpenAI 无法将任何策略合规性或用户偏好训练到思想链上。

我们承认这个决定有缺点。我们努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补它。

英国程序员西蒙·威尔逊 (Simon Wilson) 对 OpenAI 的政策决定并不满意。他写道:“我可以运行一个复杂的提示,但隐藏了有关如何评估该提示的关键细节,这种想法感觉像是倒退了一大步。”

o1 模型的其他限制

Wilson 指出的有关推理令牌的另一个问题是,尽管推理令牌在 API 响应中不可见,但它们仍被计费并算作输出令牌。

从技术角度来看,这意味着企业将不得不因为推理令牌而增加其提示预算。

由于推理令牌的重要性 - OpenAI 建议为受益于新模型的提示分配约 25,000 个令牌的预算 - 输出令牌限额已大幅增加 - o1-preview 为 32,768 个,而据称较小的 o1-mini 为 65,536 个。

这些输出令牌限额比 GPT-4O 和 GPT-4O-mini 模型有所增加,这两款模型目前都有 16,384 个输出令牌限制。

OpenAI 还建议企业对新模型以不同的方式使用检索增强生成 (RAG)。

与 RAG 目前的用法不同,RAG 的建议是尽可能多地塞入相关文档,而 OpenAI 建议,在新的模型中,用户应该只包含最相关的信息,以防止模型的响应过于复杂。

如何获得全新o1系列模型? 

从周四开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。

该公司表示,o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在发布时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条消息;正在努力提高这些速率并使 ChatGPT 能够根据给定的提示自动选择正确的模型。

另外,ChatGPT Enterprise 和 Edu 用户将从下周开始使用这两种模型。

Open AI 表示,符合 API 使用等级 5的开发人员可以从周四开始在 API 中使用这两种模型进行原型设计,速率限制为 20。

该公司表示:我们正在努力在进行额外测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、对系统消息的支持和其他功能,计划向所有 ChatGPT Free 用户提供 o1-mini 访问权限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/878935.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【QGC】把QGroundControl地面站添加到Ubuntu侧边菜单栏启动

把QGroundControl地面站添加到Ubuntu侧边菜单栏启动 简介准备工作步骤 1: 创建 Desktop Entry 文件步骤 2: 编辑 Desktop Entry 文件步骤 3: 刷新应用程序菜单步骤 4: 将 QGroundControl 固定到侧边栏 环境: Ubuntu :20.04 LTS 简介 QGroundControl 是…

电信创维光猫DT741超级密码

正常的D740系是创维系列光猫如:SK-D740 之类的超密获取办法-光猫/adsl/cable无线一体机-恩山无线论坛 但是我这个固件是DT741v1.0 我只能说很S -B,这个版本如果是1.02那就可以很轻松的去用通用办法解决,但是呢!还有办法就是用最传…

Unity2D游戏入门

1.导入资源 在Assets下新建文件夹 Res,将相关素材拖入其中(本文中的素材仅为学习使用)。 2.菜单 设置页面大小 选择素材,查看素材大小。 设置游戏视图大小。 调整工作布局方便查看 记得给场景改名为MenuScene,与其他…

食品包装识别系统源码分享

食品包装识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

Typora安装,使用,图片加载全流程!!!

文章目录 前言:安装:破解:使用typora:关于CSDN加载不出图片:创建OSS:设置PicGo: 前言: ​ Typora是一款非常流行的Markdown编辑器,简单来说就是可以方便我们写博客。拿我…

踩坑记:Poco库,MySql,解析大文本的bug

这两天在调试一个小功能&#xff0c;使用c,读取MySql。使用的是Poco库。按照官网的写法&#xff1a; std::cout << "read normal data by poco recordset "<<std::endl;Poco::Data::MySQL::Connector::registerConnector();Poco::Data::Session session(…

Rust表达一下中秋祝福,群发问候!

一、Rust表达一下中秋祝福 在Rust中&#xff0c;表达中秋佳节的祝福可以通过定义一个包含祝福语的字符串变量&#xff0c;并使用标准输出函数来打印这个字符串。以下是一个简单的Rust程序示例&#xff0c;用于展示如何用Rust编写并打印中秋佳节的祝福语&#xff1a; fn main()…

Altium Designer常用操作备忘笔记

Altium Designer常用操作备忘笔记 Chapter1 Altium Designer常用操作备忘笔记Chapter2 Altium Designer 22.1.2使用总结&#xff08;常更&#xff09;一、原理图1.1 绘制元器件原理图1.2 绘制元器件封装1.3 修改原理图网格1.4 修改原理图库后更新当前原理图1.5 旋转和翻转1.6 悬…

一款rust语言AI神器cursor在ubuntu环境下的安装启动教程

虽然cursor目前只支持英文但是它强大的代码联想能力以及问答能力&#xff0c;可以高效的提高编码效率。 如下步骤所有的前提是你的ubuntu上面已经安装了vscode以及其必须的extensions。 1 下载 到官网https://www.cursor.com下载指定版本的软件。 下载到本地以后会生成如下软…

第二十六篇——九地篇:九种形势的应对之道

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 地势的维度重新阐述了懂得人心的重要性&#xff0c;道久其归一为为别人。…

S-Procedure的基本形式及使用

理论 Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- \textbf{Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- } Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- tions w.r.t. x ∈ C M 1 \mathbf{x}\in\mathbb{C}^M\times1 x…

MATLAB 可视化基础:绘图命令与应用

目录 1. 绘制子图1.1基本绘图命令1.2. 使用 subplot 函数1.3. 绘图类型 2.MATLAB 可视化进阶(以下代码均居于以上代码的数据定义上实现)2.1. 极坐标图2.3. 隐函数的绘制 3.总结 在数据分析和科学计算中&#xff0c;数据可视化是理解和解释结果的关键工具。今天&#xff0c;我将…

替换 Oracle ,江河信息用 TDengine 解决高基数查询写入问题

在数字经济快速发展的背景下&#xff0c;智慧水利作为重要的基础设施之一&#xff0c;正逐步成为提升水资源管理效率、优化生态环境的重要力量。江西省水投江河信息技术有限公司&#xff08;以下简称“江河信息”&#xff09;作为高新技术国有企业&#xff0c;坚定致力于打造数…

RuoYi-Vue3使用minio图片预览不了的问题

参照官网配置好之后&#xff0c;图片预览不了 1、参照官网修改前端src\components\ImageUpload\index.vue 2、如果图片预览不了&#xff0c;发现是Minio后台返回的url地址内部包括逗号 与代码里split(",")冲突了&#xff0c; 解决方法是改成分号 多个图片可以预览了…

sqlgun靶场漏洞挖掘

1.xss漏洞 搜索框输入以下代码&#xff0c;验证是否存在xss漏洞 <script>alert(1)</script> OK了&#xff0c;存在xss漏洞 2.SQL注入 经过测试&#xff0c;输入框存在SQL注入漏洞 查询数据库名 查询管理员账号密码 此处密码为MD5加密&#xff0c;解码内容如下 找…

【C++】list常见用法

&#x1f525;个人主页&#x1f525;&#xff1a;孤寂大仙V &#x1f308;收录专栏&#x1f308;&#xff1a;C从小白到高手 &#x1f339;往期回顾&#x1f339;&#xff1a;[C]vector常见用法 &#x1f516; 流水不争&#xff0c;争的是滔滔不息。 文章目录 一、list的介绍li…

mybatis的基本使用与配置

注释很详细&#xff0c;直接上代码 项目结构 源码 UserMapper package com.amoorzheyu.mapper;import com.amoorzheyu.pojo.User; import org.apache.ibatis.annotations.Mapper; import org.apache.ibatis.annotations.Select;import java.util.List;Mapper //在运行时生成代…

ImportError: DLL load failed while importing _ssl: 找不到指定的模块的解决方法

ImportError: DLL load failed while importing _ssl: 找不到指定的模块的解决方法 现象解决办法 现象 在命令行中&#xff0c;可以正常导入_ssl模块&#xff0c;如下&#xff1a; Python 3.9.0 (default, Nov 15 2020, 08:30:55) [MSC v.1916 64 bit (AMD64)] :: Anaconda, …

LeetCode[中等] 49.字母异位词分组

给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 思路&#xff1a; new Dictionary<string, List<string>>() 存储数据&#xff0c;key为排序之后的字符…

箭头检测系统源码分享

箭头检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …