突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

 

 参考ChatGPT:点击使用


来了来了!刚刚,OpenAI新模型无预警上新:

o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。

在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分

没错,传说中的「草莓」,终于来与大家见面了!

CEO奥特曼称它是一种新范式的开始:可以进行通用复杂推理的人工智能。

具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。

换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。

o1有多强呢?CEO奥特曼直给了答案:

在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。

如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。

 

另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。 

与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

 

汇总官方发布的各种消息来看,这次突然发布的o1系列又分为三个型号:

o1,新的大模型天花板,过于强大目前不方便对外公开。

o1-preiview,o1的早期版本,可以立即提供给ChatGPT付费用户和API用户。

o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。

连长期休假中的总裁Brockman都“诈尸”回归了。

思维链提示方法的原作者Jason Wei表示,这一次不是纯粹通过提示来完成思维链,而是使用强化学习训练模型以更好地执行链式思考。

在深度学习的历史中,人们一直试图扩展训练阶段的计算,但思维链是自适应计算的一种形式,现在也可以在推理时扩展。

新模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。

游戏已被完全重新定义。

 

 

o1:AI能力新天花板

通过训练,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

不过作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。

但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。

鉴于此,他们决定将计数器重置,并将该系列模型命名为OpenAI o1。

随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高,新的Scaling Law诞生了。

不过这种方法的Scaling受到的限制与普通预训练有很大不同,OpenAI正在继续研究它们。

o1思考起来是什么样子?可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果。

 

而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求,明确最终目标。

接下来它会给自己定义任务、分析限制条件、列出需要用到的方法。

 进一步把任务拆解成明确的数个小步骤。

最后才动手编写代码,并保证一次性得到正确结果。

OpenAI表示,o1系列可以帮医疗保健研究人员来注释细胞测序数据,帮助物理学家可以生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。

而且不是说说而已,OpenAI已经邀请相关的人类专家学者试用了一波。

马克思普朗克研究所的量子物理学者Mario Krenn,展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

除了考试和学术基准之外,团队还评估了人们对o1-preview与GPT-4o在开放问题上的偏好。

在数据分析、编码和数学等推理密集型类别中,o1-preview明显优于gpt-4o。

然而o1-preview在某些自然语言任务上并不是首选,这表明它并不适合所有场景。

OpenAI科学家Noam Brown分享了更详细的个人测试结果。

在上个月的ACL会议上有一个所有当时大模型都无法解决的逻辑难题。o1-preview能够做对,o1满血版几乎每次尝试都能做对。

 

目前o1花费在思考上的时间是几秒到十几秒,但OpenAI未来的改进方向不是缩短,反而是努力增加这个时间,

目标是让未来的版本思考几个小时、几天甚至几周。

推理成本会更高,但你会为一种新的抗癌药物付多少钱?为了电池的突破、黎曼猜想的证明又付多少?

人工智能可以不仅仅是聊天机器人

 

 

谁可以访问o1?

根据OpenAI官方说法,ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时,o1-preview限制为每周30条消息,o1-mini每周50条。

API访问权限将首先给Tier 5级用户,也就是已经在OpenAI API上花费超过1000美元的人。

 

 

OpenAI正在努力提高这些速率,并使ChatGPT能够针对给定的提示自动选择合适的模型。

快打开ChatGPT看看你是不是第一波吃草莓的人吧!


参考链接:

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

原文链接:突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/875666.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Notepad++插件:TextFX 去除重复行

目录 一、下载插件 TextFX Characters 二、去重实操 2.1 选中需要去重的文本 2.2 操作插件 2.3 结果展示 2.3.1 点击 Sort lines case sensitive (at column) 2.3.2 点击 Sort lines case insensitive (at column) 一、下载插件 TextFX Characters 点【插件】-【插件管理…

【OpenAPI】Spring3 集成 OpenAPI 生成接口文档

Spring3 集成 OpenAPI 生成接口文档 1. 依赖 Spring 版本&#xff1a;3.0.5 Java 版本&#xff1a;jdk21 OpenAPI 依赖&#xff1a; <!-- https://mvnrepository.com/artifact/org.springdoc/springdoc-openapi-starter-webmvc-ui --> <dependency><groupI…

如何通过 PhantomJS 模拟用户行为抓取动态网页内容

引言 随着网页技术的不断进步&#xff0c;JavaScript 动态加载内容已成为网站设计的新常态&#xff0c;这对传统的静态网页抓取方法提出了挑战。为了应对这一挑战&#xff0c;PhantomJS 作为一个无头浏览器&#xff0c;能够模拟用户行为并执行 JavaScript&#xff0c;成为了获…

GeoPandas在地理空间数据分析中的应用

GeoPandas是一个开源的Python库&#xff0c;专门用于处理和分析地理空间数据。它建立在Pandas库的基础上&#xff0c;扩展了Pandas的数据类型&#xff0c;使得用户能够在Python中方便地进行GIS操作。GeoPandas的核心数据结构是GeoDataFrame&#xff0c;它是Pandas的DataFrame的…

uniapp小程序,使用腾讯地图获取定位

本篇文章分享一下在实际开发小程序时遇到的需要获取用户当前位置的问题&#xff0c;在小程序开发过程中经常使用到获取定位功能。uniapp官方也提供了相应的API供我们使用。 官网地址&#xff1a;uni.getLocation(OBJECT)) 官网获取位置的详细介绍这里就不再讲述了&#xff0c;大…

红光一字激光器在工业中的性能指标怎样

红光一字激光器作为现代工业中不可或缺的重要设备&#xff0c;以其独特的性能和广泛的应用场景&#xff0c;成为众多行业的首选工具。本文就跟大家详细探讨红光一字激光器在工业中的性能指标&#xff0c;以及这些指标如何影响其在实际应用中的表现。 光束质量 红光一字激光器以…

【痛点解决】跨网跨区域的文件传输摆渡解决办法指南

跨网跨区域的文件传输摆渡&#xff0c;顾名思义就是需要跨越不同网络、不同地区&#xff0c;或者是不同安全域的文件传输&#xff0c;一般有这样传输需求的机构&#xff0c;在组织架构、网络结构&#xff0c;或者传输需求上&#xff0c;都会比较复杂。 跨网跨区域文件传输是什…

51单片机快速入门之定时器和计数器

51单片机快速入门之定时器 断开外部输入 晶振振荡 假设为 12MHz 12分频之后,为1MHz 当其从0-65536 时,需要65536μs 微秒 也就是65.536ms 毫秒 溢出(值>65536 时)>中断>执行中断操作 假设需要1ms后产生溢出,则需要设置初始值为64536 此时定时器会从 64536 开始计…

掌握 JavaScript ES6+:现代编程技巧与模块化实践

掌握 JavaScript ES6&#xff1a;现代编程技巧与模块化实践 一 . 变量声明 let二 . 声明常量 const三 . 模板字符串四 . 函数的参数默认值五 . 箭头函数六 . 对象初始化七 . 解构7.1 接收 JSON 对象7.2 接收数组 八 . 延展操作符九 . 导入和导出9.1 方式一9.2 方式二 这篇文章我…

Android视频编辑:利用FFmpeg实现高级功能

在移动设备上进行视频编辑的需求日益增长&#xff0c;用户期望能够在智能手机或平板电脑上轻松地编辑视频&#xff0c;以满足社交媒体分享或个人存档的需求。Android平台因其广泛的用户基础和开放的生态系统&#xff0c;成为视频编辑应用的理想选择。FFmpeg&#xff0c;作为一个…

Maven入门学习笔记

一、maven介绍 Maven是一款自动化构建工具&#xff0c;专注服务于JAVA平台的项目构建和依赖管理。在javaEE开发的历史上构建工具的发展也经历了一系列的演化和变迁。 管理jar包 当我们使用SSM之后我们就需要使用非常多的jar包 没有maven找jar包非常的麻烦。 使用maven下载…

简单了解 JVM

目录 ♫什么是JVM ♫JVM的运行流程 ♫JVM运行时数据区 ♪虚拟机栈 ♪本地方法栈 ♪堆 ♪程序计数器 ♪方法区/元数据区 ♫类加载的过程 ♫双亲委派模型 ♫垃圾回收机制 ♫什么是JVM JVM 是 Java Virtual Machine 的简称&#xff0c;意为 Java虚拟机。 虚拟机是指通过软件模…

WPF DataGrid 列表中,DataGrid.Columns 列根据不同的值显示不同内容

需求&#xff1a;在WPF DataGrid 控件中&#xff0c;有以下列&#xff0c;绑定了一个LogType&#xff0c;值分别是0,1,2&#xff0c;根据不同的值&#xff0c;显示不同的内容以及背景 <DataGrid ItemsSource"{Binding EventLog}"><DataGrid.Columns><…

代码管理工具——git及阿里云云效的使用(包含git的使用及云效自动化部署)

1、做项目开发时都会用到代码管理工具,像是我之前使用过gitHub,Visual Studio等一些代码管理工具&#xff0c;这里介绍的是阿里云云效的使用。 2、首先登录阿里云云效&#xff0c;登录进去之后会看到公司给你开放的一个仓库。 3、进入仓库&#xff0c;点击克隆/下载&#xff0…

Google大数据架构技术栈

数据存储层 Colossus Colossus作为Google下一代GFS&#xff08;Google File System&#xff09;。 GFS本身存在一些不足 单主瓶颈 GFS 依赖单个主节点进行元数据管理&#xff0c;随着数据量和访问请求的增长&#xff0c;出现了可扩展性瓶颈。想象一下&#xff0c;只有一位…

网红酒店|基于java的网红酒店预定系统(源码+数据库+文档)

酒店预定|网红酒店|网红酒店预定系统 目录 基于java的网红酒店预定系统 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大厂码农|毕设布道师&am…

R语言统计分析——功效分析(比例、卡方检验)

参考资料&#xff1a;R语言实战【第2版】 1、比例检验 当比较两个比例时&#xff0c;可使用pwr.2p.test()函数进行功效分析。格式为&#xff1a; pwr.2p.test(h, n, sig.level, power, alternative) 其中&#xff0c;h是效应值&#xff0c;n是各相同的样本量。效应值h的定义如…

智能头盔语音识别声控芯片,AI离线语音识别ic方案,NRK3301

头盔是交通事故中保护电动车车主安全的最后一道屏障。为了增加骑行用户的安全保护&#xff0c;改善骑行用户的出行体验&#xff0c;让用户从被动使用头盔到主动佩戴头盔&#xff0c;头盔厂家与九芯电子合作&#xff0c;推出了语音智能头盔&#xff0c;它具备首家骑行专用的智能…

C++核心编程和桌面应用开发 第三天(C和C++的封装)

目录 1.封装 1.1C语言封装缺陷 1.2C下的封装 1.3封装的访问权限 2.C中struct和class的区别&#xff1a; 1.封装 1.1C语言封装缺陷 1.2C下的封装 优点1&#xff1a;将属性和行为作为整体&#xff0c;表现生活中的事务 优点2&#xff1a;将属性和行为加以访问权限控制 1…

vue的路由

v2用3版本&#xff0c;v3用4版本 import Vue from vue import VueRouter from vue-router Vue.use(VueRouter) const routes [] const router new VueRouter({ routes }) export default router import Vue from vue import App from ./App.vue import router from /router V…