【AI学习】OpenAI推出o3,向AGI迈出关键一步

2024年12月21日,OpenAI在其为期12天发布会活动的最后一天,正式发布了备受期待的o3系列模型,包括o3和o3-mini。

o3 是一个非常强大的模型,在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型(o1得分25%,o3得分87.5%)。

o3-mini 是 o3 更经济高效且性能导向的版本,在成本和延迟方面比 o1-mini 低得多,同时提供类似的功能。

由于与英国电信公司 O2 可能存在的版权/商标冲突,所以将其命名为o3。

具体内容参见文章《当你以为AI发展放缓时,OpenAI推出o3,向AGI迈出关键一步》
https://mp.weixin.qq.com/s/Kn-yDWA3n2VsW7ApBGEssA

转微博的一些评论,作为备忘

问题:成本太高

来自@karminski-牙医:
有人整理了GPT o1 - o3 各个型号的每个任务的开销,发现它与实现AGI的程度的曲线更像一个开口向右的抛物线,这是否意味着当前的技术路线很难实现AGI(最后20%可能要付出特别巨大的成本),或实现了AGI也不具备商业价值。
在这里插入图片描述

OpenAI o3对“合成程序”的意义,相当于AlexNet之于“深度学习”

来自微博@高飞

OpenAI o3对“合成程序”的意义,相当于AlexNet之于“深度学习”?

OpenAI在发布会的尾声,终于放了一个大卫星,发布了o3的期货。

由于o3作为推理模型的特殊性,目前场景面向数学、编码,所以一般的基准测试已经不奏效了,所以这次OpenAI和ARC 竞赛合作,用ARC-Prize作为衡量模型性能的主要指标。

评测结果是:

在低计算模式下(每项任务花费 20 美元),o3得到 75.7%的分数,在高计算模式下(每项任务数千美元)得到 87.5%的分数。

大家可能对ARC-Prize不太了解,我这里简单介绍一下。

ARC的核心理论是肖雷测试:“当常人容易而人工智能难的任务差距归零时,就达到了通用人工智能”。

这句话其实很好理解,模型可以干很多人类干不了的事儿,但也有很多人类凭直觉就能干的事儿,模型却做不到。一个简单的例子,就是那个著名的“Strawberry这个单词里有多少个R”的问题。

由于ARC是针对大语言模型的弱点进行设计的,所以之前所有模型在测试中都表现不佳。

拿OpenAI的GPT系列来说,GPT-3得分为0,GPT-4接近0,GPT-4o好了一点,也只有5%。即使将这些模型扩展到极限,其分数也无法接近早期暴力枚举方法能达到的50%。

此前,ARC 给出了总奖金超过 100 万美元的奖励,包括首个团队达到 85% 基准的 60 万美元大奖,和促进进展的创新论文等其他奖项。

显然,ARC团队对题目难度还是有信心的。

但是,这个天花板现在被o3捅破了。(图一:大家可以看一下o3和之前模型的表现比较)
在这里插入图片描述

o3在低计算能力限制下,在半私有评估集上取得了 75.7%的成绩,在高算力(172 倍)的 o3 配置下,一举获得 87.5%的分数。(图二)
在这里插入图片描述

当然,在o1阶段,已经表现出了这个态势,当时突破了50%门槛。

ARC竞赛的联合发起人Mike Knoop也表现的很震惊,在X上写了一个短文,认为o3意义重大。

其中有句话分量比较重,说:

“我相信 o3 对“程序合成”而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据,证明基于深度学习的程序搜索是可行的”。

所谓“程序合成”,就是人类只需描述所需的功能和约束,计算机就可以根据这些描述生成相应程序。用人话说,可以理解为“编码”的自动驾驶。

那么,为什么当年的o1,现在的o3能取得这个成就?

如果传统LLM(如GPT-4o)的工作方式是作为"向量程序库"。

当收到提示时,它们会提取与提示相匹配的程序并在输入上"执行"。这种方法可以通过被动接触人类生成的内容来存储和操作数百万个有用的小程序。

然而,这种"记忆、提取、应用"的范式虽然可以在有合适训练数据的情况下实现任意任务的技能,但它无法适应新颖性或即时掌握新技能。

因为,要适应新鲜事物,需要两件事。

首先,需要知识。一组可重复使用的函数或程序,这方面大模型不缺,其次,需要能够在面临新任务时将这些函数重新组合成一个全新的程序,一个能够模拟手头任务的程序,即程序合成

此前的模型缺乏这种功能。而o 系列模型解决了这个问题。

o3的主要突破在于它采用了一种全新的"自然语言程序搜索和执行"机制。

在测试时,模型会搜索可能的思维链(Chain of Thought)来描述解决任务的步骤,这个搜索过程类似于AlphaZero式的蒙特卡洛树搜索,并由评估器模型引导。

这种机制让o3能够在测试时动态地重组知识,生成和执行自己的程序,其中思维链本身成为知识重组的产物。这远比简单的预训练响应要强大。

既然说o3有“合成程序”的能力,也有一项基准可以直接证明OpenAI o3的编码能力,它的Codeforces 分数为 2727,相当于地球上第 175 位最优秀的人类编程竞赛选手。(图三)
在这里插入图片描述

当然,我们都知道,人类开发者的工作不止局限于编码自身。

而且,目前为止o3是期货,在生产环境会表现如何,还要到时的实际情况,以及竞争对手的表现比较。

关于ARC对o3的更多评价,见:arcprize.org/blog/oai-o3-pub-breakthrough

下为Mike Knoop的推文原文(出处:x.com/mikeknoop):


o3 的确非常特别,大家都需要重新审视自己对 AI 能力与局限的直觉。

虽然目前还是早期阶段,但这个系统展现出了在 ARC-AGI 的“金丝雀”测试下真实的智能提升。

semiprivate v1 的测试得分:

GPT-2(2019 年):0%
GPT-3(2020 年):0%
GPT-4(2023 年):2%
GPT-4o(2024 年):5%
o1-preview(2024 年):21%
o1 high(2024 年):32%
o1 Pro(2024 年):约 50%
o3 tuned low(2024 年):76%
o3 tuned high(2024 年):87%
当初是我投入了最初的一百万美元创建了 @arcprize,我想再次重申我的承诺:我们会持续举办这个大奖赛,直到有人开源一个高效且能达到 85% 水平的解决方案。

但我们的目标远不止于此!ARC Prize 在今年找到了它的使命——成为通往 AGI 的长久北极星。

ARC 基准的设计原则是“对人类简单,但对 AI 困难”,只要在人类易解、AI 难解的范畴内仍存在挑战,就说明 AGI 依然还有进步空间。

目前在 v1 系列中,还有超过 100 个任务即使在 o3 的高算力配置下依然没有被解决,这非常值得关注。

o3 的后继者们将不得不面对“效率”这一难题。我预计这会成为 AI 领域的重点关注方向。参考数据:o3 high 使用的算力是 o3 low 的 172 倍,而 o3 low 的算力又是大奖赛目标算力的 100 到 1000 倍。

今年夏天,我们也正式开始推进 v2 的工作(v2 依旧在与 v1 相同的网格环境中),并计划与 2025 年的 ARC Prize 一同发布。前期测试表明,即便在 o3 high 的算力下,v2 也会有很好的表现。但 v2 的目标并不是做“对抗性基准”,而是要在通往 AGI 的道路上具有足够的意义和信息量。

我们也希望能有一些足以经受多年考验的 AGI 基准,我并不认为 v2 能担此大任。所以我们已经开始把注意力转向 v3——这将会与前两代非常不同。我也很期待与 OpenAI 以及其他研究机构合作,共同设计出 v3。

由于快到年末,我也想做一些反思。

任何花时间研究 ARC 数据集的人都会告诉你,它有某些特别之处;而一个能够完全破解它的系统就更是了不起。o 系列所展现出的能力,某种程度上让我们得以一窥这样的系统。

当我说“现在还只是早期阶段”时,我是认真的。我相信 o3 对程序合成而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据,证明基于深度学习的程序搜索是可行的。

现在我们又站在另一座大山的山脚,从我的角度看,它与深度学习在 AGI 里扮演的重要地位同样高,也同样关键。

这一年里有很多事情让我感到惊讶,包括 o3 的问世。但最令我吃惊的,是越来越多的人开始关注 ARC Prize。

我这些年一直在向 AI 研究人员做 ARC 的调查。在 ARC Prize 今年六月启动之前,只有大约十分之一的人听说过它。

而现在,它无可争议地成为了尖端实验室使用的尖端基准,以展示在 AGI 最尖端方向上的进展——这一人类史上最为重要的技术。

在这里,也要对fchollet表示感谢,他设计了这样一个出色的基准。

我会持续怀着感恩之心,去引领更多的关注投向 AGI 和 ARC Prize,我们 2025 年再见!

大佬对O3发布发表的看法

来自@歸藏的AI工具箱

可能过去几年我们会像记住ChatGPT发布的时间一样,记住昨天晚上的时间。

整理了一些大佬对O3发布发表的看法:

1/ 在我看来,在FrontierMath上的进步比ARG-AGI更令人印象深刻。从2%跃升到25%

陶哲轩曾说这个数据集应该"至少能抵抗人工智能几年",并表示"这些问题极其具有挑战性。

2/ 在技​​术可以创造一切的现实中,那些知道什么不该创造、能够优雅地对某些可能性说“不”的人将脱颖而出。

3/ o3真的很特别,每个人都需要更新他们对人工智能能力边界的认知。

虽然现在还处于早期阶段,但这个系统展现了真正的智能提升,这一点通过ARC-AGI得到了验证。

4/ 我相信o3是程序合成领域的AlexNet时刻。我们现在有了具体证据表明深度学习引导的程序搜索是有效的。

从我的角度来看,我们正在仰望另一座同样高且对AGI同样重要的山峰。

5/ 这个模型在前沿数学基准测试中得分25%。这些数学问题难到几乎没有人能理解,更不用说解决它们。我做不到,你也做不到。

这就是经济奇点,所有旧有的社会和经济模式都将崩塌。前方是一个巨大的未知世界,没有人能真正理解即将发生什么。

6/ 更重要的是,从o1到o3的进展仅用了三个月,这表明在新范式下进展会有多快 —— 这种新范式是在思维链上使用强化学习来扩展推理计算能力。这比每1-2年训练一个新模型的传统预训练范式要快得多

o3的主要亮点

来自@宝玉xp

OpenAI 连续 12 天 AI 发布会:第十二天 —— 最新一代推理模型 o3 和 o3-mini 发布介绍

本视频是 OpenAI 12 天活动的最后一期,主要介绍了新一代推理模型 o3 和 o3-mini。主讲人包括 Sam Altman、Mark Chen、Hongyu Ren 以及特邀嘉宾 ARC Prize Foundation 主席 Greg Kamradt。

主要亮点

  1. 新模型发布
  • 发布两个新模型:o3 和 o3-mini
  • o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本
  • 目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3
  1. o3 模型性能突破
  • 在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%
  • 在 CodeForce 竞赛编程上达到 2727 ELO 分数
  • AIME 数学竞赛准确率达 96.7%(o1 为 83.3%)
  • 在博士级科学问题基准 GPQA Diamond 上达到 87.7%
  • 在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5%
  1. o3-mini 特点与优势
  • 支持三种推理努力级别:低、中、高
  • 性能方面:中等推理时间下性能超过 o1
  • 成本效益:以极小成本实现比 o1 更好的表现
  • 支持功能调用、结构化输出等开发者功能
  • 在 GPQA Diamond 上达到 62% 的分数
  1. 安全策略创新
  • 推出"审慎对齐"(Prudent Alignment)新技术
  • 利用模型推理能力提升安全边界判断
  • 显著改善了拒绝基准和过度拒绝指标
  • 开放外部安全测试申请(截止至 1 月 10 日)

重要时间节点

  • 安全测试申请截止:2025 年 1 月 10 日
  • o3-mini 预计发布:2025 年 1 月底
  • o3 完整版:将在 o3-mini 之后推出

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/940534.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Oracle 中间件 Webcenter Portal服务器环境搭建

环境信息 服务器基本信息 如下表,本次安装总共使用2台服务器,具体信息如下: Webcenter1服务器 归类 SOA服务器 Ip Address 172.xx.xx.xx.xx HostName wcc01.xxxxxx.com Alias wccprd01 Webcenter2服务器 归类 OSB服务器 Ip Addr…

仿途唬养车系统汽修服务小程序修车店小程序源码

仿途唬养车系统汽修服务小程序修车店小程序源码 用户端+商家端+师傅端 也支持根据客户保养记录,系统自动推送 定期车检短信提醒 功能介绍: 支持下单上门服务、到店核销,支持单独选择项目、也支持选择服务人员、 和选择门店…

CAD xy坐标标注(跟随鼠标位置实时移动)——C#插件实现

效果如下: (使用方法:命令行输入 “netload” 加载此dll插件,然后输入“xx”运行,选择文件夹即可。) 部分代码如下: #if DEBUG using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoC…

Java性能调优 - JVM性能监测及调优

JVM 内存模型概述 堆 堆是JVM内存中最大的一块内存空间,该内存被所有线程共享,几乎所有对象和数组都被分配到了堆内存中。堆被划分为新生代和老年代,新生代又被进一步划分为Eden和Survivor区,最后Survivor由From Survivor和To Su…

RK3588 , mpp硬编码yuv, 保存MP4视频文件.

RK3588 , mpp硬编码yuv, 保存MP4视频文件. ⚡️ 传送 ➡️ Ubuntu x64 架构, 交叉编译aarch64 FFmpeg mppRK3588, FFmpeg 拉流 RTSP, mpp 硬解码转RGBRk3588 FFmpeg 拉流 RTSP, 硬解码转RGBRK3588 , mpp硬编码yuv, 保存MP4视频文件.

【计算机网络2】计算机网络的性能能指标

目录 一 、计算机网络的性能指标 二、具体介绍 1、速 率 2、带 宽 3、吞 吐 量 4、时 延 5、时延带宽积 6、往 返 时 延 7、信道利用率 一 、计算机网络的性能指标 计算机网络的性能指标就是从不同方面度量计算机网络的性能,有如下7个指标: 速…

OpenAI 12天发布会(12 Days of OpenAI)总结

在OpenAI的“12 Days of OpenAI”活动中,每一天都会发布新的功能或技术,展示公司在AI领域的最新进展。首先展示下全部功能发布完成后,现在ChatGPT的界面: 以下是每一天的简要概述及其意义: 第1天 - 完整版O1模型 今天…

android:sharedUserId 应用进程声明介绍

背景 adb install 安装系统软件报错,原因是签名不一致,进程改变。 代码分析 AndroidManifest.xml 定义的 android:sharedUserId 应用归属进程不同,从phone切换到system。 初始配置 <manifest xmlns:android="http://schemas.android.com/apk/res/android"c…

Spark优化----Spark 性能调优

目录 常规性能调优 常规性能调优一&#xff1a;最优资源配置 常规性能调优二&#xff1a;RDD 优化 RDD 复用 RDD 持久化 RDD 尽可能早的 filter 操作 常规性能调优三&#xff1a;并行度调节 常规性能调优四&#xff1a;广播大变量 常规性能调优五&#xff1a;Kryo 序列化 常规性…

Android Room 数据库使用详解

一、Room介绍 Android Room 是 Google 提供的一个 Android 数据持久化库&#xff0c;是 Android Jetpack 组成部分之一。它提供了一个抽象层&#xff0c;使得 SQLite 数据库的使用更为便捷。通过 Room&#xff0c;开发者可以轻松地操作数据库&#xff0c;不需要直接编写繁琐的…

数据结构十大排序之(冒泡,快排,并归)

接上期&#xff1a; 数据结十大排序之&#xff08;选排&#xff0c;希尔&#xff0c;插排&#xff0c;堆排&#xff09;-CSDN博客 前言&#xff1a; 在计算机科学中&#xff0c;排序算法是最基础且最重要的算法之一。无论是大规模数据处理还是日常的小型程序开发&#xff0c;…

【原生js案例】让你的移动页面实现自定义的上拉加载和下拉刷新

目前很多前端UI都是自带有上拉加载和下拉刷新功能,按照官网配置去实现即可,比如原生小程序,vantUI等UI框架,都替我们实现了内部功能。 那如何自己来实现一个上拉加载和下拉刷新的功能? 实现效果 不用浏览器的css滚动条,自定义实现滚动效果 自定义实现滚动,添加上拉加载…

【D3.js in Action 3 精译_046】DIY 实战:在 Observable 平台利用饼图布局函数实现 D3 多个环形图的绘制

当前内容所在位置&#xff1a; 第五章 饼图布局与堆叠布局 ✔️ 5.1 饼图和环形图的创建 ✔️ 5.1.1 准备阶段&#xff08;一&#xff09;5.1.2 饼图布局生成器&#xff08;二&#xff09;5.1.3 圆弧的绘制&#xff08;三&#xff09;5.1.4 数据标签的添加&#xff08;四&#…

【案例80】麒麟操作系统无法使用Uclient访问NC65

问题现象 麒麟操作系统&#xff0c;安装Uclient&#xff0c;添加应用后无法看到登录界面&#xff0c;一直在转圈。 问题分析 进入到Uclient的工作目录 发现在工作目录下&#xff0c;无相关app.log生成。 查看Uclient的main.log发现&#xff0c;有大量的报错与Uclient下的sha…

阿里云OSS批量导出下载地址 OSS批量导出 OSS导出清单

阿里云官方提供的客户端不能批量导出下载地址&#xff0c;阿里云OSS批量导出下载地址 OSS批量导出 OSS导出清单 1、参数配置&#xff1a;填写阿里云的AccessKeyID和AccessKeySecret&#xff0c;在阿里右上角的用户获取 2、选择地域&#xff1a;就是你OSS开的是哪个地方的&…

【CSS in Depth 2 精译_084】第 14 章:CSS 蒙版、形状与剪切概述 + 14.1:CSS 滤镜

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第四部分 视觉增强技术 ✔️【第 14 章 蒙版、形状与剪切】 ✔️ 14.1 滤镜 ✔️ 14.1.1 滤镜的类型 ✔️14.1.2 背景滤镜 ✔️ 14.2 蒙版 文章目录 第 14 章 蒙版、形状与剪切 Masks, shapes, and…

如何高效调试复杂布局?Layout Inspector 的 Toggle Deep Inspect 完全解析

Layout Inspector 是 Android Studio 提供的一个强大工具&#xff0c;用于分析和调试 Android 应用的 UI 布局。前置条件是app是debug调试状态&#xff0c;它允许你在应用运行时实时查看布局层次结构、UI 元素的属性&#xff0c;并帮助你诊断 UI 渲染问题。 Toggle Deep Inspe…

wxpython 基础代码

wxpython 基础代码 import wxclass MyFrame(wx.Frame):def __init__(self):super().__init__(parentNone, title计算器, size(450, 250))panel wx.Panel(self)# panel.SetBackgroundColour(wx.GREEN)self.icon1 wx.Icon(name"test.ico", typewx.BITMAP_TYPE_PNG)se…

2.5 io_uring

io_uring的相关函数接口介绍 io_uring 是 Linux 内核中一种高效的异步 I/O 接口&#xff0c;最早引入于 **Linux 内核 5.1** 版本。它是由 Jens Axboe 开发的&#xff0c;目的是提供更高效的异步 I/O 操作&#xff0c;尤其是相比 epoll 和 aio&#xff0c;io_uring 减少了系统…

服务器数据恢复—V7000存储中多块磁盘出现故障导致业务中断的数据恢复案例

服务器存储数据恢复环境&#xff1a; 一台V7000存储上共12块SAS机械硬盘&#xff08;其中1块是热备盘&#xff09;&#xff0c;组建了2组Mdisk&#xff0c;创建了一个pool。挂载在小型机上作为逻辑盘使用&#xff0c;小型机上安装的AIXSybase。 服务器存储故障&#xff1a; V7…