【AI学习】OpenAI推出o3，向AGI迈出关键一步

2024年12月21日，OpenAI在其为期12天发布会活动的最后一天，正式发布了备受期待的o3系列模型，包括o3和o3-mini。

o3 是一个非常强大的模型，在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型（o1得分25%，o3得分87.5%)。

o3-mini 是 o3 更经济高效且性能导向的版本，在成本和延迟方面比 o1-mini 低得多，同时提供类似的功能。

由于与英国电信公司 O2 可能存在的版权/商标冲突，所以将其命名为o3。

具体内容参见文章《当你以为AI发展放缓时，OpenAI推出o3，向AGI迈出关键一步》
https://mp.weixin.qq.com/s/Kn-yDWA3n2VsW7ApBGEssA

转微博的一些评论，作为备忘

问题：成本太高

来自@karminski-牙医：
有人整理了GPT o1 - o3 各个型号的每个任务的开销，发现它与实现AGI的程度的曲线更像一个开口向右的抛物线，这是否意味着当前的技术路线很难实现AGI（最后20%可能要付出特别巨大的成本），或实现了AGI也不具备商业价值。
在这里插入图片描述

OpenAI o3对“合成程序”的意义，相当于AlexNet之于“深度学习”

来自微博@高飞

OpenAI o3对“合成程序”的意义，相当于AlexNet之于“深度学习”？

OpenAI在发布会的尾声，终于放了一个大卫星，发布了o3的期货。

由于o3作为推理模型的特殊性，目前场景面向数学、编码，所以一般的基准测试已经不奏效了，所以这次OpenAI和ARC 竞赛合作，用ARC-Prize作为衡量模型性能的主要指标。

评测结果是：

在低计算模式下(每项任务花费 20 美元)，o3得到 75.7%的分数,在高计算模式下(每项任务数千美元)得到 87.5%的分数。

大家可能对ARC-Prize不太了解，我这里简单介绍一下。

ARC的核心理论是肖雷测试：“当常人容易而人工智能难的任务差距归零时，就达到了通用人工智能”。

这句话其实很好理解，模型可以干很多人类干不了的事儿，但也有很多人类凭直觉就能干的事儿，模型却做不到。一个简单的例子，就是那个著名的“Strawberry这个单词里有多少个R”的问题。

由于ARC是针对大语言模型的弱点进行设计的，所以之前所有模型在测试中都表现不佳。

拿OpenAI的GPT系列来说，GPT-3得分为0，GPT-4接近0，GPT-4o好了一点，也只有5%。即使将这些模型扩展到极限，其分数也无法接近早期暴力枚举方法能达到的50%。

此前，ARC 给出了总奖金超过 100 万美元的奖励，包括首个团队达到 85% 基准的 60 万美元大奖，和促进进展的创新论文等其他奖项。

显然，ARC团队对题目难度还是有信心的。

但是，这个天花板现在被o3捅破了。（图一：大家可以看一下o3和之前模型的表现比较）
在这里插入图片描述

o3在低计算能力限制下，在半私有评估集上取得了 75.7%的成绩，在高算力(172 倍)的 o3 配置下，一举获得 87.5%的分数。（图二）
在这里插入图片描述

当然，在o1阶段，已经表现出了这个态势，当时突破了50%门槛。

ARC竞赛的联合发起人Mike Knoop也表现的很震惊，在X上写了一个短文，认为o3意义重大。

其中有句话分量比较重，说：

“我相信 o3 对“程序合成”而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据，证明基于深度学习的程序搜索是可行的”。

所谓“程序合成”，就是人类只需描述所需的功能和约束，计算机就可以根据这些描述生成相应程序。用人话说，可以理解为“编码”的自动驾驶。

那么，为什么当年的o1，现在的o3能取得这个成就？

如果传统LLM(如GPT-4o)的工作方式是作为"向量程序库"。

当收到提示时，它们会提取与提示相匹配的程序并在输入上"执行"。这种方法可以通过被动接触人类生成的内容来存储和操作数百万个有用的小程序。

然而，这种"记忆、提取、应用"的范式虽然可以在有合适训练数据的情况下实现任意任务的技能，但它无法适应新颖性或即时掌握新技能。

因为，要适应新鲜事物，需要两件事。

首先，需要知识。一组可重复使用的函数或程序，这方面大模型不缺，其次，需要能够在面临新任务时将这些函数重新组合成一个全新的程序，一个能够模拟手头任务的程序，即程序合成。

此前的模型缺乏这种功能。而o 系列模型解决了这个问题。

o3的主要突破在于它采用了一种全新的"自然语言程序搜索和执行"机制。

在测试时，模型会搜索可能的思维链(Chain of Thought)来描述解决任务的步骤，这个搜索过程类似于AlphaZero式的蒙特卡洛树搜索，并由评估器模型引导。

这种机制让o3能够在测试时动态地重组知识，生成和执行自己的程序，其中思维链本身成为知识重组的产物。这远比简单的预训练响应要强大。

既然说o3有“合成程序”的能力，也有一项基准可以直接证明OpenAI o3的编码能力，它的Codeforces 分数为 2727，相当于地球上第 175 位最优秀的人类编程竞赛选手。（图三）
在这里插入图片描述

当然，我们都知道，人类开发者的工作不止局限于编码自身。

而且，目前为止o3是期货，在生产环境会表现如何，还要到时的实际情况，以及竞争对手的表现比较。

关于ARC对o3的更多评价，见：arcprize.org/blog/oai-o3-pub-breakthrough

下为Mike Knoop的推文原文（出处：x.com/mikeknoop）：

o3 的确非常特别，大家都需要重新审视自己对 AI 能力与局限的直觉。

虽然目前还是早期阶段，但这个系统展现出了在 ARC-AGI 的“金丝雀”测试下真实的智能提升。

semiprivate v1 的测试得分：

GPT-2（2019 年）：0%
GPT-3（2020 年）：0%
GPT-4（2023 年）：2%
GPT-4o（2024 年）：5%
o1-preview（2024 年）：21%
o1 high（2024 年）：32%
o1 Pro（2024 年）：约 50%
o3 tuned low（2024 年）：76%
o3 tuned high（2024 年）：87%
当初是我投入了最初的一百万美元创建了 @arcprize，我想再次重申我的承诺：我们会持续举办这个大奖赛，直到有人开源一个高效且能达到 85% 水平的解决方案。

但我们的目标远不止于此！ARC Prize 在今年找到了它的使命——成为通往 AGI 的长久北极星。

ARC 基准的设计原则是“对人类简单，但对 AI 困难”，只要在人类易解、AI 难解的范畴内仍存在挑战，就说明 AGI 依然还有进步空间。

目前在 v1 系列中，还有超过 100 个任务即使在 o3 的高算力配置下依然没有被解决，这非常值得关注。

o3 的后继者们将不得不面对“效率”这一难题。我预计这会成为 AI 领域的重点关注方向。参考数据：o3 high 使用的算力是 o3 low 的 172 倍，而 o3 low 的算力又是大奖赛目标算力的 100 到 1000 倍。

今年夏天，我们也正式开始推进 v2 的工作（v2 依旧在与 v1 相同的网格环境中），并计划与 2025 年的 ARC Prize 一同发布。前期测试表明，即便在 o3 high 的算力下，v2 也会有很好的表现。但 v2 的目标并不是做“对抗性基准”，而是要在通往 AGI 的道路上具有足够的意义和信息量。

我们也希望能有一些足以经受多年考验的 AGI 基准，我并不认为 v2 能担此大任。所以我们已经开始把注意力转向 v3——这将会与前两代非常不同。我也很期待与 OpenAI 以及其他研究机构合作，共同设计出 v3。

由于快到年末，我也想做一些反思。

任何花时间研究 ARC 数据集的人都会告诉你，它有某些特别之处；而一个能够完全破解它的系统就更是了不起。o 系列所展现出的能力，某种程度上让我们得以一窥这样的系统。

当我说“现在还只是早期阶段”时，我是认真的。我相信 o3 对程序合成而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据，证明基于深度学习的程序搜索是可行的。

现在我们又站在另一座大山的山脚，从我的角度看，它与深度学习在 AGI 里扮演的重要地位同样高，也同样关键。

这一年里有很多事情让我感到惊讶，包括 o3 的问世。但最令我吃惊的，是越来越多的人开始关注 ARC Prize。

我这些年一直在向 AI 研究人员做 ARC 的调查。在 ARC Prize 今年六月启动之前，只有大约十分之一的人听说过它。

而现在，它无可争议地成为了尖端实验室使用的尖端基准，以展示在 AGI 最尖端方向上的进展——这一人类史上最为重要的技术。

在这里，也要对fchollet表示感谢，他设计了这样一个出色的基准。

我会持续怀着感恩之心，去引领更多的关注投向 AGI 和 ARC Prize，我们 2025 年再见！