AI奥林匹克竞赛：Claude-3.5-Sonnet对决GPT-4o，谁是最聪明的AI？

实验设置

评估对象

评估方法

结果与分析

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

GPT-4V vs. Gemini-1.5-Pro

结论

AI技术日新月异，Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论：

Claude-3.5-Sonnet是否已经取代OpenAI的GPT-4o成为世界上“最聪明的AI”？

回答这个问题的挑战在于我们首先需要一个足够挑战的智力测试基准，使得我们可以区分目前最高水平的AI。

上海交通大学生成式人工智能实验室（GAIR Lab）推出的OlympicArena（奥林匹克竞技场）满足了这个需求。

奥林匹克学科竞赛不仅是对人类（碳基智能）思维敏捷性、知识掌握和逻辑推理的极限挑战，更是AI（“硅基智能”）锻炼的绝佳练兵场，是衡量AI与“超级智能”距离的重要标尺。

OlympicArena是一个真正意义上的AI奥运竞技场。在这里，AI不仅要展示其在传统学科知识上的深度（数学、物理、生物、化学、地理等顶级竞赛），还要在模型间的认知推理能力上展开较量。

近日，研究团队首次提出使用“奥林匹克竞赛奖牌榜”的方法，根据各AI模型在奥林匹克竞技场（各学科）的综合表现进行排名，选出迄今为止智力最高的AI。

在此次竞技场中，研究团队重点分析并比较了最近发布的两个先进模型——Claude-3.5-Sonnet和Gemini-1.5-Pro，以及OpenAI的GPT-4系列（如GPT-4o）。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Tubo步骤https://www.zhihu.com/pin/1768399982598909952

通过这种方式，研究团队希望能够更有效地评估和推动AI技术的发展。

实验结果表明：

Claude-3.5-Sonnet在整体表现上与GPT-4o相比极具竞争力，甚至在一些科目上超过了GPT-4o（比如在物理、化学和生物学上）。
Gemini-1.5-Pro和GPT-4V排名紧随GPT-4o和Claude-3.5-Sonnet之后，但它们之间存在明显的表现差距。
来自开源社区的AI模型性能明显落后于这些专有模型。
这些模型在此基准测试上的表现不尽人意，表明我们在实现超级智能之路上还有很长的路要走。

实验设置

研究团队采取OlympicArena的测试集进行评估。该测试集的答案并未公开，有助于防止数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of Thought）提示词。

评估对象

研究团队评估了一系列开源和闭源的多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LMMs，选择了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等闭源模型，此外还评估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等开源模型。

对于LLMs，主要评估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等开源模型。

此外，研究团队特别包括了新发布的Claude-3.5-Sonnet以及Gemini-1.5-Pro，并将它们与强大的GPT-4o和GPT-4V进行比较，以反映最新的模型性能表现。

评估方法

衡量标准鉴于所有问题都可以通过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：

结果与分析

分析内容主要关注Claude-3.5-Sonnet和GPT-4o，同时也对Gemini-1.5-Pro的性能表现进行了部分讨论。

根据表格的总体结果，可以观察到：

新发布的Claude-3.5-Sonnet性能强大，达到了几乎与GPT-4o相当的水平。两者的整体准确率差异仅约1%。

新发布的Gemini-1.5-Pro也展现出了相当的实力，在大多数学科中的表现超过了GPT-4V（OpenAI当前第二强大的模型）。

值得注意的是，在撰写本报告时，这三个模型中最早的发布时间仅为一个月前，反映了这一领域的快速发展。

针对学科的细粒度分析

GPT-4o vs. Claude-3.5-Sonnet

尽管GPT-4o和Claude-3.5-Sonnet在整体表现上相似，但两个模型在不同学科上展现了各自的优势。GPT-4o在传统的演绎和归纳推理任务上表现更为出色，特别是在数学和计算机科学方面。相对而言，Claude-3.5-Sonnet在物理、化学和生物学等学科表现优异，尤其在生物学上，它超过了GPT-4o 3%。

GPT-4V vs. Gemini-1.5-Pro

在Gemini-1.5-Pro与GPT-4V的比较中，也可以观察到类似的现象。Gemini-1.5-Pro在物理、化学和生物学方面的表现显著优于GPT-4V。然而，在数学和计算机科学方面，Gemini-1.5-Pro的优势不明显，甚至不如GPT-4V。

结论

从这两组比较中可以看出：

OpenAI的GPT系列：在传统的数学推理和编程能力上表现突出。这表明GPT系列模型已经经过了严格训练，以处理需要大量演绎推理和算法思维的任务。
Claude-3.5-Sonnet和Gemini-1.5-Pro：在涉及需要将知识与推理结合的学科（如物理、化学和生物学）时，展现出了更具竞争力的表现。这体现了不同模型在专业领域的优势以及潜在的训练重点，表明在推理密集型任务和知识整合型任务之间可能存在的权衡。