OpenAI 刚刚推出 o1 大模型!!突破LLM极限

北京时间 9 月 13 日午夜,OpenAI 正式发布了一系列全新的 AI 大模型,专门用于应对复杂问题。

这一新模型的出现代表了一个重要突破,其具备的复杂推理能力远远超过了以往用于科学、代码和数学等领域的通用模型,能够解决比之前更难的难题。


没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=O83Ahttps://www.zhihu.com/pin/1768399982598909952

据 OpenAI 介绍,此次在 ChatGPT 和大模型 API 中发布的是该系列的首款模型——o1-preview,当前仅为预览版。

除 o1 外,OpenAI 还展示了下一次更新的开发情况及其评估结果。o1 模型一经问世便创造了多项历史记录。

首先,o1 是此前从山姆・奥特曼到 OpenAI 科学家们一直在「高调宣传」的草莓大模型,它展现了真正的通用推理能力。

在多个复杂基准测试中表现卓越,相比于 GPT-4o 显示出了显著的提升,使大模型的能力从“乏善可陈”跃升到卓越水平。

 o1 无需专门训练即可在数学奥赛中获得金牌,甚至在博士级别的科学问答中超越了人类专家。

Cognition AI 是开发首个 AI 软件工程师 Devin 的公司,该公司表示过去几周一直与 OpenAI 紧密合作,利用 Devin 评估 o1 的推理能力。

结果显示,与 GPT-4o 相比,o1 系列模型在处理代码智能体系统方面取得了巨大进展。

在实际应用中,o1 上线后,ChatGPT 在回答问题时变得更为深思熟虑,而非立即作答。

这种变化类似于人类大脑中的系统 1 和系统 2,ChatGPT 已经从只使用系统 1(快速、自动、直观、容易出错)进化到能够使用系统 2 的思维方式(缓慢、深思熟虑、有意识、可靠)。

这种改进使其能够解决之前无法解决的问题。从今天的 ChatGPT 用户体验来看,这虽然只是一个小进步,但在复杂的数学和代码问题上,差异变得非常明显。更重要的是,未来的发展路径已经开始清晰展现。

为了强调 o1 相对于 GPT-4o 在推理性能上的改进,OpenAI 对其进行了多项人类考试和机器学习基准测试。

实验结果显示,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。在许多需要高强度推理的基准测试中,o1 的表现可与人类专家相媲美。

最近的一些前沿模型在 MATH 和 GSM8K 上的表现非常出色,导致这些基准测试在区分模型时不再有效。

因此,OpenAI 在 AIME 测试中对 o1 进行了评估,AIME 是一项测试美国最优秀高中数学学生的考试。

在 2024 年的 AIME 考试中,GPT-4o 平均仅解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均解答正确率达 74% (11.1/15),在 64 个样本一致的情况下为 83% (12.5/15),使用学习评分函数对 1000 个样本进行重新排序时,达到了 93% (13.9/15)。

13.9 分的成绩足以进入全美前 500 名,并高于美国数学奥林匹克竞赛的分数线。

OpenAI 还在 GPQA Diamond 基准测试上评估了 o1,这是一个测试化学、物理和生物学专业知识的困难智力基准。

为了与人类进行对比,OpenAI 邀请了具有博士学位的专家来回答 GPQA Diamond 的问题。

实验结果显示,o1 在该基准测试中表现优于人类专家,成为第一个在此基准上实现这一成就的模型。

需要注意的是,这些结果并不意味着 o1 在所有方面都比博士更有能力——它只是更擅长解决某些博士也应该解决的问题。在其他几个机器学习基准测试中,o1 也实现了新的最先进水平(SOTA)。

启用视觉感知能力后,o1 在 MMMU 基准上得分 78.2%,成为第一个在表现上与人类专家相当的模型。此外,o1 在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

OpenAI的《Her》为何迟迟未能面世?

GPT-4o无法取代程序员! IEEE研究显示,困难编码正确率仅为0.66%!_chatgpt4o正确率多少

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/879289.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在线IP代理检测:保护您的网络安全

在互联网飞速发展的今天,越来越多的人开始意识到网络安全和隐私保护的重要性。在线IP代理检测工具作为一种有效的网络安全手段,能够帮助用户识别和检测IP代理的使用情况,从而更好地保护个人隐私和数据安全。本文将详细介绍在线IP代理检测的相…

​‌Macbook如何玩《黑神话:悟空》‌2024最新详细方法

‌Mac用户可以通过几种方法玩《黑神话:悟空》‌。 ‌使用虚拟机‌:通过Parallels Desktop等虚拟机软件,在Mac上运行Windows系统,并在其中安装和运行《黑神话悟空》。这种方法需要Mac电脑满足游戏的基础配置要求。 不过如果电脑有虚…

AI逻辑推理入门

参考数据鲸 (linklearner.com) 1. 跑通baseline 报名 申领大模型API 模型服务灵积-API-KEY管理 (aliyun.com) 跑通代码 在anaconda新建名为“LLM”的环境,并安装好相应包后,在jupyter notebook上运行baseline01.ipynb 2. 赛题解读 一般情况下,拿到一个赛题之后,我们需…

LeetCode-137. 只出现一次的数字 II【位运算 数组】

LeetCode-137. 只出现一次的数字 II【位运算 数组】 题目描述:解题思路一:解题思路二:符号位一起判断。背诵版解题思路三:0 题目描述: 给你一个整数数组 nums ,除某个元素仅出现 一次 外,其余每…

Fiddler抓包工具实战

文章目录 🟢 Fiddler入门到精通👉主要功能👉使用场景 🟢 一、Fiddler抓包和F12抓包对比🟢 二、Fiddler的核心功能🟢 三、Fiddler的工作原理🟢 四、Fiddler功能配置使用👉规则设置&am…

git报错,error: bad signature 0x00000000fatal: index file corrupt

报错 git -c diff.mnemonicprefixfalse -c core.quotepathfalse --no-optional-locks checkout daily --progress error: bad signature 0x00000000 fatal: index file corrupt 原因 git 仓库中索引文损坏 处理 1.该备份的先备份 2.删除索引并重置 rm -f .git/index git r…

走进低代码表单开发(三):高效业务功能构建

前面我们已经介绍了勤研低代码开发平台的页面设计相关的内容,当页面设计完成后,我们将继续进行表单的功能开发,接下来,我们一起走进勤研低代码开发平台高效便捷的表单功能设计,来看看勤研低代码平台如何为用户带来全新…

《深度学习》【项目】 OpenCV 身份证号识别

目录 一、项目实施 1、自定义函数 2、定位模版图像中的数字 1)模版图二值化处理 运行结果: 2)展示所有数字 运行结果: 3、识别身份证号 1)灰度图、二值化图展示 运行结果 2)定位身份证号每一个数…

实习项目|苍穹外卖|day11

Apache ECharts 前端技术。 营业额统计 还是比较简单的。 用户统计 订单统计 以上所有需求。难点在于对时间类的处理&#xff1a; // 接收格式 GetMapping("/turnoverStatistics")ApiOperation("营业额统计")public Result<TurnoverReportVO>…

【每日刷题】Day125

【每日刷题】Day125 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 17. 电话号码的字母组合 - 力扣&#xff08;LeetCode&#xff09; 2. LCR 080. 组合 - 力扣&#…

Linux s3c2440 开发板上的操作系统实现 ubuntu

使用s3c2440开发板 使用ubuntu 1.ubuntu中的tftp&#xff0c;和nfs Trivial File Transfer Protocol,简单文件 传输协议。 通过网络在客户端与服务器之间进行简单文件 传输。提供不复杂、开销不大的文件传输服务。 Network File System&#xff0c;网络文件系统。通过 网络…

JavaSE - 面向对象编程01

01 什么是面向对象编程(oop) 答&#xff1a;就是只关心对象之间的交互&#xff0c;而并不关心任务是怎样具体完成的。例如把一个大象放进冰箱需要几步&#xff1f;如果是面向对象编程只会思考冰箱和大象之间的交互&#xff0c;那么给出的答案就是&#xff1a;把冰箱门打开&…

Radware 报告 Web DDoS 攻击活动

新一代 HTTPS 洪水攻击的频率和强度急剧增加&#xff0c;攻击者引入的复杂程度也在迅速提高。2024 年上半年&#xff0c;Web 分布式拒绝服务 (DDoS) 攻击的频率和强度显著增加。其中很大一部分活动可以归因于受政治紧张局势驱使的黑客活动分子。 众所周知&#xff0c;当今的黑…

Ubuntu22.04系统安装opencv步骤简述及问题解决方法

前言 opencv是一个功能强大、开源且跨平台的计算机视觉库&#xff0c;适用于多种编程语言和操作系统&#xff0c;能够帮助开发者构建各种视觉项目。其模块众多&#xff0c;提供了诸多功能&#xff0c;能够进行图像处理、视频处理等等。比如&#xff1a;Highgui模块提供图像用户…

java开发中间件学习记录(持续更新中~)

1 Redis 2JVM 3 java基础底层 4Mysql 5 spring 6 微服务 7.......(持续更新) One:Redis篇 1:Redis 1.穿透 1.1缓存穿透 1.1.1布隆过滤器 1.2缓存击穿 2&#xff1a;击穿 1.3&#xff1a;缓存雪崩 1.4:双写一致 1.5.持久化&#xff08;RDB,AOF&#xff09; 1.6…

Mastering openFrameworks_第十一章_网络

网络 网络为多个设备之间的数据交换提供了一种方式。它是一个主要组成部分&#xff0c;允许远程控制移动和平板设备应用程序中的一些参数&#xff0c;也用于使交互式项目在多台计算机上同步工作。在本章中&#xff0c;您将学习如何在openFrameworks项目中实现和使用OSC和TCP协…

Go 1.19.4 路径和目录-Day 15

1. 路径介绍 存储设备保存着数据&#xff0c;但是得有一种方便的模式让用户可以定位资源位置&#xff0c;操作系统采用一种路径字符 串的表达方式&#xff0c;这是一棵倒置的层级目录树&#xff0c;从根开始。 相对路径&#xff1a;不是以根目录开始的路径&#xff0c;例如 a/b…

【Qt笔记】QScrollArea控件详解

目录 引言 一、QScrollArea 的基本概念 二、QScrollArea 的主要属性 2.1 设置内容大小是否随滚动区域变化 2.2 设置水平与垂直滚动条 2.3 设置视口外边距 三、QScrollArea 的常用方法 3.1 设置显示小部件 3.2 返回当前设置的小部件 3.3 设置内部小部件是否可以填充…

【bug】通过lora方式微调sdxl inpainting踩坑

报错内容 ValueError: Attempting to unscale FP16 gradients. 报错位置 if accelerator.sync_gradients:params_to_clip (itertools.chain(unet_lora_parameters, text_lora_parameters_one, text_lora_parameters_two)if args.train_text_encoderelse unet_lora_parameters…

ICP算法介绍,机器人姿态估计,三维点云配准

介绍 ICP算法&#xff0c;即Iterative Closest Point&#xff08;迭代最近点&#xff09;算法&#xff0c;是一种广泛应用于计算机视觉和图像处理领域的几何配准算法。它的主要目的是通过最小化两组点集之间的距离来找出一组变换&#xff0c;使得两组点集尽可能地对齐。ICP算法…