OpenAI 发布GPT-4——全网抢先体验

OpenAI 发布GPT-4

最近 OpenAI 犹如开挂一般,上周才刚刚推出GPT-3.5-Turbo API,今天凌晨再次祭出GPT-4这个目前最先进的多模态预训练大模型。与上一代GPT3.5相比,GPT-4最大的飞跃是增加了识图能力,并且回答准确性也得到显著提高。GPT-4在多个专业和学术基准测试中展现出令人印象深刻的表现,有时甚至达到了人类水平。GPT-4 的关键特性之一是它能够理解和分析视觉和文本信息。通过结合这些模式,该模型能够对各种任务生成更准确、更细致的回答,例如图像说明或问题回答。此外,GPT-4 能够从大量数据中学习,并适应不同的上下文,使其成为自然语言处理、计算机视觉和机器学习等许多领域中非常有价值的工具。

文章目录

  • OpenAI 发布GPT-4
    • GPT-4的能力
    • 对GPT-3.5错误的修正
      • 链式推理
      • 逻辑谬误
      • 数学能力
    • 如何访问GPT-4
    • 总结

GPT-4的能力

img

虽然GPT-4是在其前身GPT-3.5的基础上升级而来,但是一些微妙的差异使得GPT-4可能颠覆整个游戏规则。

第一眼看上去,在一些随意交谈中很难看出GPT-3.5和GPT-4之间的区别。然而,当你让模型完成一些复杂的任务时,区别就显现出来了。GPT-4比GPT-3.5更可靠、更具创造力,并且能够处理更细微的指令。GPT-4最令人印象深刻的功能之一是它能够理解上下文并生成与当前情况更相关的响应。例如,如果你问它一个关于特定主题的问题,它能够考虑到对话的背景,并提供一个更准确和合情的答案。GPT-4的另一个显著改进是它的创造力。它可以对提示产生更具想象力和独创性的响应,使其成为作家、艺术家和任何想要挖掘其创造性一面工作者的绝佳工具。

img

我们具体看看 GPT-3 和 GPT-4 之间令人兴奋的区别,下图是 GPT-3 和 GPT-4 在各种基准测试中的表现对比:

img

从测试数据上看,GPT-4 比 GPT-3 整体好40%,在超过一半的测试中 GPT-4 比 GPT-3 有飞跃性进步。

再给大家看一个我个人认为很神奇的案例:给出食材,让GPT-4食谱。

img

上面案例展示了GPT-4良好的图像理解能力。

对GPT-3.5错误的修正

之前ChatGPT在很多问题上表现并不理想,为此我专门针对ChatGPT过去表现不佳的问题以及我关注的使用场景对GPT-4做了专门测试。

链式推理

GPT-3.5在一些非常复杂的问题,需要多条推理链的问题上,经常会要求提供更多信息。而GPT-4明显改进链式推理能力,在多推理链问题上表现良好。

GPT-3.5

在这里插入图片描述

GPT-4

在这里插入图片描述

逻辑谬误

GPT-3.5经常会在一些简单问题上犯逻辑错误,出现这种问题一般是由于问题中夹杂着一些无用的干扰项,比如:”蓝盒子里有一个苹果,蓝盒子里还有一个红盒子,红盒子有个盖子,请问我要如何取出苹果?“。其中”红色盒子有个盖子“就是无用干扰信息,GPT-3.5会给出完全荒谬的回答:

GPT-3.5
在这里插入图片描述

而GPT-4可以给出相对合理的答案,且很清楚地说明并避开了问题中的陷阱。

GPT-4
在这里插入图片描述

数学能力

GPT-3.5的数学能力广受诟病,甚至在一些简单的小学数学题上频频出错。比如:”我今年6岁,妹妹年龄是我的一半。那么当我90岁时,妹妹多少岁?“

GPT-3.5
在这里插入图片描述

GPT-3.5煞有介事的一步一步推理计算,最后给出45岁的错误答案。而GPT-4则修正了这方面的缺陷:

GPT-4
在这里插入图片描述

如何访问GPT-4

目前,ChatGPT Plus 会员可以通过 chat.openai.com 访问 GPT-4,但有使用上限。

在这里插入图片描述

在进入ChatGPT界面后,用户可以选择使用的模型。有3个模型可以选择

在这里插入图片描述

OpenAI很贴心的用直观可视化的方式对比了三个模型。

在这里插入图片描述

从官方给出的功能性能对比指引可以看出,GPT-4在推理能力和简明扼要方面明显由于GPT-3.5。

GPT-4的API与GPT-3.5的接口一致,不过目前需要申请开放。我已经第一时间加入了waitlist,等审批通过后再位大家带来GPT-4的接口使用体验报告。

在这里插入图片描述

总结

总的来说,GPT-4在推理能力上比GPT-3.5进步巨大,很多之前的问题都得到了修正和改良。我还没有测试GPT-4的多模能力,后面我会继续进行更多的测试,并即时更新文章分享给大家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/306.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

写给20、21级学生的话

写给20、21级学生的话前言一、关于招聘变招生,你怎么看?二、对于即将实习/已经实习的学生,你有什么建议?1.学习方面2.提升方面三、思想成年真的很重要前言 最近,有一些同学遇到的实习问题,我统一回复下&…

第十二届蓝桥杯省赛详解

试题A:空间 1B是8位,32位二进制数占用4B空间,1MB2^10KB2^20B 那么可以存放32位二进制数的个数为256*2^20*8/3267108864 试题B:卡片 分析:因为数据只有2021,所以直接模拟即可 结果为:3181&…

MySQL基础------sql指令1.0(查询操作->select)

目录 前言: 单表查询 1.查询当前所在数据库 2.查询整个表数据 3.查询某字段 4.条件查询 5.单行处理函数(聚合函数) 6.查询时给字段取别名 7.模糊查询 8.查询结果去除重复项 9.排序(升序和降序) 10. 分组查询 1…

Linux 如何使用 git | 新建仓库 | git 三板斧

文章目录 专栏导读 一、如何安装 git 二、注册码云账号 三、新建仓库 配置仓库信息 四、克隆远端仓库到本地 五、git 三板斧 1. 三板斧第一招:git add 2. 三板斧第二招:git commit 解决首次 git commit 失败的问题 配置机器信息 3. 三…

最新!Windows 11 更新将整合 AI 技术

微软MVP实验室研究员张雅琪(阿法兔)微软最有价值专家(MVP),毕业于外交学院和香港大学,IT 技术社区创始人,中关村互联网金融研究院兼职研究员,多次受邀在微软 Reactor 进行公开演讲&a…

电子工程师必须掌握的硬件测试仪器,你确定你都掌握了?

目录示波器示例1:测量示波器自带的标准方波信号输出表笔认识屏幕刻度认识波形上下/左右移动上下/左右刻度参数调整通道1的功能界面捕获信号设置Menu菜单触发方式触发电平Cursor按钮捕捉波形HLEP按钮参考资料频谱分析仪器信号发生器示波器 示例1:测量示波…

STM32F103R8T6 SPWM实现正弦波输出

前言 PWM合成正弦波,原理什么的不详细说了,概括一下就是 PWM有效面积的积分 正弦波的有效面积。PWM的频率越快,细分的越多,锯齿也就越不明显。 做法是:首先利用正弦波取点软件,取点1000个,生…

求职(怎么才算精通JAVA开发)

在找工作的的时候,有时候我们需要对自己的技术水平做一个评估。特别是Java工程师,我们该怎么去表达自己的能力和正确认识自己所处的技术水平呢。技术一般的人,一般都不敢说自己精通JAVA,因为你说了精通JAVA几乎就给了面试官一个可以随便往死里问的理由了。很多不自信的一般…

《ChatGPT是怎样炼成的》

ChatGPT 在全世界范围内风靡一时,我现在每天都会使用 ChatGPT 帮我回答几个问题,甚至有的时候在一天内我和它对话的时间比和正常人类对话还要多,因为它确实“法力无边,功能强大”。 ChatGPT 可以帮助我解读程序,做翻译…

在 4G 内存的机器上,申请 8G 内存会怎么样?

在 4GB 物理内存的机器上,申请 8G 内存会怎么样? 这个问题在没有前置条件下,就说出答案就是耍流氓。这个问题要考虑三个前置条件: 操作系统是 32 位的,还是 64 位的?申请完 8G 内存后会不会被使用&#x…

cmd命令教程

小提示: 在本文中,我将向您展示可以在 Windows 命令行上使用的 40 个命令 温馨提示:在本教程中学习使用适用于 Windows 10 和 CMD 网络命令的最常见基本 CMD 命令及其语法和示例 文章目录为什么命令提示符有用一、cmd是什么?如何在…

一年经验年初被裁面试1月有余无果,还遭前阿里面试官狂问八股,人麻了

最近接到一粉丝投稿:年初被裁员,在家躺平了6个月,然后想着学习下再去面试,现在面试了1个月有余,无果,天天打游戏到半夜,根本无法静下心来学习。下面是他这些天面试经常会被问到的一些问题&#…

手机解锁方法:8个顶级的 Android 手机解锁软件

一般来说,太简单的密码是不安全的,所以我们设置一个安全的密码,可能会稍微复杂一点。然而,我们可能经常会忘记复杂的密码并锁定我们的 Android 智能手机。 8个顶级的 Android 手机解锁软件 如果您遇到过这种情况并且正在寻找一种…

【Android -- 软技能】聊聊程序员的软技能

什么是软技能? 所谓软技能,就是相对于「硬技能」而言的技能,对于程序员来说,「硬技能」就是计算机专业技术能力,软技能则是专业之外的所有技能,包括职业规划能力、处理人际关系能力、专业态度、做事的方式…

linux基本功系列之uname实战

文章目录前言一. uname命令介绍二. 语法格式及常用选项三. 参考案例3.1 输出全部信息3.2 输出内核名称及版本3.3 输出网络节点的主机名3.4 输出主机硬件架构3.5 输出操作系统名称3.6 显示版本信息总结前言 大家好,又见面了,我是沐风晓月,本文…

初入了解——什么是VUE

个人简介:云计算网络运维专业人员,了解运维知识,掌握TCP/IP协议,每天分享网络运维知识与技能。座右铭:海不辞水,故能成其大;山不辞石,故能成其高。个人主页:小李会科技的…

Java中的反射

类加载器(1)类的加载当我们的程序在运行后,第一次使用某个类的时候,会将此类的class文件读取到内存,并将此类的所有信息存储到一个Class对象中。说明:a.图中的Class对象是指:java.lang.Class类的…

从Linux内核中学习高级C语言宏技巧

Linux内核可谓是集C语言大成者,从中我们可以学到非常多的技巧,本文来学习一下宏技巧,文章有点长,但耐心看完后C语言level直接飙升。 本文出自:大叔的嵌入式小站,一个简单的嵌入式/单片机学习、交流小站 从Linux内核中学习高级C语言宏技巧 1.用do{}while(0)把宏包起来 …

《网络安全》零基础教程-适合小白科普

《网络安全》零基础教程 目录 目录 《网络安全》零基础教程 第1章 网络安全基础 什么是网络安全 常见的网络安全威胁 网络安全的三个基本要素 网络安全的保障措施 第2章 网络攻击类型 病毒、蠕虫、木马、后门 DoS、DDoS攻击 ​​​​​​​SQL注入、XSS攻击 ​​​…

测试背锅侠?入职软件测试后大d佬给我丢了这个bug分类分析,至今受益匪浅......

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 刚成为入职&#xf…