OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo 新增视觉理解能力,可同时处理文本和图像信息

OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo with Vision新增视觉理解能力,可同时处理文本和图像信息,极大简化了开发流程。 OpenAI宣布GPT-4 Turbo全面升级!根据官方说法,这一波 GPT 的升级包括:

  • 更长的上下文长度:128k,相当于 300 页文本。

  • 更高的智能程度,更好的 JSON / 函数调用。

  • 更高的速度:每分钟两倍 token。

  • 知识更新:目前的截止日期为 2023 年 4 月。

  • 定制化:GPT3 16k、GPT4 微调、定制模型服务。

  • 多模态:Dall-E 3、GPT4-V 和 TTS 模型现已在 API 中。

  • Whisper V3 开源(即将推出 API)。

  • 与开发者分享收益的 Agent 商店。

  • GPT4 Turbo 的价格约是 GPT4 的 1/3。

一款具有视觉处理能力的最新GPT-4 Turbo模型——GPT-4 Turbo with Vision已通过OpenAI API正式上线。

虽然GPT-4-Turbo发布已久,但一直以“预览版”的方式提供,和其他 GPT-4 Turbo 预览版一样,GPT-4 Turbo支持128k上下文窗口,可以在单个 prompt中处理超过300页的文本,模型训练的数据截止日期为2023年12月,更长的上下文意味着模型输出结果更加准确。

发布会一开完,人们蜂拥而入开始尝试。GPT4 Turbo 的体验果然不同凡响。首先是快,快到和以前所有大模型拉开了代差:

然后是功能增多,画画的时候,你一有灵感就可以直接说话让 AI 负责实现:

设计个 UI,几个小时的工作变成几分钟:

我直接不装了,截个图复制粘贴别人的网站,生成自己的,只用 40 秒:

利用 ChatGPT 与 Bing 的浏览功能以及与 DALL-E 3 图像生成器的集成,沃顿商学院教授 Ethan Mollick 分享了一段视频,展示了他的名为「趋势分析器」的 GPT 工具,其可查找市场特定细分市场的趋势,然后创建新产品的原型图像。 Octane AI 首席执行官 Matt Schlicht 的 Simponize Me GPT 会自动应用提示来转换用户上传的个人资料照片,生成《辛普森一家》的风格,做这个小应用只用了不到十分钟。

GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。 至此,生成式 AI 的竞争似乎进入了新的阶段。很多人认为,当竞争对手们依然在追求更快、能力更强的大模型时,OpenAI 其实早就已经把所有方向都试过了一遍,这一波更新会让一大批创业公司作古。 在新模型发布的 24 小时内,就有研究者在 Aider 上进行了 AI 生成代码的能力测试。

  • 在 gpt-4-1106-preview 模型上,仅使用 diff 编辑方法对 GPT-4 模型进行基准测试得出的结论是:

  • 新的 gpt-4-1106-preview 模型似乎比早期的 GPT-4 模型快得多;

  • 第一次尝试时似乎更能生成正确的代码,能正确完成大约 57% 的练习,以前的模型在第一次尝试时只能正确完成 46-47% 的练习;

  • 在通过检查测试套件错误输出获得第二次纠正错误的机会后,新模型的表现 (~66%) 似乎与旧模型 (63-64%) 相似 。

  • 接下来是使用 whole 和 diff 编辑格式对 GPT-3.5 模型进行的基准测试。结果表明,似乎没有一个 gpt-3.5 模型能够有效地使用 diff 编辑格式,包括最新的 11 月出现的新模型( 简称 1106)。下面是一些 whole 编辑格式结果:

  • 新的 gpt-3.5-turbo-1106 型号完成基准测试的速度比早期的 GPT-3.5 型号快 3-4 倍;

  • 首次尝试后的成功率为 42%,与之前的 6 月 (0613) 型号相当。1106 模型和 0613 模型都比原来的 0301 第一次尝试的结果更差,为 50%;

  • 新模型在第二次尝试后的成功率为 56%,似乎与 3 月的模型相当,但比 6 月的模型要好一些,6 月的模型为 50% 得分。

这项测试是如何进行的呢,具体而言,研究者让 Aider 尝试完成 133 个 Exercism Python 编码练习。对于每个练习,Exercism 都提供了一个起始 Python 文件,文件包含所要解决问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。 基准测试分为两步:

  1. 第一次尝试时,Aider 向 GPT 提供要编辑的桩代码文件以及描述问题的自然语言指令。这些指令反映了用户如何使用 Aider 进行编码。用户将源代码文件添加到聊天中并请求更改,这些更改会被自动应用。

  2. 如果测试套件在第一次尝试后失败,Aider 会将测试错误输出提供给 GPT,并要求其修复代码。Aider 的这种交互式方式非常便捷,用户使用 /run pytest 之类的命令来运行 pytest 并在与 GPT 的聊天中共享结果。然后就有了上述结果。

  3. 至于 Aider ,对于那些不了解的小伙伴,接下来我们简单介绍一下。 Aider 是一个命令行工具,可以让用户将程序与 GPT-3.5/GPT-4 配对,以编辑本地 git 存储库中存储的代码。用户既可以启动新项目,也可以使用现有存储库。Aider 能够确保 GPT 中编辑的内容通过合理的提交消息提交到 git。Aider 的独特之处在于它可以很好地与现有的更大的代码库配合使用。

简单总结就是,借助该工具,用户可以使用 OpenAI 的 GPT 编写和编辑代码,轻松地进行 git commit、diff 和撤消 GPT 提出的更改,而无需复制 / 粘贴,它还具有帮助 GPT-4 理解和修改更大代码库的功能。 为了达到上述功能,Aider 需要能够准确地识别 GPT 何时想要编辑用户源代码,还需要确定 GPT 想要修改哪些文件并对 GPT 做出的修改进行准确的应用。然而,做好这项「代码编辑」任务并不简单,需要功能较强的 LLM、准确的提示以及与 LLM 交互的良好工具。 操作过程中,当有修改发生时,Aider 会依靠代码编辑基准(code editing benchmark)来定量评估修改后的性能。例如,当用户更改 Aider 的提示或驱动 LLM 对话的后端时,可以通过运行基准测试以确定这些更改产生多少改进。 此外还有人使用 GPT-4 Turbo 简单和其他模型对比了一下美国高考 SAT 的成绩:

同样,看起来聪明的程度并没有拉开代差,甚至还有点退步。不过必须要指出的是,实验的样本数量很小。 综上所述,GPT-4 Turbo 的这一波更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。业务落地速度慢的公司要小心了。

另一方面,从这次开发者日的发布内容来看,OpenAI 也从一个极度追求前沿技术的创业公司,变得开始关注起用户体验和生态构建,更像大型科技公司了。 再次颠覆 AI 领域的 GPT-5,我们还得再等一等。 此次发布的GPT-4-Turbo正式版最大的革新之处在于,其新增的视觉理解能力,且视觉请求支持JSON格式和函数调用方式。 开发者现在可以通过文本格式JSON和函数调用来运用模型的视觉识别和分析功能,生成的JSON代码片段可用于自动化连接应用中的操作,如发邮件、发帖、购物等。OpenAI建议在执行这类操作前先设置用户确认流程。

价格方面,本次发布的GPT-4-Turbo正式版和之前的 GPT-4-Turbo“预览版 保持一致:输入:$10.00 / 100万 tokens;输出:$30.00 / 100万 tokens; 读图:最低$0.00085 /图。

OpenAI发言人表示,在过去开发者需要调用不同的模型来处理文本和图像信息,而GPT-4 Turbo with Vision则将两者合二为一,极大简化了开发流程,同时可以分析图像和文本并应用推理。 OpenAI还重点介绍了客户使用GPT-4 Turbo with Vision的几个案例,如Cognition的AI编程助手——Devin,由GPT-4 Turbo提供支持,利用视觉功能来执行各种编程任务。 目前,GPT-4 Turbo with Vision尚未应用于ChatGPT或开放给大众使用,不过 OpenAI暗示该功能即将登陆ChatGPT。 从网友评价来看,有网友对于将视觉理解能力融入API表示赞赏,认为API中有了视觉识别功能很酷。

也有网友对于OpenAI在推文中用了“majorly improved”(显著改善)这一词表达了质疑,让OpenAI好好解释一下什么是显著改善。

也有网友称,请下一条推文发布和GPT-5有关的内容,否则就别发了。

当然,网友的评价里也少不了和Claude 3的比较,有网友称,现在可以看看到底能不能打败Claude 3 Opus了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/549842.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Buck变换电路

Buck变换电路 Buck变换电路是最基本的DC/DC拓扑电路,属于非隔离型直流变换器,其输出电压小于输入电压。Buck变换电路具有效率高、输出稳定、控制简单和成本低的优点,广泛应用于稳压电源、光伏发电、LED驱动和能量回收系统。 电路原理 Buck变…

bestvike --bvframe学习

ref title fetch后台api 分页属性,pagination 要差几条?pagelimit 在api中写一个饭方法,vue中用用他 vue.cinfig.js中配置别名 nacos微服务 实体类要继承basedata(封装了公共数据) 控制器autowired,getm…

【Java开发指南 | 第四篇】Java常量、自动类型转换、修饰符

读者可订阅专栏:Java开发指南 |【CSDN秋说】 文章目录 Java常量自动类型转换Java修饰符 Java常量 常量在程序运行时是不能被修改的。 在 Java 中使用 final 关键字来修饰常量,声明方式和变量类似: final double PI 3.1415927;自动类型转换…

大数据平台搭建2024(一)

一:基础配置 创建虚拟机并查出ip地址进行连接 ip a1.配置node01静态ip地址与主机名 vi /etc/sysconfig/network-scripts/ifcfg-ens33修改或添加如下内容: BOOTPROTO"static" ONBOOTyes #根据虚拟机网卡信息配置 IPADDR192.168.200.141 NET…

ENVI实战—一文学会使用GLT配准工具对风云数据进行几何校正

实验2:学会使用GLT配准工具 目的:完成气象卫星数据的校正,掌握利用GLT配准工具实验地理配准的方法 过程: ①读取影像:选择“文件”,选择“HS5”文件并打开,在弹出的科学数据集浏览器中&#x…

秘塔和Kimi AI在资料查询和学习中的使用对比

一、引言 最近老猿在网上查资料时,基本上都使用Kimi AI进行查询,发现其查询资料后总结到位,知识点的准确度较高。今天早上收到一个消息,说新推出的秘塔AI比Kimi更新进,老猿利用在学习的《统计知识学习》简单对比试用了…

JS算法题:找到数组中第 k 大的元素

问题描述: 给定一个未排序的整数数组,找到其中第 k 大的元素。注意,你可以假设 k 总是有效的,且 1 ≤ k ≤ 数组的长度。 举个例子: 如果给定数组是 [3,2,1,5,6,4],k 是 2,那么第 2 大的元素…

每日OJ题_BFS解决FloodFill①_力扣733. 图像渲染

目录 BFS解决FloodFill简介 力扣733. 图像渲染 解析代码 BFS解决FloodFill简介 FloodeFill算法即填充算法,中文:洪水灌溉,算法原理就是从一个点开始向四周扩散,向周围可以走到的点填充颜色,直到将可扩散到的点全部填…

(踩坑)Please refer to 异常和Error creating bean with name 异常

一、Please refer to 异常 如图所示,在使用maven构建项目的时候,如果提示该错误,则可能是xml配置文件有问题或者测试类等。但是没有明确的异常信息,所以做以下小改动,可以查看异常信息。 在IDEA工具中,打…

【C/C++笔试练习】read函数、虚拟存储、用户态、线程特点、缺页处理、调度算法、进程优先级、锁的使用、创建进程、不用加减乘除做加法、三角形

文章目录 C/C笔试练习选择部分(1)read函数(2)虚拟存储(3)用户态(4)线程特点(5)缺页处理(6)调度算法(7)进程优先…

JDK1.8新特性

JDK8新特性 ​ Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机,Java 仍是企业和开发人员的首选开发平台 课程内容的介绍 了解Java发展史Lambda表达式…

数字人项目 ER-NeRF 的使用和部署详细教程

文章目录 1. ER-NeRF简介2. ER-NeRF部署3. 训练自己的数字人4. 生成数字人视频5. 其他数字人模型比较常见错误 1. ER-NeRF简介 ER-NeRF(官方链接)是一个Talking Portrait Synthesis(对嘴型)项目。即:给一段某人说话的…

微信小程序-长按显示,点击空白区域关闭

<view bind:tap"closeLongAction"><view bind:longpress"openAction></view><view wx:if"{{longActionIsShow}}"> 长按显示的区域 </view> </view>openAction(e) {console.log(322,e);this.setData({longActionI…

【解读】《中华人民共和国网络安全法》:所有IT从业者都应知应懂

随着网络的快速发展&#xff0c;当今社会存在的网络安全问题也是接踵而来&#xff1a;网络入侵、网络攻击等非法活动威胁信息安全&#xff1b;非法获取公民信息、侵犯知识产权、损害公民合法利益&#xff1b;宣扬恐怖主义、极端主义&#xff0c;严重危害国家安全和社会公共利益…

IDM2024破解版 IDM软件破解注册序列号 idm教程 idm序列激活永久授权 Internet Download Manager网络下载加速神器

你是不是感觉下载东西资源的时候&#xff0c;下载的非常慢&#xff0c;即便是五十兆的光纤依旧慢、是不是想下载网页上的视频但不知如何进行下载……这些问题是否一直在困扰着您&#xff0c;今日小编特意我大家带来了这款IDM 2024破解版。 众所周知&#xff0c;IDM是一款功能强…

openGauss学习笔记-264 openGauss性能调优-TPCC性能调优测试指导-BIOS配置

文章目录 openGauss学习笔记-264 openGauss性能调优-TPCC性能调优测试指导-BIOS配置264.1 恢复BIOS出厂设置264.2 修改相关BIOS设置264.3 重启操作系统 openGauss学习笔记-264 openGauss性能调优-TPCC性能调优测试指导-BIOS配置 本章节主要介绍openGauss数据库内核基于鲲鹏服务…

redis五种类型介绍

Redis是一种内存数据存储系统&#xff0c;它支持五种不同的数据类型&#xff1a; 1. String String是Redis中最基本的数据类型&#xff0c;它可以存储任何形式的字符串数据&#xff0c;例如普通的文本字符串&#xff0c;二进制数据或JSON格式的数据。除此之外&#xff0c;还可以…

LD3320语音模块开发以及未来拿到其他模块的开发方式

当我们拿到一块模块进行开发的时候&#xff0c;一定要拿到配套的使用手册&#xff0c;不然在短时间内根本下不了手 一、使用source Insight来阅读源码 1.建立文件夹 2. 在source Insight放入该文件 3.添加源码 4.解决Source Insight乱码的问题 5.让各个代码模块之间有关联 二、…

动态IP代理API是什么?怎么用?

“动态”意味着每次连接或每隔一段时间&#xff0c;用户的IP地址都会发生改变。由于IP地址的不断变化&#xff0c;用户可以避免因频繁访问同一网站而导致的IP被封锁的问题。API叫做应用程序接口&#xff0c;是一种让软件之间相互通信的接口。API允许用户通过编程方式来调用动态…

mPEG-Succinamide Acid能够作为连接分子,将不同的生物分子偶联在一起,从而构建生物偶联物聚乙二醇衍生物

【试剂详情】 英文名称 mPEG-SAA&#xff0c;mPEG-Succinamide Acid&#xff0c; Methoxy PEG SAA 中文名称 聚乙二醇单甲醚酰胺丁二酸 外观性状 由分子量决定&#xff0c;粘性液体或者固体 分子量 400&#xff0c;600&#xff0c;2k&#xff0c;3.4k&#xff0c;5k&…