超GPT-4o,代码能力超强!Claude 3.5 Sonnet正式发布

6月20日晚,著名大模型平台Anthropic在官网正式发布了Claude 3.5 Sonnet。

据悉,这是Sonnet 是Claude 3.5系列中第一个,也是Anthropic目前最强的视觉模型。随后会发布Haiku和Opus版本。

其性能超过了上一代Claude 3旗舰模型Opus,同时也大幅度超过了OpenAI的GPT-4o,谷歌的Gemini1.5 Pro等知名模型。

尤其是代码生成能力以及新引入的可视化“Artifacts”功能,是目前代码生成领域最强的大模型之一。

图片

图片

虽然Claude 3.5的性能很强但成本却与上一代的Claude 3 Sonnet差不多,每100万Tokens输入为3美元,每100万tokens输出为15美元,支持20万tokens上下文窗口。

所以,不少网友对Claude 3.5的优化能力相当吃惊,要知道Anthropic的旗舰模型Claude 3 Opus才刚刚发布了3个月,相比之下Claude 3.5的成本却降低了80%,运行效率提升了2倍

图片

更恐怖的是Sonnet只是Claude 3.5系列中的低端型号,要是Opus正式发布那性能还能来一次大飞跃。

图片

这不,压力又来到OpenAI这边,GPT-4o的语音功能还没发布呢,视觉理解和文本能力又被Claude 3.5超越了,得抓紧时间追赶啦。

图片

图片

尤其是既发即用,没有什么候补名单,接下来几周内可用,就这一点Anthropic获得了大批用户的喜爱。

图片

所以,按照Anthropic这个产品发布节奏,到年底发布到4.0版本也是有可能的,将进一步给OpenAI施加压力。

图片

超强代码生成和可视化能力

视觉理解是Claude 3.5一大特色功能,并新引入了一种可视化“Artifacts”的交互方式,当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些组件会出现在对话旁边的专用窗口中

这创建了一个动态工作空间,可以在其中实时查看、编辑和构建 Claude 的创作,同时可将AI生成的内容无缝集成到开发项目或工作流程中。简单来说,相当于是一个可视化IDE开发器非常方面

对于这项功能,有人认为,Claude 3.5的代码开发效率将是GPT-4o的10倍。

图片

还有人用Claude 3.5+ Maestro直接克隆了一个马里奥小游戏,最惊艳的是连动画图像都帮你直接生成好了,整个流程只花费了3分钟,这离AGI真的很近了。

图片

用Claude 3.5去模仿网站也是没问题的,例如,你看好谁家网站设计的新颖、交互功能、UI不错,直接拷贝就完事了,甚至连开发细节都展示出来了。

相比之下,虽然GPT-4o也能生成代码,但是细节方面比Claude 3.5差很多。

图片

让你开发一款功能齐全的Mancala应用需要多长时间?一天、三天?Claude 3.5只用了25秒!

图片

你只需要向Claude 3.5提供一张游戏说明的图片,它就能完成从功能设计到代码开发的所有流程,是不是很疯狂~

开发一款原创小游戏,把你的功能需求,游戏规则告诉Claude 3.5即可,几分钟就能进行demo测试。

Claude 3.5 Sonnet架构和测试数据

目前,Anthropic还没有公开Claude 3.5的论文,只放出了模型报告,「AIGC开放社区」就为大家解读一下重要内容。

架构方面,Claude 3.5 Sonnet在Claude 3 Opus的基础上进行了大幅度优化,推理效率提升2倍,成本却只有其5分之一

多模态能力得到增强,特别是在视觉处理方面取得了显著提升,能够更好地理解和分析图像、图表、文档等多种形式的视觉信息。使得模型在处理复杂的多模态任务时更高效,例如,视觉数学推理、图表问答、文档理解等。

代码能力是Claude 3.5 Sonnet本次的一大亮点,不仅能够生成高质量的代码,还能够理解和修改现有的代码库。在内部代理编码评估中的表现大幅提升,解决问题的能力从Claude 3 Opus的38%提高到了64%。

这意味着Claude 3.5 Sonnet能够更好地理解复杂的代码结构,实现更复杂的编程任务,例如,理解开源代码库并实现拉取请求等。

测试数据方面, Claude 3.5 Sonnet在GPQA、MMLU的零样本链式思考、五样本链式思考,均高于Claude 3 Opus、GPT-4o、GPT-4等知名模型。

在MathVista、Human、MGSM、DROP等测试中,Claude 3.5 Sonnet均以高测试评分领先其他模型。

图片

在“大海捞针”测试中,要求模型在海量的上下文中进行精准信息检索,主要考研模型在庞大的数据中准确找到并回忆出特定的信息。

结果显示,Claude 3.5 Sonnet无论是在所有上下文长度的总体表现,还是在特定200k上下文长度的挑战中,都达到了99.7%的召回率,这是一个几乎完美的测试成绩,大幅度超过了之前的Claude 3Opus。

图片

目前,Claude 3.5 Sonnet已全面开放,可以在Anthropic官网或者移动应用程序中免费使用。

本文素材来源Anthropic官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730538.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS父子组件传递参数

HarmonyOS父子组件传递参数 1. 使用State和Prop进行父子组件传递———注意是单向同步 Prop装饰器:父子单向同步 注意:只支持单向同步,同时也只能支持string\number\boolean\enum比较简单的类型。 代码 // 使用 props 进行父子组件传值…

【QCustomPlot实战系列】QCPGraph堆叠面积图

在【QCustomPlot实战系列】QCPGraph堆叠图的基础上,使用setChannelFillGraph函数即可 static QCPScatterStyle GetScatterStyle(const QColor& color) {QPen pen(color, 2);return QCPScatterStyle(QCPScatterStyle::ssCircle,pen,Qt::white, 5); }static QCP…

6.21 移动语义与智能指针

//先构造,再拷贝构造//利用"hello"这个字符串创建了一个临时对象//并复制给了s3//这一步实际上new了两次String s3 "hello"; 背景需求: 这个隐式创建的字符串出了该行就直接销毁掉,效率比较低 可以让_pstr指向这个空间…

Java面试题:mysql执行速度慢的原因和优化

Sql语句执行速度慢 原因 聚合查询 多表查询 表数据量过大查询 深度分页查询 分析 sql的执行计划 可以使用EXPLAIN或者DESC获取Mysql如何执行SELECT语句的信息 直接在select语句前加关键字explain/desc 得到一个执行信息表 信息字段分析 possible_keys:可能使用到的索…

5G如何推动工业数字化转型?

据中国信息通信研究院测算,5G商用五年来,直接带动经济总产出约5.6万亿元,间接带动总产出约14万亿元,有力促进了经济社会高质量发展。而工业数字化转型,作为应对市场变革的关键战略,也借助5G技术卓越的高带宽…

elementui组件库实现电影选座面板demo

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Cinema Seat Selection</title><!-- 引入E…

【Nodejs 日志库 】

总结了几个比较好用的Nodejs日志库&#xff0c;我认为一个 合格的日志库 需要 支持多种传输&#xff0c;如文件、控制台、HTTP 等。可定制的日志级别和格式。异步日志记录。 根据上述的需求&#xff0c;挑选出 几款比较好用的日志库&#xff0c; 1. Winston&#xff08;Gith…

【面试题分享】重现 string.h 库常用的函数

文章目录 【面试题分享】重现 string.h 库常用的函数一、字符串复制1. strcpy&#xff08;复制字符串直到遇到 null 终止符&#xff09;2. strncpy&#xff08;复制固定长度的字符串&#xff09; 二、字符串连接1. strcat&#xff08;将一个字符串连接到另一个字符串的末尾&…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 5G基站光纤连接问题(200分) - 三语言AC题解(Python/Java/Cpp)

&#x1f36d; 大家好这里是清隆学长 &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x1f497; &#x1f…

光大证券-放量恰是入市时:成交量择时初探

核心算法 1. 在熊市中&#xff0c;各成交量时序排名出现的频次基本随排名变小而单调增大&#xff1b;在牛市中&#xff0c;各成交量时序排名出现的频次基本随排名变小而单调减少&#xff1b;而在震荡市中&#xff0c;各成交量时序排名出现的频次两头大&#xff0c;中间小&…

天津这场智博会,成了智能时代的风向标

毫无疑问&#xff0c;这是一场智能产业的盛宴。 2024年6月20日至23日&#xff0c;国家会展中心&#xff08;天津&#xff09;迎来了一场智能科技领域的盛会——世界智能产业博览会&#xff1a;这场以“智行天下、能动未来”为主题的博览会&#xff0c;汇聚了全球49个国家和地区…

域内攻击手法——域内用户枚举和密码喷洒

一、域内用户枚举 1、域内用户枚举原理 域内用户枚举可以在无域内有效凭据的情况下&#xff0c;枚举出域内存在的用户名&#xff0c;并对其进行密码喷洒攻击&#xff0c;以此获得域内的有效凭据&#xff0c;在 Kerberos 协议认证的 AS-REQ 阶段&#xff0c;客户端向 AS 发送的…

MySQL之优化服务器设置(一)

优化服务器设置 配置MySQL的IO行为 有一些配置影响着MySQL怎样同步数据到磁盘以及如何做恢复操作。这些操作对性能的影响非常大&#xff0c;因为都涉及到昂贵的IO操作。它们也表现了性能和数据安全之间的权衡。通常&#xff0c;保证数据立刻并且一致地写到磁盘是很昂贵的。如…

【文心智能体大赛】迎接属于你的休闲娱乐导师!

迎接属于你的休闲娱乐导师&#xff01; 前言创建智能体发布智能体最后结语 前言 文心智能体平台AgentBuilder 是百度推出的基于文心大模型的智能体&#xff08;Agent&#xff09;平台&#xff0c;支持广大开发者根据自身行业领域、应用场景&#xff0c;选取不同类型的开发方式&…

AI全栈之logo生成:执文,描摹,妙哉~

前言 前几日体验了国产的AI-Agents产品coze 它是一种能够自主执行任务、与环境进行交互并根据所获取的信息做出决策和采取行动的软件程序 并且可以自己去创建属于自己的AIBot&#xff0c;还是很有意思的&#xff0c;大家可以去体验体验 在体验过程中&#xff0c;我发现在创…

肾虚学习实验第T1周:实现mnist手写数字识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊](https://mtyjkh.blog.csdn.net/)** 目录 一、前言 作为一名研究牲&#xff0…

数据库复习——模式分解

模式分解这边主要包括无损分解和保持函数依赖的分解两种形式&#xff0c;简单整理一下。 无损分解 把一个 R R R 分成 ρ { R 1 , R 2 , ⋯ , R k } \rho \{R_1,R_2,\cdots,R_k\} ρ{R1​,R2​,⋯,Rk​}&#xff0c;然后通过自然连接 R 1 ⋈ R 2 ⋈ ⋯ ⋈ R k R_1\bowtie R…

可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)

在当今金融科技迅速发展的时代&#xff0c;自动机器学习&#xff08;AutoML&#xff09;逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化&#xff0c;传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数…

AI创作音乐引发的深思

在最近一个月中&#xff0c;音乐大模型的迅速崛起让素人生产音乐的门槛降到了最低。这一变革引发了关于AI能否彻底颠覆音乐行业的广泛讨论。在初期的兴奋过后&#xff0c;人们开始更加理性地审视AI在音乐领域的应用&#xff0c;从版权归属、原创性、创作质量、道德层面以及法律…

【linux】dup文件描述符复制函数和管道详解

目录 一、文件描述符复制 1、dup函数&#xff08;复制文件描述符&#xff09; ​编辑 2、dup2函数&#xff08;复制文件描述符&#xff09; ​编辑 二、无名管道pipe 1、概述 2、无名管道的创建 3、无名管道读写的特点 4、无名管道ps -A | grep bash实现 三、有名管道FI…