关于Claude3.5-Sonnet引以为傲的功能,在半年前就被某国产平台无情碾压的那档事!

前言:

Anthropic声称其每隔几个月就会对Claude发布一次重大版本的更新。距离今年3月份Claude3发布,已经又过去了3个多月的时间。果不其然,6月21日Anthropic 在X上正式官宣发布全新大模型 Claude3.5 Sonnet,号称它能够碾压GPT4o,是迄今为止最智能的模型。毫无疑问,经过大家几天的测试和体验,它的模型能力确确实实称得上是头部大模型的Top1。但是今天我们要讲的是Claude3.5 Sonnet吹嘘的其在应用程序开发上的能力,实际上并没有那么厉害。关于这个能力具体是什么,后文将会给大家揭晓。但我想表达的是“这个能力”其实早在半年前国内就已经有平台实现了,甚至这个平台的能力甩开了Claude3.5 Sonnet好几条街。


 关于Claude3.5 Sonnet这里还是给大家简单的介绍一下,

(ps:给后面惊艳到你的国产平台铺垫一下~)

首先Claude3.5 Sonnet是 Claude3.5系列中的第一个模型,与Claude3.0一样,3.5也有大杯、中杯小杯三个等级。

Claude3.5 Sonnet正是3.5系列中的中杯,但是不要小看了这个中杯,Claude3.5 Sonnet的能力已经超越了3.0的大杯。

所以这里咱可以浅浅期待一手,Claude3.5 Opus(大杯)的效果。据说在未来的几个月内Anthropic就会陆续发布小杯,和大杯这两个版本。

 

如上图这是Anthropic官方发布的对Claude3.5 Sonnet基准测试结果。

从结果上来看,Claude3.5 Sonnet 在研究生水平推理 (GPQA)、本科水平知识 (MMLU) 和编码能力 (HumanEval) 三个主流基准测试中,打破了行业的记录,全面领先GPT-4o。

另外,与前代产品的提升就更不用多说了,在内部测试中Claude3.5 Sonnet解决了 64% 的错误代码问题,而 Claude 3 Opus 仅解决了 38% 的问题。

Model_Card_Claude_3_Addendum.pdf (anthropic.com)

这是Claude3.5与3的内部代码能力评估测试,感兴趣的小伙伴可以去看一下。

那接下来就是重点要讲的内容了,Anthropic在Claude3.5更新的官方公告中,特别强调了Claude 3.5 Sonnet 可以独立编写、编辑和执行代码(划重点),并具有复杂的推理和故障排除功能。

在这次更新中Claude3.5推出了一个新的功能Artifacts。简单来说就是一个动态的空间,用户在Claude3.5 Sonnet上的所有交互内容都可以在窗口上体现出来。也就是说现在可以在Claude 3.5 Sonnet上直接生成应用程序。

Claude3.5

视频中演示的应用程序,就是通过Claude3 Sonnet自动化生成的。

这个应用是一个可视化的办公桌显示屏调节的应用,看视频中的演示效果还是比较不错的。

而这样的效果,其实国内有平台在半年前就已经做到了,甚至效果比Claude3.5 Sonnet还要炸裂。

下面我们就用同一个应用程序的开发需求,来对比Claude3.5 Sonnet和国内的这个平台。

目前在Sonnet上还没有集成Python解释器,所以用React语言来表达我们的需求 

需求描述:“你能用React语言,帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人”

在提出了这个应用开发的需求之后,Sonnet就直接打开了Artifacts窗口,开始了编写代码

代码编写好之后, Sonnet就会自动执行刚才生成的代码。但是这里可以看到因为缺少组件,没有办法进行渲染,所以程序运行失败了。

后面我又换了一种方式来重新表达了我的需求

需求描述:“你可以帮我创建一个Html版本的吗?要可以运行的,我能用鼠标进行点击操作。”

 

 提出新的需求之后,Sonnet还是会先调用Artifacts功能,然后编写代码,自动运行程序。

这里可以看到将React语言调整为html语言之后程序就开发成功了。

sonnet演示

但是在实际使用的过程中发现,部分icon点击之后没有触发效果,无法添加项目信息,且一般MIS中的基本功能也没有具备。

似乎不像是一个完整的程序,更像是一个模版?

可能是我的需求表达的不够清晰的原因,但总的来说Sonnet还是把这个应用做出来了。

那接下来就试一下在国产平台上用同样的需求看看效果如何?

需求描述:“你可以帮我开发一个MIS 项目信息管理系统吗?让我可以直接用鼠标进行控制。信息管理系统中具体想要的功能有:1. 项目信息表 关键词: 项目名称 项目描述 项目经理 项目状态开始日期 结束日期 2. 任务管理表 关键词: 任务名称 任务描述 负责人 优先级任务状态实际开始日期 实际结束日期 依赖任务 3. 进度跟踪表 关键词:任务名称 进度百分比 完成情况 更新日期 更新人 4. 成本管理表 关键词: 成本项名称 费用类型 预计费用 实际费用 5. 风险管理表 关键词: 风险名称 风险描述 风险等级 应对措施 责任人。”

在对话中输入我们的需求之后,平台的AI会直接根据需求提供一个针对性的解决方案。

在图中可以看到AI提供了一个MIS的解决方案。

选择好解决方案之后,AI竟然反馈让我们选择一下配置管理系统登录的方式

(ps:太震惊了,竟然还从产品完整性的角度来帮我们对应用的功能进行了优化!)

选择完登录方式之后,AI就直接把数据结构开发好了, 点开详情还可以查看具体的内容。

 确定无误之后,我就直接点击提交了,然后AI就马不停蹄地去开发应用了。

等了不到2分钟,AI就直接在对话框中提示应用已经开发好了,可以去体验了。 

来看一下应用的实际体验效果吧,非常炸裂,刚才需求中的所有功能全都实现了,并且所有的icon都可以进行交互。

码上飞

也就是说在这个平台上,AI会根据文字描述的需求,针对性的开发应用程序,

并且作为用户来说,没有接触到任何与代码相关的内容,所有的开发环节都是AI自己完成的。

对于小白,或者不懂软件开发的人来说简直就是王炸。

那拥有如此炸裂效果的平台到底是啥呢?

别急,我来揭晓答案。

这个平台是国内首家文生软件平台码上飞CodeFlying

码上飞 CodeFlying | AI 智能软件开发平台!

码上飞基于软件开发和大模型技术,通过对多种领域模型进行协作编排,并将 LLM 和 DevOps 工具链相结合,实现了从自然语言需求到可工作软件的自动生成。

从根本上领先于传统AI只能生成代码,辅助开发的模式。

这个平台的背后是具有北大背景的人工智能团队,团队成员在软件开发行业深耕了多年,拥有丰富的经验,并于半年前发布了这款产品。


测试完毕,总结一下,Claude3.5 Sonnet发布确实很炸裂,直接打造了大模型行业的新标杆。新功能Artifacts也很不错,创新了用户与大模型语言交互的方式。

但是在代码编写与生成可运行的应用程序上效果可能还需要考究一下(仅限于刚才的测试)。就本文测试的案例来看,在生成“复杂的项目信息管理系统”的这个软件上,确实不如国产文生软件平台码上飞CodeFlying。

Artifacts更多的是具有play的属性,而CodeFlying则是从解决真实需求和问题的角度生成应用。

效果我们姑且不论,就从时间维度上来看,码上飞早在半年前就已经推出了,而Claude3.5 Sonnet的Artifacts功能直到前几天才发布。

更不用谈Claude背后团队Anthropic所拥有的庞大资金与团队支撑。以ChatGPT Claude等为代表的大模型,几乎占据了全球AIGC市场的半壁江山。

我觉得我们还是有必要支持国人自己研发的平台,毕竟科技才是创新的唯一动力,而创新则是引领中国发展的第一动力。

未来码上飞CodeFlying,还会不断的丰富和拓展应用开发的场景,控制好产品的每一个细节,让码上飞成为AI软件开发领域的代名词!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/747691.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海思SS928/SD3403开发笔记1——使用串口调试开发板

该板子使用串口可以调试,下面是win11 调试 该板子步骤 1、给板子接入鼠标、键盘、usb转串口 2、下载SecureCRT,并科学使用 下载地址: 链接:https://pan.baidu.com/s/11dIkZVstvHQUhE8uS1YO0Q 提取码:vinv 3、安装c…

导航栏设计的5种类型,新手不容忽视的重要知识!

导航栏是网页设计中不可缺少的一部分。大多数用户在浏览网页时都是从导航栏开始的。导航栏的作用相当于路标和书籍中的目录,其重要性不言而喻。从设计的角度来看,网页导航栏的设计功能大于视觉效果。因此,网页导航栏的设计可以分为 5 类型&am…

STM32启动流程 和 map文件的作用

一,启动流程 1. 复位/上电 2. 根据 BOOT0/BOOT1 确定程序从哪个存储位置执行 3. 初始化 SP 及 PC 指针 将 0X08000000 位置的栈顶地址存放在 SP 指针中 将 0x08000004 位置存放的向量地址装入 PC 程序计数器 4. 初始化系统时钟 5. 初始化用户堆栈 6. 进入main函数 二…

考研数学复习(1/9):函数与极限

目录 函数与极限 1. 函数的概念 1.1 函数的定义 1.2 函数的表示方法 1.3 函数的分类 1.4 函数的运算 2. 极限的概念 2.1 极限的定义 2.2 极限的性质 2.3 极限的计算方法 2.4 极限的应用 3. 连续函数 3.1 连续函数的定义 3.2 连续函数的性质 3.3 连续函数的分类 …

ArcGIS实现不同地块分类与面积汇总

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 我们要做一个不同地块面积汇总! 你有一批地块,不同面积,我们需…

python 中面向对象编程:深入理解封装、继承和多态

在本章中,我们将深入探讨Python中的高级面向对象编程概念,包括封装、继承和多态。让我们开始吧! 目录 面向对象简介类和实例属性和方法继承和多态 高级面向对象概念私有变量使用 property使用 __slots__类的特殊成员__doc____call____str____…

MindSpore中NumPy变量转换为Tensor张量使用的Tensor.from_numpy()函数到底是深拷贝还是浅拷贝

在NumPy转换为Tensor使用的Tensor.from_numpy()函数到底是深拷贝还是浅拷贝 使用Tensor()将NumPy变量转换为Tensor变量。 类似数组转换张量的方法 n np.ones(5) t Tensor.from_numpy(n) print(f"t: {t}", type(t)) np.add(n, 1, outn) print(f"n: {n}"…

使用 LangServe 构建和部署 MinIO 支持的 LangChain Agent API

我们在LangChain的创新世界中的旅程揭示了其在转变数据管理和应用程序功能方面的强大能力。 通过之前的讨论,我们深入探讨了几个主题,同时探索了LangChain的复杂功能。在本文中,我们将以“使用 MinIO 赋能 Langchain 代理”中涵盖的概念为基…

postgres数据库的流复制

1. 流复制和逻辑复制的差异 逻辑复制和流复制最直观的不同是,逻辑复制支持表级别复制区分点事原理不同 逻辑日志是在wal日志产生的数据库上,由逻辑解析模块对wal日志进行初步的解析,解析结果是ReorderBufferChange(理解为HeapTup…

SpringBoot整合拦截器和日期转换器

一、SpringBoot整合拦截器 1.添加拦截器 package com.by.interceptor;import com.by.pojo.User; import org.springframework.stereotype.Component; import org.springframework.web.servlet.HandlerInterceptor;import javax.servlet.http.HttpServletRequest; import java…

BaseMapper 接口介绍

基于 mybatis-mapper/provider 核心部分实现的基础的增删改查操作,提供了一个核心的 io.mybatis.mapper.BaseMapper 接口和一个 预定义 的 io.mybatis.mapper.Mapper 接口,BaseMapper 接口定义如下: /*** 基础 Mapper 方法,可以在…

React useImperativeHandle Hook

useImperativeHandle Hook 是一个比较比较简单的 hook,为 ref 节点添加一些处理方法,下面是来自官网例子,为 ref 添加了两个方法。 import { forwardRef, useRef, useImperativeHandle } from react;const MyInput forwardRef(function MyI…

香港办公室顺利落地,量子之歌发布白皮书开启银发新篇章

6月25日,量子之歌香港办公室开业典礼暨《2023年中国中老年服务市场白皮书:银发经济,耀眼的黄金赛道》发布会于香港中环交易广场隆重开幕。 这一里程碑事件不仅彰显了量子之歌在银发经济领域的行业领军者风范,更凸显了其在专业服务…

一文了解自定义表单系统开源的多个优势

降本、提质、增效,是当前很多企业都想实现的目的。什么样的软件可以助力企业创造价值?低代码技术平台是近些年得到了很多客户喜爱的平台产品,因为它能帮助大家减少编程代码的撰写,能轻松助力各部门之间做好协调沟通工作&#xff0…

算法导论 总结索引 | 第四部分 第十六章:贪心算法

1、求解最优化问题的算法 通常需要经过一系列的步骤,在每个步骤都面临多种选择。对于许多最优化问题,使用动态规划算法求最优解有些杀鸡用牛刀了,可以使用更简单、更高效的算法 贪心算法(greedy algorithm)就是这样的算…

13.1 Go 反射(Reflection)

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

文本生成图像综述

本调查回顾了扩散模型在生成任务中广泛流行的背景下文本到图像的扩散模型。作为一份自成一体的作品,本调查首先简要介绍了基本扩散模型如何用于图像合成,然后介绍了条件或指导如何改善学习。基于这一点,我们介绍了文本到图像生成方面的最新方…

条码二维码读取设备在医疗设备自助服务的重要性

医疗数字信息化建设的深入推进,医疗设备自助服务系统已成为医疗服务领域的一大趋势,条码二维码读取设备作为自助设备的重要组成部分,通过快速、准确地读取条形码二维码信息,不公提升了医疗服务效率,还为患者提供了更加…

Flutter页面状态保留策略

目的: 防止每次点击底部按钮都进行一次页面渲染和网络请求 1. 使用IndexedStack 简单,只需要把被渲染的组件外部套一层IndexedStack即可 缺点: 在应用启动的时候,所有需要保存状态的页面都会直接被渲染,保存起来. 对性能有影响 2. 使用PageController 实现较为复杂,但是不用…

Biome-BGC生态系统模型与Python融合技术

Biome-BGC是利用站点描述数据、气象数据和植被生理生态参数,模拟日尺度碳、水和氮通量的有效模型,其研究的空间尺度可以从点尺度扩展到陆地生态系统。 在Biome-BGC模型中,对于碳的生物量积累,采用光合酶促反应机理模型计算出每天…