新火种AI|Devin再次震撼谷歌!但却是以被质疑造假的方式...

作者:小岩

编辑:彩云

我们常说有人的地方就有江湖,就会存在炒作,扒皮和虚伪。没想到,到了人工智能这里,也是一样。

4月9日,一位自称有35年软件工程师经验的网络博主卡尔逐帧复现了人工智能软件师Devin的演示视频,并据此提出4点质疑。他认为Devin所展示的编程能力存在一定欺骗性,并且“所处理的任务并非随机,而是演示者精心选择的刻意呈现”。

这个Devin极其特别,被称为“全球首个AI人工智能软件师”,它被质疑造假,这件事足以震惊整个硅谷,乃至全球AI领域。

细扒全球首个AI程序员的上线经过...

我们先来了解一下Devin的来历。

Devin是由Cognition Labs于今年3月12日发布的一项AI编程产品,它最大的宣传点是“全球首位AI工程师”。

主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。具体来说有6大功能:端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;自主查找并修复bug;训练和微调自己的AI模型;修复开源库;为成熟的生产库做贡献;超强学习能力,实时补足知识和能力短板。Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题。

这个数据看似平平无奇,但其实已经超过了此前所有AI大模型的成绩。要知道,目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。

Cognition Labs始终没开放公测,但陆陆续续给出了一些内测名额。耐人寻味的是,很多人在当时上手体验过了,还给出了很高的评价。譬如热衷AI的沃顿商学院教授Ethan Molick试过后就大大赞赏了Devin,认为其新颖的实时交互方式是最值得关注的。他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站,随后透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

被认为是炒作!所谓专业实力,不过是“自导自演”。

可反转就这么毫无预兆的出现了。

在Cognition官网发布的长达1分50秒的演示视频里,Devin只需一句指令,就能实现端到端地处理整个开发项目。视频中还表示,它具备自主学习新技术,端到端构建和部署应用,自主查找以及修复代码问题等方面的能力。此外。,Devin还可以按照用户需求同时执行多步骤工作流程,程序员们可以实时观察其进度,发现错误时,跳出指令就能修正。

但博主卡尔却站出来质疑,认为这些宣传是不实的。Devin在操作过程中看似修复了许多问题,但这些问题很多都是Devin的“自导自演”。他认为,在上述演示视频的2.936秒处,屏幕左上角显示“他们搜索过这个任务”,这意味着演示视频中Devin处理的任务并非随机,而是演示者选择的,甚至还出现了“自己现写bug然后当场修复”的骚操作。

除此之外,Devin还有很多其他的槽点:譬如号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,简直是在做无用功。或者看起来在修复bug,但是这些bug毫无意义,因为真正的人类程序员根本就不会犯那种错误。还有些时候,Devin就是在做没有意义的事情,很多事情简单两步就能搞定,但它却花里胡哨的一顿操作,把简单的问题复杂化。

至于Devin修改代码的真实水平,也只能说是一言难尽。在演示视频中,Devin花费了足足6个小时才完成了任务,而这些内容,博主卡尔仅用了半个多小时就完成了。

大瓜激起千层浪!专业人士普遍认为:博主的质疑有理有据。

博主卡尔的质疑在圈内引起了极大的热度和热烈的讨论,这件事在推特和YouTube的热度居高不下,成为了网友们争论的焦点。

一个月前,Devin的诞生成功引起了整个AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背后所承载的影响力也是深远的。要知道,Devin背后的公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

Cognition AI背后的团队成员共10人,核心团队共有3人,分别是Scott Wu,Steven Hao和Walden Yan,团队非常年轻。全体成员共拥有10枚国际信息学奥林匹克竞赛(IOI)金牌,很多成员在青少年时期也参加过信息学国际奥林匹克竞赛等。在发布“全球首个AI程序员Devin”这一信息后,Cognition AI备受外界关注。公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。一旦造假事件落下实锤,所能带来的后坐力无疑是巨大的。

对于博主卡尔的质疑,网络上的口径大多是站在了博主一边,很多网友都对Devin的造假嗤之以鼻。有人还调侃,“Devin至少掌握了看起来很忙的技巧”,很多专业人士也认为卡尔的质疑有理有据。

仔细复盘一下,大家会发现Devin和Cognition AI的疑点早已存在。直到今天Devin 都没有开放使用,只能通过邮箱提交申请。所以,外界对Devin的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价,很少有人有机会可以对其进行真正的体验和测评。

所以,我们有理由相信,从呈现出的结果来看,Devin的确有虚假炒作,过度包装的嫌疑。如果是头部巨头发布新产品新工具,诸如微软Copilot这样的,都会提供充足的上下文。Devin显然没有做到,甚至连对程序的逻辑理解都不到位。

但从另一个角度来说,AI程序助手的发展经历阵痛和挫折在所难免,我们不能因此就质疑整件事情的意义。Devin的功能固然被虚假夸大了,但这并不能否认AI编程的发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作,甚至可以脱离一名真正程序员的帮助,能减少大量不需要创新的重复劳动,例如批量修改代码的命名风格,代码的依赖关系等。程序员们依然需要各类代码辅助工具的帮助,这是大势所趋。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/570275.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

09—DOM和BOM

一、DOM 1、HTML DOM (文档对象模型) 文档对象模型(Document Object Model,DOM)是表示和操作HTML和XML文档内容的基础API。当网页被加载时,浏览器会根据DOM模型,将结构化文档(比如HTML和XML)解…

2024年低碳技术与污染控制技术国际学术会议(ICLCTPCT 2024)

2024年低碳技术与污染控制技术国际学术会议(ICLCTPCT 2024) 2024 International Conference on Low carbon technology and pollution control technology 一、【会议简介】 2024年低碳技术与污染控制技术国际学术会议,是交流科研成果的绝佳平台。 这次会议将汇集世…

Python 高质量类编写指南

原文:https://www.youtube.com/watch?vlX9UQp2NwTk 代码:https://github.com/ArjanCodes/examples/tree/main/2023/classguide Python 高质量类编写指南 我们将通过一些方法增加类的可读性和易用性。 通过(按照属性或行为)拆分类…

大模型检索召回系统:RAG技术的全面调查与未来展望

随着人工智能技术的飞速发展,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著成就。然而,这些模型在处理特定领域或知识密集型任务时仍面临挑战,如产生错误信息或“幻觉”。为了克服这些难…

docker-compose搭建redis环境:哨兵模式(一主两重两哨兵)

文章目录 0.BG1. 编写docker-compose.yml文件2. 哨兵配置文件sentinel.conf3.启动容器4.模拟故障转移 0.BG redis环境有多中模式,包括Standalone,Cluster和Sentinel模式等。这里介绍一种简单搭建Sentinel模式的方法,搭建一个一主两重两哨兵的…

做视频号小店一年半,内部玩法曝光,今日全盘托出

大家好,我是电商笨笨熊 腾讯推出电商的消息一出来,就成为了电商界的又一关注点; 不少人称腾讯做电商不会长久,也有人称视频号小店必将成为未来电商黑马; 无论是哪种说法,视频号小店我先替大家做了一年半…

进程状态和优先级(进程第2篇)【Linux复习篇】

目录 一、进程状态 1、进程有什么状态? 2、 Linux下的进程状态有什么? 二、进程优先级 1、进程优先级是什么? 2、为什么要有优先级 3、怎么改进程优先级?要改吗? 4、操作系统如何根据优先级开展调度的&#xff…

使用原型学习和特权信息进行可解释的医学图像分类

Interpretable Medical Image Classification Using Prototype Learning and Privileged Information 摘要 .可解释性通常是医学成像的基本要求。需要先进的深度学习方法来满足这种对可解释性和高性能的需求。 本文研究了训练过程中可用的其他信息是否可用于创建易于理解且强…

DS32K查看内置寄存器数值

需要在debug的时候进行查看,先暂停,再打开EmbSys Registers窗口。 需要先将导出的内容选中并双击,不然复制出来会变成问号。右上角有个复制按钮,复制到剪贴板就行。譬如我这里选择了MCR寄存器,复制出来的就是这个寄存器…

Redis入门到通关之Redis数据结构-List篇

文章目录 ☃️概述☃️数据结构☃️源码☃️其他 欢迎来到 请回答1024 的博客 🍓🍓🍓欢迎来到 请回答1024的博客 关于博主: 我是 请回答1024,一个追求数学与计算的边界、时间与空间的平衡,0与1的延伸的后端…

七分钟“手撕”三大特性<多态>

目录 一、学习多态之前需要的知识储备 二、重写 1.什么是重写 2.重写可以干嘛 3.怎么书写重写 4.重载与重写的区别 三、向上转型 1.什么是向上转型? 2.向上转型的语法 3.向上转型的使用场景 四、多态是什么 六、多态实现 七、多态的好处 八、多态的缺…

程序员过了35岁没人要?“这行越老越香”

程序员35岁失业?参加完OceanBase开发者大会,我又悟了! 周六参加了OceanBase2024 开发者大会的现场,来之前我其实挺忐忑的,我觉得一个数据库产品的发布会,能有什么新鲜的东西? 踏入酒店的那一刻&…

经风靡全球的 PHP 为何逐渐失去优势?

TIOBE 编程语言人气指数发布更新,并提出“PHP 的魔力是否正在消散?”的灵魂拷问。今年 4 月,PHP 在 TIOBE 编程语言指数榜上仅位列第 17,“成为其有史以来的最低排位”。 暴露 PHP 人气急剧下滑的还不只是 TIOBE 榜单。在年度 Sta…

MP4转gif如何操作?一个常见方法分享

MP4是一种视频格式,而gif则是图片格式。当我们需要将MP4格式的时候转成gif格式图片的时候要怎么操作呢?怎样在不下载软件的情况下在线转换格式呢?很简单,通过使用gif图片制作(https://www.gif.cn/)工具-GIF…

Android开发者必备:RootEncoder引领实时流媒体传输革新

Android开发者必备:RootEncoder引领实时流媒体传输革新 I. 引言 A. RootEncoder简介 RootEncoder for Android(rtmp-rtsp-stream-client-java)是一个功能强大的流编码器,旨在通过多种协议(包括RTMP、RTSP、SRT和UDP…

VR全景创业项目应该如何开展?未来有市场吗?

伴随着5G网络的发展,VR全景得到了众多的关注和提升。与此同时,各行各业都开始关注自身产业在互联网的展示效果,因为年轻一代的生活已经离不开互联网,而VR全景在互联网上的3D展示效果能给商家带来流量,提升营业额。 随着…

ERROR: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

今天本来想在A服务器上传文件给B服务器的结果发现明明给root用户设置了密码就是远程登陆不了,后来才发现在容器中很多服务都是没有的,所以刚安装后忘记了修改配置文件,导致远程登陆失败。 报错: 解决方法: 在/etc/ssh…

【电控实物-infantry】

云台电机参数 电机内部参数 相电阻:Rs1.8欧 相电感:Ls5.7810^-3H 转矩常数:Kt 0.741 NM/A 转动惯量:J KG-m^2 电机接收数据:-16384到16384(-3A到3A) 电机反馈:速度RPM rad/s (2πrpm)/60 C板陀螺仪&…

苍穹外卖学习笔记(9.订单状态定时处理,来电提醒,客户催单)

目录 一、订单状态定时处理1、需求分析设计2、代码开发3、测试 二、来单提醒1、需求分析设计2、代码开发3、测试 三、客户催单1、需求分析设计2、代码开发3、测试 四、相关知识1、Spring Task2、WebSocket 一、订单状态定时处理 1、需求分析设计 2、代码开发 创建orderTask类…

初学若依笔记

初学若依 下载ruoyi(以前后端分离板为例) https://ruoyi.vip/ 部署 安装mysql安装redis将数据库和redis配置到若依 配置文件为 ruoyi-admin\src\main\resource\application-druid.yml 运行 略 开发自己的功能 创建模块 为了不影响原有功能,创建一个模块写自…