制造Devin的公司,是一家叫Cognition的10人初创公司,才成立不到2个月。
一、引言
一家成立不到两个月但拥有十名天才工程师的初创公司Cognition,搞了一个引爆科技圈的大动作。
他们推出了一款名为Devin的人工智能(AI)助手,可以协助人类软件工程师完成诸多开发任务。Devin不同于现有其他AI助手(GitHub Copilot 等 AI 编程助手),它并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。
这是第一个真正意义上完全自主的AI软件工程师,一亮相即掀起轩然大波,因为人们担心:人类程序员是不是真要失业了?
二、Deven能力及特点
测试表现超过同辈
在 SWE-bench 基准测试(评估大模型解决 GitHub 真实问题的能力)中发现,Devin 在人类未协助时达到了 13.86% 的正确率,超过了 Claude 2(4.80%)、Llama、GPT-4(1.74%,此前的测试结果是 0%)。更重要的是,Devin在测试中没有得到任何帮助,而其他所有模型都需要帮助,即人们要准确告知模型需要编辑哪些文件。
这一进展,标志着AI在自主理解和解决软件开发问题方面取得了显著进步。目前,Devin已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。它可以从零构建网站、自行部署应用、学习新技术等,人类只需扮演一个下指令和监督的角色。
运作几乎完全自主
Devin的厉害之处,还在于可以规划和执行异常复杂的工程任务,这类任务通常需要数千个决策才能完成。在这之中,无论进行到任何一步,它都可以回调所有相关的上下文信息,保证任务的逻辑性,也便于随时校正。
更让人震撼的是,Devin不仅能帮人们解决代码,还囊括了与之相关的整个工作流。
譬如,当工程师需要设计一个网页游戏时,Devin首先能生成网页,接着还能完成服务端的部署,最后直接发布上线,省去了中间大量人工操作。甚至在发现漏洞之后,Devin还会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。
此外,作为一个AI全能助手,Devin还可以帮助人类训练和微调其他AI。对于一些常见的模型,你只需要提及模型的名称,Devin自己就知道要怎样去训练。
那人们需要做什么呢?按设想,最终的Devin会让人类只需要发号施令,其他什么也不用做。
它有哪些能力?
Devin 的主要特性有:
-
能学习使用陌生的技术。仅仅是读完一篇博客,就可以用 ControlNet 生成带有隐藏信息的图片。
-
端到端构建和部署应用。Devin 创建了一个模拟“生命游戏”的互动网站,它根据用户的需求逐步增加功能,然后将应用部署到 Netlify 上。
-
自主查找并修复代码库中的错误。
-
能训练并微调自己的 AI 模型,而这仅仅只需要一个 GitHub 研究库的链接。
-
能处理开源仓库中的 Bug 和功能请求。
-
能为开源项目做真正的贡献,修复 Bug、提交 PR。
Deven竟是由十人小公司开发?
Devin 背后的公司 Cognition AI ,该公司成立不到2个月,核心创始团队为3名华人由:Scott Wu(首席执行官)、Steven Hao(首席技术官)和 Walden Yan(首席产品官)组成,都是很早学编程的年轻新生代。Cognition的创始成员均曾在Scale AI 、Google 、DeepMind、Waymo等公司从事过AI前沿工作。
颇为吸睛的是,初创公司Cognition虽然只有十名员工,但他们手中却握着十块IOI(国际信息学奥林匹克竞赛)金牌。IOI 是国际信息学奥林匹克竞赛,基本是国内清北保送、天才少年的所在。
三、实际体验
Devin到底是一个漂亮的Demo,还是一个已经能替代程序员的智能体,使用体验怎么,拿到测试资格的网友第一时间分享了自己的体验。
在演示中,Devin几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。
但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。
一位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。
他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。
首先是让Devin做一个用API获取股票价格的软件,下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。
最终,小哥初步总结了用Devin开发的第一个网站的使用体验。
先说优点:
-
Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。
-
AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。
-
Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。
-
产品的完成度已经非常高了,远远超过了一般的演示Demo。
再说缺点:
-
Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。
-
其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。
-
当然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。
网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。
关于这里小哥具体的体验过程,参看:Devin第一手体验:开始编码就停不下来,但要替代程序员还很远
四、通过了面试,但不一定适合职场
首个AI程序员,已经实现了突破,目前的实际体验也许没有那么的优秀,但是再经过一段时间的发展,也许数十年后,上述问题都能得到解决,等到发展的相当成熟的时候,我们也不得不思考一个问题:它真的适合职场吗?
对于Deven是否适合职场,这是一个复杂且多角度的问题。从纯技术的角度来看,发展完善的Deven无疑展现出更强大的编程能力,能够快速、准确地完成编程任务。这使得它在某些特定的、高度技术化的职场环境中,可能表现出色。
然而,职场不仅仅是技术的竞技场,它更是一个涉及人际关系、团队协作、情感沟通等多方面因素的复杂系统。在这些方面,AI程序员如Deven目前还存在明显的局限性。它无法像人类一样进行深入的交流和沟通,无法理解和感受他人的情感和需求,因此在团队协作和人际关系处理上可能存在困难。
此外,职场中的很多决策并不仅仅基于技术因素,还涉及到战略、文化、价值观等多个方面的考量。这些都需要具备丰富经验和深厚洞察力的人类来做出判断。在这方面,AI程序员如Deven可能还无法完全替代人类。
因此,虽然Deven在技术上表现出色,但要说它完全适合职场可能还为时过早。毕竟,一个真正优秀的程序员不仅需要高超的技术能力,还需要具备良好的人际交往、团队协作和情感沟通能力。未来,随着AI技术的不断发展和完善,我们或许可以期待AI程序员在更多方面展现出其优势,但同时也需要认识到其局限性和挑战。在职场中,人类和AI的协作与互补可能将是一个更为现实和可行的方向。
五、结束语
此前面对 GPT 编程时,在《新程序员 007:大模型时代的开发者》中,我们提到,GPT 的编程能力我们需要有着很大的敬畏,但彼时,GPT 并不能独立解决完整的真实编程任务。
而现在,Cognition AI 这家此前从未听闻的公司,一群年轻人,创造了这样一款产品,让 AI 编程实现了一个巨大的飞跃。同济大学特聘教授朱少民表示,“看完 Devin 让我很是震撼,AI 编程比我们预想得要快,只会写代码的程序员下岗的可能性越来越大。”
自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。
因此,尽管Deven在技术上取得了令人瞩目的成就,但我们也不能盲目地认为它就是职场的完美选择。在未来的发展中,我们或许可以期待AI在编程领域取得更大的突破,但同时也需要关注它在职场中的适应性和局限性。