姚班带队OpenCSG,超越Devin,创造大模型编程领域新纪录

摘要

来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent,以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜,取得了全球第二名的成绩,同时创造了非GPT-4o基模的最高纪录(SOTA)。

SWEBench评测高度贴近真实编程场景,难度极高。不仅要求模型能理解需求、协调多个函数/类,乃至文件的变更,还要求模型能够与执行环境交互,处理超长上下文信息,并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

01  Devin - 大模型编程的创新

2024年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然伴随着一系列争议,但Devin本身强大的创新能力和巨大潜力,带给众多AI爱好者和从业者新的期待。Devin不仅能够轻松解决编码任务,还能自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

02  大模型编程的真实挑战

为什么Devin敢于挑战GPT4等基础模型的编程能力呢?核心在于软件工程师的工作并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景,普林斯顿大学提出了SWEBench(https://arxiv.org/abs/2310.06770),这是一种量化评估端到端代码生成能力的工具。GPT-4在SWEBench上的评分仅有1.74%,即使加上RAG技术,其评分也不到3%。这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。3月份,Devin以独立解决13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域,这项记录被连续改写。

截止2024年4月底,最好的记录是由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。较为遗憾的是,相较于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战鲜少有中国公司参与,直到这一次OpenCSG改写了这一记录。

03  中国创业公司的突破

近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名。该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩,同时也创造了非GPT4-o基模的历史最高纪录(SOTA)。

OpenCSG成立仅一年,是一个有着深厚开源及大模型复合经验的团队:CEO陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司;CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验;公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。这样一支团队是如何打造出新的记录的呢?

04  新纪录,模型+Agent齐发力

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化。

  • Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。

  • 算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

05  StarShip的星辰大海

如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位,OpenCSG CEO陈冉表示:“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。” 

CTO王伟表示这条路径充满挑战但非常有趣:“从第一性原理来看,大模型对于生产力的提升已经不是'是'或者'否'的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

06  高产团队,聚沙成塔

除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品凭借其精准的地位,在业内颇受好评。此外,这些产品的快速推出与迭代,既满足了当前的市场需求,同时也为了一个更远大的目标:让大模型赋能每一个企业每一个人。

OpenCSG CEO陈冉表示:“让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGHub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。”

07  拥抱开源,超越开源

OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至还实现了平台开源。

“我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。”CTO王伟总结道。

“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/664994.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leecode---动态规划--爬楼梯 / 杨辉三角

爬楼梯题目: 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 思路: 设跳上 n 级台阶有 f(n) 种跳法。在所有跳法中,青蛙的最后一步只有两种情况: 跳上…

java多态——向下转型

引入 前面我尝试了一下这个代码 package b;public class main_ {public static void main(String[] args) {//向上转型,父类的引用转向了子类的father_ animalnew graduate();Object objnew graduate();System.out.println(animal.name);System.out.println(obj.n…

【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口

【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口 文章目录 【验证码识别】Yolov8入门到实战点选验证码数据集分类训练,孪生训练,导出onnx,搭建部署接口声明一、标…

冯喜运:5.31晚间黄金原油行情还会跌吗?独家操作策略建议

【黄金消息面分析】:在金融市场的波动中,黄金作为传统的避险资产,其价格走势一直受到投资者的密切关注。周五(5月31日),现货黄金小幅波动,目前稳定在2340美元关口上方。美国核心PCE通胀数据作为美联储的首选通胀指标&a…

【力扣】LCR 130. 衣橱整理

一、题目描述 二、算法思路 这是⼀道非常典型的「搜索」类问题。 我们可以通过「深搜」或者「宽搜」,从 [0, 0] 点出发,按照题目的要求(选择 向右移动一格 或 向下移动一格,但不能移动到衣柜之外 )一直往 [m - 1, …

Nuxt3项目实现 OG:Image

目录 前言 1、安装 2、设置网站 URL 3、启用 Nuxt DevTools 4、创建您的第一个Og:Image a. 定义OG镜像 b. 查看您的Og:Image 5、自定义NuxtSeo模板 a. 定义 NuxtSeo模板 b. 使用其他可用的社区模板 6、创建自己的模板 a. 定义组件 BlogPost.vue b. 使用新模板 c.…

Tuxera Ntfs For Mac 2023的具体使用方法

大家都知道由于操作系统的原因,在苹果电脑上不能够读写NTFS磁盘,但是,今天小编带来的这款tuxera ntfs 2024 mac 破解版,完美的解决了这个问题。这是一款在macOS平台上使用的磁盘读写软件,能够实现苹果Mac OS X系统读写…

视频汇聚EasyCVR平台GA/T 1400视图库应用:助力社会治安防控效能提升

在信息化、智能化的时代浪潮下,公安视频图像信息应用系统的发展与应用显得尤为重要。GA/T 1400标准,全称为《公安视频图像信息应用系统》,作为公安行业的一项重要标准,其视图库的应用在提升公安工作效能、加强社会治安防控等方面发…

数据结构 | 二叉树(基本概念、性质、遍历、C代码实现)

1.树的基本概念 树是一种 非线性 的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。 把它叫做树是因 为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。 有一个特殊的结点,称为根…

社交媒体数据恢复:云信Demo

一、准备工作 登录您的网易云信demo账号,确保您具有管理员权限。 确认您要恢复的数据类型,例如聊天记录、文件传输记录等。 确保您熟悉网易云信demo的后台管理界面和功能。 二、数据备份 在进行数据恢复之前,请先备份您现有的数据&#…

python移动文件

测试1(直接把B文件夹移动到了A里,成为了A的子文件夹) import os import shutil# 移动文件夹,B文件夹在当前目录没有了,跑到了A的子文件里 ## shutil.move(./example1/B/, ./example1/A/)测试2(B文件不动,将B文件里的所有的子文件夹移动到A内…

DuDuTalk:营业厅智能质检终端在通信运营商线下营业厅应用价值

在通信行业日益竞争的今天,线下营业厅网点是企业与客户互动的黄金触点,但由于缺乏有效管控和人员能力素质的层次不齐,如何提升线下营业厅的服务质量、提高运营效率,成为各大通信运营商亟待解决的问题。 在此背景下,我…

深入理解路由与视图函数绑定:从装饰器到Flask实战

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:装饰器在路由绑定中的应用 二、Flask中的add_url_rule()方法 示例代码…

优思学院|作为质量工程师,需要考哪些证书?别浪费你的气力,一张就够!

质量工程师做什么呢?他们的主要任务就是确保产品和服务的质量,以满足客户需求并超越竞争对手。尽管市场上有各种各样的质量管理认证,但优思学院认为,专注于六西格玛的学习和认证就足够了。 为什么选择六西格玛? 第一…

Unity 实现让物体渲染在最前面

演示 实现方案 1.创建一个shader脚本 2.删掉原来的内容:我们自己写 附上完整的shader代码: Shader "Custom/ZTestAlways" {Properties {_Color ("Color Tint",Color) (1,1,1,1)_MainTex("Main Tex",2D) "white&q…

obsidian zotero 联动方案 配置记录 by ZotLit Zotero style

前言 Obsidian 和 zotero 都是非常好用的开源软件,两个软件能做到无缝联动也是很多人的想法,文献笔记可以丝滑的放进 obsidian 中,那多好,网上有很多教程,但能够一步到位讲清楚的很少。我也踩了很多坑才完成部署&…

网络四层、七层协议

一、OSI七层模型 物理层:建立、维护、断开物理连接。 数据链路层:逻辑连接、寻找硬件地址——地址解析协议:ARP、PARP 反向地址转换协议 网络层:寻找逻辑地址,实现不同网络之间的路径选择——ICMP(互联网控制信息协议…

【开源】渔具租赁系统 JAVA+Vue.js+SpringBoot+MySQL

目录 一、项目介绍 1.1渔具档案模块 1.2渔具租赁模块 1.3渔具归还模块 1.4在线留言模块 二、项目截图 三、核心代码 一、项目介绍 Vue.jsSpringBoot前后端分离新手入门项目《渔具租赁系统》,包括渔具档案模块、渔具租赁模块、渔具归还模块、在线留言模块和部…

西藏大学计科改考11408!西藏大学计算机考研考情分析!

西藏大学(Tibet University),简称藏大,是西藏自治区所属的综合性大学,是列入教育部直属高校序列的教育部与西藏自治区人民政府合建高校,国家“211工程”重点建设大学,国家“双一流”世界一流学科…

小角楼是怎样成为清廷御酒的?

执笔 | 扬 灵 编辑 | 古利特 “酒史千年远,酒花百代香,天府多佳酿,美酒驻平昌。” 对四川省巴中市平昌县而言,白酒是经济发展的重要产业之一,好山好水出好酒,优良的地质、水源、气候、土壤等条件以及悠久…