开源AI程序员SWE-Agent的实现方法

1 引子

前几天,AI 编程机器人 Devin 引起了热议。传言称:程序员的饭碗就要丢了。这两天,一个类似功能的产品 SWE-Agent 开源,在 SWE-Bench 上实现了与 Devin 类似的效果。下面让我们来看看 AI 程序员的具体实现方法。

2 信息

  • 地址:https://github.com/princeton-nlp/SWE-agent
  • 功能:修复 Github 库 Issue 中的问题。

3 原理

作者提出了:Agent-Computer Interface (ACI) 代理计算机接口。优化了 Agent 与计算机之间的衔接,使LLM 能够访问、查看、编辑和执行代码文件

贡献如下:

  • 添加了编辑时运行命令的 Linter,如果语法不正确,则不允许编辑命令通过。
  • 为 Agent 提供了文件查看器,在每个回合只显示 100 行时,查看器效果最佳。作者构建的查看器支持上下文滚动,并且可以在文件中进行搜索。
  • 为 Agent 提供了专门构建全目录字符串搜索命令,并发现以简洁的方式列出匹配项很重要。因为每次向模型展示每个匹配项反而会给模型带来更大混乱。
  • 当命令的输出为空时,将返回一条消息指出:命令已成功运行,但未产生任何输出。

4 安装使用

PLAINTEXT

1
2
3
4
$ git clone https://github.com/princeton-nlp/SWE-agent
$ cd SWE-agent
$ ./setup.sh # 安装 docker 环境,用于Agent调试程序,image 不到 1G。
# 运行方法详见 README.md

在运行时,将 github issue 地址提供给推理工具,该工具将尝试解决问题。setup.sh 文件创建了一个简单的运行环境,Agent 可以在此修改和调试程序,而不会影响宿主机环境。有关与 docker 的交互,请参见下面的代码分析部分。

5 代码分析

整个项目包含 3500 行 Python 代码和 700 行 Shell 代码。其中核心部分是 sweagent 目录下的 2200 行 Python 代码。每个重要的地方都有 README 文件,非常贴心。

可能是由于代码场景与聊天场景存在明显差异,因此未使用 langchain 等库,并且依赖的库数量较少。上下文和记忆主要是自己实现的。这里主要关注作为“接口”时 Agent 如何与环境进行交互。似乎所有交互都在 sweagent 目录实现。

  • sweagent/evviroment
    • swe_env.py:主要是与 docker 环境交互,以操作 shell 命令为主;flake8 检查代码;好像是用 popen 方式实现了与 docker 内部更为复杂的交互操作。
    • utils.py:操作 docker 的工具函数。
  • sweagent/agent 则是与大模型交互部分
    • agents.py:主调入口,调用编辑器,运行代码的程序,其中 Agent 为核心类。
    • models.py:底层支持 gpt,claude, llama 等多种 LLM。
    • command.py:运行命令。
    • parsing.py:解析 LLM 返回结果。
    • history_processors.py:记录执行历史。

6 观后感

之前对 agent 与系统交互只有个模糊的概念,从 SWE-Agent 代码里可以看到具体的实现方法。

公平地说,GitHub issue 中有些问题并不容易解决,因为涉及到复杂的运行环境和前后操作,以及只能在特定条件下才能复现,而 SWE-Bench 相对简化了这些问题,提供了评测的基线,内眼可见最近 AI 在这个领域进步,进一步证明了大型模型的能力,并指明了未来努力的方向。

不过 GitHub 上那些受欢迎的代码通常适用于各种情况,而大多数程序员每天面对的只是固定环境和较小规模的代码。所以他解决我们日常问题可能也够用了。

从 SWE-Agent 中可以看到,并非一定需要颠覆性改变,而是通过解决关键性问题、进行小改进以及多次尝试所积累的经验方法,加在一起效果就是好。

展望一下:参考 RAG 到 RAG2.0,通过微调模型来优化搜索的方法。后面 Agent 用得多了,大概也会关注通过微调模型让 Agent 更好工作的逻辑。见前文:强化学习+大模型_总结篇;另外,在看 Devin 介绍视频的时候,还看到一些 Devin 连网搜索资料和操作浏览器的功能。最近也有很多人在跟进这方面的研究,估计后面也会成为一个热点。

对于程序员和设计者来说,后面可能也面临角度的转换:可能不只关注如何实现一个完整的系统,更多地关注如何将各种功能包装成高内聚的模块,并且做好接口和文档,以便将其与 Agent 集成到更大的系统中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/525988.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis(字典hash表)

字典也可以称为Map、关联数组、映射、符号表。字典表在C语言中没有实现,所以Redis知己实现了字典。 在字典中一个key对应一个value。key是唯一的。这些关联的键和值称为键值对。 ​ 字典的应用非常广泛,Redis数据库的底层实现就是字典,对数据…

vue+springboot多角色登录

①前端编写 将Homeview修改为manager Manager&#xff1a; <template><div><el-container><!-- 侧边栏 --><el-aside :width"asideWidth" style"min-height: 100vh; background-color: #001529"><div style"h…

程序汪10万接的垃圾回收小程序,开发2个月

本项目来自程序汪背后的私活小团队&#xff0c;开发了一个垃圾回收小程序里面涉及物联网&#xff0c;给粉丝分享一下解决方案&#xff0c;希望给想接私活的朋友一些经验参考 程序汪10万接的垃圾回收小程序&#xff0c;开发2个月 视频版本 在 B站【我是程序汪】 目录 一、项目构…

怎么用3D渲染效果图?

3D渲染效果图是一种通过计算机软件生成的三维图像&#xff0c;它模拟了物体在真实世界中的外观和感觉。这种图像通常用于展示建筑设计、室内设计、产品设计等项目的最终效果。通过3D渲染效果图&#xff0c;我们可以更直观地展示和展示我们的创意和想法。那么怎么用3D渲染效果图…

【javaWeb 原理篇】底层实现原理(快速学习配置原理,Bean管理)

Spring底层 配置优先级Bean管理获取beanBean的作用域第三方Bean SpringBoot原理起步依赖自动配置自动配置的原理自定义starter 配置优先级 Spring中的配置文件如果配置了相同的内容则根据配置优先级进行配置: application.properties>application.yml>application.yaml …

【IMU系列】什么是传感器的ODR和FSR实际如何配置传感器

使用更高的ODR信号有两个主要缺点&#xff1a;内存限制和功耗 以实际传感器为例

LeetCode题练习与总结:螺旋矩阵Ⅱ--59

一、题目描述 给你一个正整数 n &#xff0c;生成一个包含 1 到 n^2 所有元素&#xff0c;且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1&#xff1a; 输入&#xff1a;n 3 输出&#xff1a;[[1,2,3],[8,9,4],[7,6,5]]示例 2&#xff1a; 输入&#xff1…

Redis: 配置文件详解(Redis.conf)

文章目录 一、Units二、INCLUDES三、NETWORK四、GENERAL五、SECURITY六、LIMITS 一、Units 单位&#xff0c;配置大小单位&#xff0c;开头定义了一些基本的度量单位&#xff0c;只支持bytes&#xff0c;不支持bit&#xff0c;大小写不敏感 二、INCLUDES 包含&#xff0c;多…

Linux 学习之路 - 进程篇 - PCB介绍1-标识符

目录 一、基础的命令 <1> ps axj 命令 <2> top 命令 <3> proc 目录 二、进程的标识符 <1>范围 <2>如何获取标识符 <3>bash进程 三、创建进程 一、基础的命令 前面介绍了那么多&#xff0c;但是我们没有观察到进程相关状态&#x…

设计模式之责任链模式讲解

概念&#xff1a;使多个对象都有机会处理请求&#xff0c;从而避免了请求的发送者和接收者之间的耦合关系。将这些对象连成一条链&#xff0c;并沿着这条链传递该请求&#xff0c;直到有对象处理它为止。最匹配的场景应该就是逐层审批的模式。 责任链模式只有两个角色&#xff…

JUC:ThreadPoolExecutor线程池的使用方法

文章目录 ThreadPoolExecutor线程池状态构造方法Executors 工厂方法newFixedThreadPoolnewCachedThreadPoolnewSingleThreadExecutor 提交任务方法关闭任务方法 ThreadPoolExecutor 线程池状态 线程池用高三位表示状态&#xff0c;第一位为符号位。 TERMINATED > TIDYING …

若依ts版本(vue3+element plus+ts)

1、项目简介 本项目参考若依前后端分离版&#xff0c;前端由[若依vue3]改写为ts版本[ruoyi-web-vue3-ts]&#xff0c;后端对[若依V3.8.7]进行了修改[后端版本分支vue3.ts.3.8.7]&#xff0c;具体文档参见[若依官方文档]。本项目对部分代码做了优化&#xff0c;增加了activiti7…

【随笔】Git 高级篇 -- 提交的技巧(上) rebase commit --amend(十八)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

本地电脑渲染不行怎么解决?自助式渲染助你渲染无忧

有时候&#xff0c;即使购买了昂贵的新电脑&#xff0c;我们也可能会遇到渲染速度缓慢、画质不佳或渲染失败等问题。这些问题可能由多种因素引起。针对该问题&#xff0c;为大家推荐了自助式的渲染&#xff0c;解决你本地电脑渲染不佳问题。 电脑渲染不行原因 新电脑渲染效果不…

电影特效渲染为什么费时间?「瑞云渲染」

影视特效渲染过程通常耗时且资源密集&#xff0c;因为它涉及处理复杂的视觉元素和光影效果。瑞云渲染通过云技术提供解决方案&#xff0c;加快渲染速度并降低成本。简而言之&#xff0c;电影特效渲染之所以费时&#xff0c;是因为其对计算机资源的高需求。 电影特效渲染费时间原…

vs2017离线安装(配合QT5.9.2使用)

以vs2017_Professional版本为例&#xff1a; 一、下载安装包vs2017_Professional.exe&#xff08;在线安装包即可&#xff09; 二、创建在目录&#xff1a;C:\vs2017_Professional_Package&#xff0c;把vs2017_Professional.exe放在该目录下。 ID&#xff1a; Microsoft.Vis…

HCIP-Datacom(H12-821)题库补充(4月7日)

最新 HCIP-Datacom&#xff08;H12-821&#xff09;完整题库请扫描上方二维码访问&#xff0c;持续更新中。 在PIM-DM中&#xff0c;路由器会为被裁剪的下游接口启动一个剪枝定时器&#xff0c;定时器超时后接口就会恢复转发。默认情况下该定时器是多少秒&#xff1f; A&#x…

CASA模型教程

原文链接&#xff1a;CASA&#xff08;Carnegie-Ames-Stanford Approach&#xff09;模型教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247600635&idx6&sna655a8de570edcaa435d6e917b66d9b3&chksmfa82081ccdf5810a33a778e8771bb116bde9e5a1f795da…

共生共舞的期货黄金和现货黄金

期货黄金&#xff0c;作为一种在金融市场上备受关注的投资工具&#xff0c;其价值与价格走势深受现货黄金市场的直接影响和联动。期货黄金交易&#xff0c;本质上是投资者对未来某一特定时间内黄金价格的预期进行押注&#xff0c;而这背后的逻辑支撑和价格基准正是现货黄金市场…

Mysql底层原理十一:Mvcc

为什么要mvcc&#xff1f; 提高并发度&#xff0c;如果读和写都是通过加锁的方式&#xff0c;并发肯定上不来&#xff0c;通过mvcc来实现写通过加锁&#xff0c;读通过mvcc readView机制 3.9.1 Undo版本链 再重复一遍&#xff0c;页面中的记录存放在用户表空间的数据页中&a…