GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

目录

1 CriticGPT

01 综合性(Comprehensiveness):

02 幻觉问题(Hallucinates a problem):

2 其他 CriticGPT 案例


随着人工智能(AI)技术不断进步,AI在编程领域的应用取得了显著的成果。

通过使用自然语言处理(NLP)和机器学习(ML)技术,AI可以自动生成代码、检测错误并优化性能。

一个例子是OpenAI的Codex模型,它可以根据自然语言描述生成相应的代码片段,极大地提高了编程效率。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

CriticGPT

最近,OpenAI发布了一个名为CriticGPT的新模型,它是基于GPT-4训练的。CriticGPT专门用于审查由ChatGPT编写的代码,并捕捉其中的错误。

来看一下官网提供的例子,用户提交的需求是:

编写一个 Python 函数,该函数接受一个表示文件路径的字符串,并返回该文件的文件对象。禁止访问目录 "/safedir" 之外的文件。

GPT 给出了如下代码。

CriticGPT 提出了改进建议:

检查文件绝对路径是否在目录内时,使用 startswith() 存在安全风险。这是因为用户可以通过使用符号链接或类似命名的目录来利用漏洞。
 

为了增加安全性,建议使用 os.path.commonpath([absolute_file_path, absolute_safe_dir]) 或其他更健壮的路径包含方法来进行检查。

CriticGPT 能够帮助人类训练者在基于人类反馈的强化学习(RLHF)期间发现错误,并且使用 CriticGPT 的帮助,人类训练师在审查效果上比没有获得帮助的人强 60%。

下图展示了三种不同方法在编写批评性评论(critiques)时的表现比较:

  • Human(人类)
     
  • CriticGPT
     
  • Human + CriticGPT(人类 + CriticGPT)

01 综合性(Comprehensiveness):

用百分比表示批评意见的全面性。图表显示,与单独工作相比,当人类训练师使用 CriticGPT 时,他们提供了更全面的批评意见。

02 幻觉问题(Hallucinates a problem):

表示错误地识别问题的百分比,这个指标越低越好。图表显示,人类训练师在使用 CriticGPT 时,产生的幻觉错误比模型单独工作时更少。

OpenAI 正计划将类似 CriticGPT 的模型集成到其 RLHF 标记管道中,以提供更明确的 AI 帮助。

然而,目前 CriticGPT 还存在一些限制,例如它主要是通过 ChatGPT 进行短答案训练的,未来需要开发能够帮助理解冗长且复杂任务的方法。

此外,CriticGPT 偶尔会产生幻觉,导致训练师标记错误,而且在现实世界中的错误可能分散在答案的多个部分中,需要模型指出这些分散的错误。

对于极为复杂的任务或回应,即使是受到模型辅助的专家也可能无法正确评估。

2 其他 CriticGPT 案例

下图展示了如何编写一个安全的 Python 函数来返回指定路径的文件对象,同时确保文件在指定的安全目录内。

CriticGPT 提出了多项批评与改进建议,包括路径检查方法的安全性、文件打开模式的选择,以及错误处理的安全性。

如下是一段包含加密和解密函数的Python代码示例:

def encrypt(message, key):
    # 加密逻辑
    pass

def decrypt(ciphertext, key):
    # 解密逻辑
    pass

对于这段代码,CriticGPT提供了以下建议:

  • CriticGPT指出了代码中潜在的安全问题和逻辑错误,并强调了在加密和解密过程中验证消息完整性和真实性的重要性。

  • CriticGPT还提到了代码中处理错误的不足,特别是在处理字符串编码和解码时。

图表中指出“至少有一个此类评论来自于CriticGPT是一个幻觉错误”,即说明CriticGPT有时可能提供不准确或不相关的评论。


 如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard

推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/765281.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

产品设计的8大步骤

产品设计,通俗来说就是将创新想法或概念转化为落地实体的过程。一般来说,一个成功的产品应当具有创新性、美观性、实用性、可持续性以及经济效益,从而满足用户的使用需求以及市场的发展需求。产品设计也并不是一件简单的事情,产品…

STM32第十五课:LCD屏幕及应用

文章目录 需求一、LCD显示屏二、全屏图片三、数据显示1.显示欢迎词2.显示温湿度3.显示当前时间 四、需求实现代码 需求 1.在LCD屏上显示一张全屏图片。 2.在LCD屏上显示当前时间,温度,湿度。 一、LCD显示屏 液晶显示器,简称 LCD(Liquid Cry…

flex布局中子元素内容超出时,子元素本身出现滚动条实现方法

flex布局中子元素宽度平均分配,并且当子元素内容超出时,子元素本身出现滚动条实现方法: 将父元素设置为display: flex,以启用Flexbox布局。将每个子元素的flex属性设置为1,以使其宽度平均分配。设置子元素的overflow属…

CVE-2019-12272 Openwrt可视页面LuCi命令注入漏洞复现(完结)

声明 本文所使用的一些源代码等内容已经上传至github,具体地址如下 Vulnerability_POC-EXP/OpenWrt/CVE-2019-12272 at main a2148001284/Vulnerability_POC-EXP GitHub 漏洞简介 参考内容: CVE-2019-12272 OpenWrt图形化管理界面LuCI命令注入分析 |…

【吴恩达机器学习-week2】可选实验:使用 Scikit-Learn 进行线性回归

支持我的工作 🎉 📃亲爱的朋友们,感谢你们一直以来对我的关注和支持! 💪🏻 为了提供更优质的内容和更有趣的创作,我付出了大量的时间和精力。如果你觉得我的内容对你有帮助或带来了欢乐&#xf…

springboot项目jar包修改数据库配置运行时异常

一、背景 我将软件成功打好jar包了,到部署的时候发现jar包中数据库配置写的有问题,不想再重新打包了,打算直接修改配置文件,结果修改配置后,再通过java -jar运行时就报错了。 二、问题描述 本地项目是springBoot项目…

Git使用——首次创建本地仓库、配置、初始化、关联远程仓库

1、安装 Git软件 官网:git-scm.com 有时候官网打不开,这里留存个之前下载过的安装包: https://download.csdn.net/download/weixin_43908355/89502977 2、配置本地仓库 在准备建仓库的文件夹里,右键点击:Git Bash …

Cybervadis认证是什么?

Cybervadis认证是一种全面且深入的网络安全评估和认证服务,旨在帮助组织提高其网络安全实践的成熟度,并有效应对不断变化的网络威胁和攻击。以下是关于Cybervadis认证的一些关键信息: 认证目的: 评估和验证组织在网络安全方面的能…

HMI 的 UI 风格成就经典

HMI 的 UI 风格成就经典

SAR目标检测

Multi-Stage with Filter Augmentation 多阶段滤波器增强(MSFA) 对SAR合成孔径雷达目标检测性能的改善 MSFA ON SAR 传统方法: 预训练:传统方法开始于在通用数据集上预训练一个基础模型。 微调:这个预训练的模型会被微调以适应特定的SAR图像,试图缩小域间的差距 …

git命令含有中文,终端输出中文乱码的问题

目录 1、[当前代码页] 的936 (ANSI/OEM - 简体中文 GBK) 是导致中文乱码的原因 2、这样会导致什么问题呢? (1) 问题一: 【属性】选项的【字体】无法识别自定义文字样式,【默认值】选项可选自定义字体样式,却无法覆盖【属性】选项 (2) 问题…

AutoCAD Mechanical下载安装;Mechanical针对机械设计领域开发的CAD软件下载安装!

在AutoCAD Mechanical的助力下,用户能够轻松应对二维绘图与三维建模两大核心任务。二维绘图方面,软件提供了精准且灵活的绘图工具,使得工程师能够迅速勾勒出机械部件的轮廓与细节,大大提高了工作效率。 而在三维建模方面&#xff…

继承QAbstractListModel,结合QListView

这里想要写一个QAbstractListModel的子类&#xff0c;学习一下如何实例化QAbstractListModel。 QAbstractListModel子类化-CSDN博客 QVariant与自定义类型互转之奇巧淫技_qt 类型转 qvariant-CSDN博客 #pragma once#include <QStyledItemDelegate> #include <qmeta…

React+TS 从零开始教程(4):useEffect

上一节传送门&#xff1a;ReactTS 从零开始教程&#xff08;3&#xff09;&#xff1a;useState 源码链接&#xff1a;https://pan.quark.cn/s/c6fbc31dcb02 上一节&#xff0c;我们已经学会了React的第一个Hook&#xff1a;useState。 这一节&#xff0c;我们要学习的是另一…

聊聊etsy平台,一个年入百万的项目

聊聊etsy平台&#xff0c;一个年入百万的项目 什么是etsy,这是怎样一个平台&#xff0c;怎样盈利的&#xff1f;相信现在大家满脑子都是这些疑问。 这个平台也是无意间一个学员提到的&#xff0c;据说他朋友靠这个平台年赚好几百万。苦于门槛太高&#xff0c;他也做不了。今天…

乐鑫Wi-Fi单火线开关方案,传统开关智能升级,启明云端乐鑫一级代理商

随着智能家居技术的飞速发展&#xff0c;我们的日常生活正在变得越来越便捷。今天&#xff0c;我们要探讨的是一种创新的智能家居方案——Wi-Fi单火线智能开关。 传统的机械单火线开关虽然简单可靠&#xff0c;但在现代智能家居系统中显得力不从心。它们无法远程控制&#xff…

python实现简单的三维建模学习记录

课程来源与蓝桥云课Python 实现三维建模工具_Python - 蓝桥云课和500 Lines or LessA 3D Modeller 说明 个人估计这是一个值得花一个礼拜左右时间去琢磨的一个小项目。上述网址中的代码直接拿来不一定能跑&#xff0c;需要后期自己去修改甚至在上面继续优化&#xff0c;会在其…

Java 汉诺塔问题 详细分析

汉诺塔 汉诺塔&#xff08;Tower of Hanoi&#xff09;&#xff0c;又称河内塔&#xff0c;是一个源于印度古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱子&#xff0c;在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从下面开始按大小…

华为手机怎么打印文件?

关于华为手机打印的问题&#xff0c;如果您有打印机&#xff0c;并且已经成功和华为手机相连&#xff0c;在解决上就要容易很多。 具体操作如下&#xff1a; 选择文件 文件来源&#xff1a;华为手机上的文件可以来自多个应用&#xff0c;如图库、备忘录、文件管理等&#xf…

Python入门 2024/7/2 While

目录 while循环的基础应用 循环输出十次&#xff1a;键盘敲烂&#xff0c;月入过万 计算1~100的和 用while循环练习猜数字 while循环的嵌套应用 打印九九乘法表 输出不换行的功能 while循环的基础应用 格式&#xff1a; while 条件&#xff1a; 条件满足时&#xff0c…