ChatGPT成为“帮凶”:生成虚假数据集支持未知科学假设

ChatGPT 自发布以来,就成为了大家的好帮手,学生党和打工人更是每天都离不开。

然而这次好帮手 ChatGPT 却帮过头了,莫名奇妙的成为了“帮凶”,一位研究人员利用 ChatGPT 创建了虚假的数据集,用来支持未知的科学假设。

图片

让我们看看这究竟是怎么一回事吧。

ChatGPT生成虚假数据集支持科学假设

在11月9日发表在《美国医学会眼科杂志》杂志上的一篇论文中,论文作者使用了GPT-4与高级数据分析(ADA)配对,并结合Python进行统计分析和创建数据可视化。研究表明,AI生成的数据比较了两种外科手术方法的结果,并错误地表明其中一种治疗方法比另一种更好。

图片

该研究合著者表示,你可以在几分钟内创建一个不受真实原始数据支持的数据集,而且与现有证据相反。”

AI制造令人信服的数据的能力增加了研究人员和期刊编辑对于研究诚信的担忧。加利福尼亚州旧金山的微生物学家和独立研究诚信顾问Elisabeth Bik表示:

“生成式AI之前可以用来生成无法通过抄袭软件检测出来的文本,但能够创建虚假且逼真的数据集是一个更高级别的担忧。

这将使得任何研究人员或研究团队都能够轻松地创建不存在的患者的虚假测量数据、问卷调查的虚假答案,或者生成大量的动物实验数据集。”

作者将结果描述为“看似真实的数据库”。但在专家的检查下,数据未通过真实性检查,并包含明显的伪造痕迹。

造假细节

作者要求GPT-4 ADA创建一个关于患有角膜圆锥症的人群的数据集,该病会导致角膜变薄,可能导致焦点不清和视力不佳。对于15-20%的患者,治疗会使用两种手术之一进行角膜移植。

第一种方法是穿透性角膜移植术(PK),它涉及通过手术将所有受损的角膜层移除,并用供体的健康组织替换它们。第二种手术是深前层角膜移植术(DALK),只替换角膜的前层,而最内层保持完整。

作者表示大语言模型捏造了数据,可以支持生成DALK比PK产生更好的结果的结论。为了做到这一点,他们要求模型展示在评估角膜形状和检测不规则性的成像测试中的统计差异,以及在手术前后试验参与者的视力改善程度的差异。

AI生成的数据包括160名男性和140名女性参与者,并显示接受DALK手术的人在视力和成像测试方面的表现均优于接受PK手术的人,这一发现与真实临床试验的结果相矛盾。在一份涉及77名参与者的2010年的试报告中,DALK的结果与PK在手术后长达2年的结果相似。

来自英国曼彻斯特大学的生物统计学家杰克·威尔金森表示:“看起来创建一个在表面上看起来合理的数据集相当容易。这对于一个未经训练的人来说,这肯定看起来像是一个真实的数据集,”

图片

威尔金森对于检测伪造数据的方法有兴趣,他检查了几个由早期版本的大语言模型生成的数据集,他说这些数据集在经过仔细审查时缺乏令人信服的要素,因为它们难以捕捉变量之间的真实关系。

更严格的审查

应《Nature》团队的要求,威尔金森和他的同事使用一个旨在检查真实性的筛选协议评估了这个伪造的数据集。

检查结果揭示了许多“参与者”在指定性别和根据他们的名字通常预期的性别之间存在不匹配。此外,在术前和术后的视力能力测量和眼部成像测试之间没有发现相关性。威尔金森还检查了数据集中一些列中数字的分布,以查看是否存在非随机模式。眼部成像数值通过了这个测试,但一些参与者的年龄数值聚集在一种在真实数据集中极不寻常的方式:有大量参与者的年龄数值以7或8结尾。

研究作者承认他们的数据集存在缺陷,这些缺陷在仔细审查时可能会被发现。但是如果你很快速地浏览数据集,很难辨认出数据来源的非人类特征”。

图片

《EMBO Reports》的主编同意这是一个令人担忧的原因:

“实际上,同行评审往往没有进行完整的数据重新分析,不太可能通过AI发现精心制作的完整违规行为。期刊需要更新质量检查来识别由AI生成的合成数据。”

最后,就像AI可能是产生问题的一方一样,也可能有基于AI的解决方案。我们需要用AI打败Al。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/208844.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

iOS简单理解区分MVC、MVP、MVVM

MVC、MVP、MVVM 前言 这篇文章简单介绍MVC、MVP和MVVM三种架构,并配上一个简单的Swift demo来区分MVC和MVVM两种架构。 MVC 传统MVC 下图是传统结构MVC,可以看到这种结构是紧耦合的,不推荐使用。 苹果的MVC 如下图,这是苹果…

智能安防无人机——一种安防巡检新方案

在高新技术的推动下,安防无人机在监控、巡逻等领域的使用频率越来越高,逐渐成为安防救援的重要帮手。安防无人机作为城市安全应急保障体系的重要组成部分,在未来将变得不可或缺。 一、安防无人机的定义及构成 复亚智能无人机全自主巡飞系统由…

【android开发-01】android中toast的用法介绍

1,android中toast的作用 在Android开发中,Toast是一种用于向用户显示简短消息的轻量级对话框。它通常用于向用户提供一些即时的反馈信息,例如操作结果、提示或警告。 Toast的主要作用如下: 提供反馈:Toast可以在用户…

wordpress安装之Linux ftp传输

工欲善其事,必先利其器。 最近准备在自己的服务器上搭建一个个人技术分享的平台。 因为我发现现在网络上的工具呀,还有一些问题的解答总是模棱两可,所以我打算自己做一个。 首先呢,我们需要有一个linxu的系统当服务器,然后呢&a…

LV.12 D21 PWM实验 学习笔记

一、PWD简介 1.1 蜂鸣器工作原理 有源蜂鸣器 有源蜂鸣器只要接上额定电源就可以发出声音 无源蜂鸣器 无源蜂鸣器利用电磁感应原理,为音圈接入交变电流后形成的电磁铁与永磁铁相吸或相斥而推动振膜发声 1.2 使用GPIO控制 while(1) { GPX2.DATGPX2.D…

certbot—30秒部署你的HTTPS,永久免费,自动续约

在之前我已经介绍过部署反向代理的2种方式了。第一种是通过宝塔的反向代理配置然后开启HTTPS。 第二种是通过nginxproxymanager。 今天要给大家分享的是一个 certbot。 Certbot 是一个由 Lets Encrypt 开发的免费开源工具,用于自动化部署和管理 SSL/TLS 证书。它具有…

16、什么是损失函数

上一节介绍了训练的过程,一个模型在训练的过程中,每一轮训练数据计算到到最后一层时,都会输出本轮的预测值,那么如何将本轮的预测值与标签中的真实值进行对比呢? 这就要用到损失函数(Loss function)。 什么是损失函数 损失函数是用来衡量模型预测结果与真实标签(grou…

linux 内核工作队列技术原理

首先介绍一下工作队列使用的术语。 work:工作,也称为工作项。work queue:工作队列,就是工作的集合, work queue 和 work 是一对多的关系。worker: 工人, 一个工人对应一个内核线程,…

MIAOYUN荣获“2023中国赛宝信息技术应用创新优秀解决方案应用创新示范方向三等奖”

11月30日,2023(第四届)数字化转型推动高质量发展大会在中国海口成功召开,会上举办了2023中国赛宝信息技术应用创新优秀解决方案征集活动颁奖仪式。成都元来云志科技有限公司(简称“MIAOYUN”)联合国网浙江省…

15、 深度学习之正向传播和反向传播

上一节介绍了训练和推理的概念,这一节接着训练和推理的概念讲一下,神经网络的正向传播和反向传播。 其实单看正向传播和反向传播这两个概念,很好理解。 正向传播(Forward Propagation)是指从输入层到输出层的数据流动过程,而反向传播(Backpropagation)是指数据从输出…

element ui el-date-picker日期时间选择器 设置只能选择不大于30天时间范围

需求&#xff1a;要求日期时间选择器只能选择最多32天&#xff0c;其他日期为不可点击状态。 日期组件type为daterange或者datetimerange都生效 实现&#xff08;vue2.x&#xff09;&#xff1a; 通过属性picker-options html <el-date-pickerv-model"dateTime&qu…

<Linux>(极简关键、省时省力)《Linux操作系统原理分析之存储管理(2)》(15)

[TOC](《Linux操作系统原理分析之存储管理&#xff08;2&#xff09;》&#xff08;15&#xff09; 5 存储管理5.4 分页存储管理5.4.1 纯分页存储管理a.页&#xff08;页面&#xff09;和物理块&#xff08;帧&#xff09;b. 页面大小c. 逻辑地址结构 5.5 存储扩充技术5.5.2 交…

spring cache 学习 —— @Cacheable 使用详解

1. 功能说明 Cacheable 注解在方法上&#xff0c;表示该方法的返回结果是可以缓存的。也就是说&#xff0c;该方法的返回结果会放在缓存中&#xff0c;以便于以后使用相同的参数调用该方法时&#xff0c;会返回缓存中的值&#xff0c;而不会实际执行该方法。 注意&#xff0c;这…

上门预约洗鞋店小程序

互联网洗鞋店小程序开发&#xff0c;结合洗鞋行业线下实际运营情况和经验&#xff0c;专为洗鞋人、洗鞋店打造的高效、实用、有价值的洗鞋私域流量管理软件系统。 帮助洗鞋人建立自己的私域流量&#xff0c;实现会员用户管理&#xff0c;用户与商家点对点互联互通&#xff0c;提…

okhttp导致的内存溢出(OOM)sun.security.ssl.SSLSocketImpl

使用分析工具&#xff1a;MAT(Memory Analyzer Tool)、JvisualVM占用内存&#xff1a;sun.security.ssl.SSLSocketImpl 一、 项目场景&#xff1a; 功能&#xff1a;一个定时任务(xxl-job)采用线程池的方式多线程请求第三方拉取数据&#xff0c;网络框架使用okhttp3。 问题&am…

从零开发短视频电商 在AWS上用SageMaker部署开源模型并用Java SDK调用

文章目录 1.创建AWS账户2.登录AWS3.创建域4.部署模型方式一 使用JumpStart可视化界面部署内置的模型方式二 采用python脚本部署私有模型5.调用模型AWS Java SDK调用Http调用6.监控7.自动扩缩容1.创建AWS账户 需要准备好邮箱一个,支持visa功能的信用卡一个。然后到aws上自己去…

手动部署1个Cloud Run service

什么是Cloud Run 来自chatgpt&#xff1a; Google Cloud Run 是一项全托管的服务器托管平台&#xff0c;它允许您在容器化的环境中运行无服务器应用程序。Cloud Run 提供了一种简单而灵活的方式来构建、部署和扩展应用程序&#xff0c;无需管理底层基础设施。 以下是 Cloud …

Linux-Linux安装JDK及配置环境 及 遇到的问题

下载linux环境对应的JDK的tar.gz包 配置JDK环境&#xff1a;编辑 sudo vim /etc/profile 在文件的最下方&#xff0c;填写 export JAVA_HOME/usr/local/src/software/jdk1.8 export CLASSPATH.:$JAVA_HOME/lib/tools.jar export PATH$JAVA_HOME/bin:$PATH 执行生效命令&…

2024年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-B卷

2024 年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-B卷 2024 年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-B卷A 模块基础设施设置/安全加固&#xff08;200 分&#xff09;A-1&#xff1a;登录安全加固&#xff08;Windows…

电商店铺搬家API接口,轻松搬运淘宝1688京东拼多多等平台全站商品丨商品详情业数据接口丨搜索商品列表数据接口

轻松搬运淘宝、1688、京东、拼多多等平台全站商品的API接口通常是由各平台提供的官方开发工具或第三方工具提供的。 对于淘宝和1688平台&#xff0c;可以使用淘宝开放平台&#xff08;Open Platform&#xff09;提供的API接口来访问和操作商品信息。淘宝开放平台提供了丰富的A…