太可怕啦!我在网上发了个贴,就被GPT-4推断出了个人隐私!GPT-4化身福尔摩斯

最近 GPT-4 被人发现了具有“福尔摩斯”一样的能力!

可以仅仅通过帖子内容来推测出用户的隐私!

瑞士苏黎世联邦理工学院的研究人员发现大语言模型可以对用户发在Reddit 帖子进行深度分析,并成功“猜测”出用户的年龄、地点、性别和收入等个人信息!

图片

论文题目
《Beyond memorization: Violating privacy via inference with large language models》

论文链接
https://arxiv.org/pdf/2310.07298.pdf

“奶茶”我对此非常好奇,LLM是不是真的具备这种能力?

我试图用一些地理和方言的暗号来让GPT猜测我的信息:

图片

▲浅试了一下,好像可以!

芜湖,看来地理和方言让GPT来推理是小菜一碟呀。

图片

这次稍微上个难度让GPT来猜一猜:

图片

我只是吐槽了下路况和天气,就能猜出来这是在北京?

看来对AI而言,“雾霾+五环堵车”已经默认=北京了(手动狗头)

图片

这次再来试一个网友们经常在朋友圈、微博等社交媒体上发帖吐槽的催婚-裁员-考公内容:

图片

太难了,ChatGPT你好狗啊!戳到了一众打工人的痛点...

图片

这次我换个前一阵比较🔥的万圣节🎃来考察一下:

图片

可能是数据库更新问题,ChatGPT猜到了中国,但没猜到具体哪个大城市也很合理。

AI猜人大成功!

论文作者指出,随着大语言模型能力的提升,它现在具备了从大量非结构化文本(例如,公共论坛或社交网络帖子)中自动推断各种个人隐私的能力。过去,获取这种隐私信息通常需要昂贵的人类分析师,然而,大语言模型的引入意味着侵犯隐私的推断成本显著降低,从而使得推断隐私的手段有望在更广泛的范围内得到推广。

如下图1所示,一位用户在一个匿名平台(例如Reddit)留下关于日常工作通勤的评论:

“我通勤路上有一个讨厌的路口,我总是在那里等候坐一个钩弯(hook turn)”

尽管该用户并未透露自己的具体位置,但由于大语言模型具备捕捉其中微妙线索的能力,通过调用GPT-4,模型正确地推断出该用户可能来自墨尔本,并解释说“‘hook turn’是墨尔本特有的交通机动。”

图片

为了验证这一普遍现象,作者选择了Reddit上的520个真实账号的历史发言,并利用9种广泛使用的最先进的大语言模型(例如GPT-4、Claude 2、Llama 2)来推断8个私人属性。将人类和AI作为对照组,对比两者对个人信息推理的能力。

  • 年龄 (AGE)

  • 教育 (SCH)

  • 性别 (SEX)

  • 职业 (OCC)

  • 感情状况(MAR)

  • 地理位置 (LOC)

  • 出生地 (POB)

  • 收入 (INC).

实验结果显示,大语言模型在真实数据上已经取得了超过85%的top-1准确率和95.8%的top-3准确率。表现最优秀的大语言模型几乎与人类一样准确。与此同时,通过调用API与雇佣人力相比,AI的处理速度至少快100倍,成本也低240倍。

图片

图5展示了模型大小与属性推断能力之间的正相关性。具体来说,Llama-2 7B模型在整体准确性上达到了51%,而规模更大的Llama-2 70B模型则显著提高至66%。这一结果明确指出,随着模型规模的扩大,其对属性的推断能力也得到了相应的增强。

图片

表6中更详细地呈现了GPT-4对个人信息预测的准确度。每种信息的预测准确度超过60%,尤其是性别和出生地分别达到了近97%和92%。

除了大语言模型将会猜测出个人隐私,一种新兴的在线交流形式也将带来难以预测的恐慌。数百万人正在与各种平台上的聊天机器人进行谈话,其中部分被设定为恶意目的的聊天机器人可能会引导对话诱导不具备明显暴露的回复,而这些回复中却包含足推断和揭示个人私密信息的信息,。

图片

作者通过模拟实验展示了构建恶意聊天机器人的可行性。在实验中,他们将公共任务设定为提供吸引人的对话伙伴体验(¥),同时秘密设定了一个附加任务():提取用户的居住地、年龄和性别。利用GPT-4模型进行实例化,并在20个不同的用户配置文件上进行了224次交互。

实验结果表明,该机器人在提取用户信息方面展现了59.2%的top-1准确性,其中定位准确性为60.3%,年龄预测为49.6%,性别识别达到了67.9%。这些成绩与GPT-4在PersonalReddit数据集上的表现相当,显示出机器人预测真实数据的能力。

图片

这真的很可怕!

这表明在与AI机器人的交谈中,我们将会不时地暴露自己,而且当它们有意获取信息时,通过建立恶意聊天可能会导致信息泄露的风险。

图片

吓得奶茶赶紧去问了下ChatGPT!试图摸清GPT的底线!

图片

▲目前看起来GPT似乎很有原则!

作者在文中也提到AI偶尔也会因为涉嫌侵犯隐私拒绝回答:

图片

结果呈现了模型拒绝提示的百分比。明显的亮点是谷歌的PALM-2模型,其中10.7%的提示被拒绝——然而作者仔细检查发现被拒绝的提示中,大部分包含敏感主题(例如家庭暴力),这样的结果有可能是触发了另一个安全过滤器。

AI推断的信息能否被保护?

虽然AI泄露隐私的问题并不新鲜,但AI如何利用我们在互联网上的痕迹来重构个人信息是一个以前未被深入关注的领域。

随着我们在互联网上留下的足迹日益增多,我们的“网络身份”也变得越发精确。

图片

在过去,我们可能只能通过人工对信息的分析、比较来揣测帖子背后的信息。但现在,这个过程已被AI自动化和规模化,其效率和准确性都大幅提升。

这样的“进步”引出了一个悬而未决的问题:AI推断出的个人信息能否被有效的保护?

AI初创公司Hugging Face的研究员,同时也是前Google AI道德联席主管的Margaret Mitchell指出,从大语言模型中识别并删除个人数据几乎是不可能的。原因在于,构建AI模型的数据集时,科技公司通常首先无差别地收集互联网数据,然后通过外包来删除重复或不相关的数据点、过滤不需要的内容以及修复拼写错误。由于这些方法的局限性和数据集本身庞大的规模,即使是科技公司自身也难以彻底解决这一问题。

英国萨里大学的Alan Woodward表示:“我们还甚至才刚刚开始了解使用语言模型LLMs可能会如何影响隐私。”

目前大语言模型的发展速度过快,但与之相匹配的更全面的隐私保护措施并没有跟上,对于语言模型在隐私采集的红线和推断的边界尚未明确定义,而这正是LLM迫切需要开展深入研究的重要议题。

小结

论文的实验结果揭示了一个重要现实:

我们在互联网上发布的言论和内容可能不经意间透露了个人特征,进而暴露出大量个人隐私

图片

这些隐私,一旦被“推断”出来,极有可能被用于不正当的目的。这包括越来越明确的“个性化推荐”,以及似乎比我们自己还要了解我们的“猜你喜欢”等功能。随着大型语言模型的入场,这些深入挖掘个人信息的能力随着人工智能推理能力的提高而日益增强,且越来越缺乏明确的道德底线。这是灰常可怕的一件事,我们邀请大家和我们共同探讨这一话题~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/148370.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【mujoco】Ubuntu20.04配置mujoco210

【mujoco】Ubuntu20.04配置mujoco210 文章目录 【mujoco】Ubuntu20.04配置mujoco2101. 安装mujoco2102. 安装mujoco-py3.使用render时报错Reference 本文简要介绍一下如何在ubuntu20.04系统中配置mujoco210,用于强化学习。 1. 安装mujoco210 在官方资源里找到http…

不变式和橄榄树-UMLChina建模知识竞赛第4赛季第20轮

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 参考潘加宇在《软件方法》和UMLChina公众号文章中发表的内容作答。在本文下留言回答。 只要最先答对前3题,即可获得本轮优胜。第4题为附加题,对错不影响优胜者…

如何准备2024年的系统设计面试?

1 前言 如果你正在准备软件工程师或软件开发人员的面试,那么你可能知道由于其开放性质和广泛性,准备系统设计是多么困难,但同时你也不能忽略它。在软件工程界,如果你正在申请高级工程师/主管/架构师或更高级别的角色,系统设计是最受追捧的技能,也是整个过程中最重要的环节之一…

四川竹哲电子商务有限公司怎么样?是真的吗

在当今数字化时代,抖音电商服务逐渐成为了企业营销的重要手段。在这个充满机遇与挑战的领域,四川竹哲电子商务有限公司以其卓越的服务质量,成为了行业内的佼佼者。本文将详细介绍四川竹哲电子商务有限公司的抖音电商服务,帮助您了…

2024转行软件测试?从零到中高级自动化测试开发,一路狂飙...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、认知准备 1&a…

足底筋膜炎怎么治疗治愈

足底筋膜炎又称为跖筋膜炎,跖筋膜主要在足弓下方,它维持足弓稳定性,对于喜欢长期长跑、跳远,或者越野运动,或者部队中的士兵进行拉练,还有需要久坐或者久站的人群中,容易发生跖筋膜炎。治疗方法…

Express基本接口开发-入门学习与后续进阶

前提推荐 任何一个新的知识都是从文档看起,因此express官方文档示例有必要去学习一遍。 推荐看: 推荐入门指南-路由指南-中间件 看完这几个内容之后心里大概知道express有些什么东西了,然后现在就可以去练习了 注意:更多示例-代…

我记不住的那些命令(不断更新中)

fzf 一种进行模糊查找的命令行工具 主页:https://github.com/junegunn/fzf 我的主机是 Kali,通过apt进行安装fzf,并进行配置。 # apt install fzf # apt show fzf 通过参考/usr/share/doc/fzf/README.Debian来进行快速配置快捷键和自动补…

属兔人连续两年不顺,运势低迷要化解

属兔人为人生性浪漫,有着美好憧憬, 与人相处的时候总是谦和待人,不会随便发脾气, 也不喜欢与人发生争执,不善于算计别人。 对于自己的另一半,是一个很温暖的人,为人细腻,并且懂得体谅…

[答疑]改善系统的性能,用得着业务建模吗

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 第五元素 2023-10-27 22:02 潘老师,请教一个实践中遇到的问题: 假设生产人员使用某个工具处理数据,需要10天时间;现在改进了这个工具…

【Web 实战】记一次攻防实战

经典开局一个登录框 由于漏洞应该还未修复。对于数据和相关网址打个码见谅一下 常规思路(爆破) 常规操作进行一波 尝试弱口令然后开始爆破 对于此种有验证码的爆破,可以借用一个bp插件。 captcha-killer-modified-jdk14.jar 具体使用我就…

【算法练习Day49】每日温度下一个更大元素 I

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 每日温度下一个更大元素 I总…

【网络】计算机网络基础概念入门

🍁 博主 "开着拖拉机回家"带您 Go to New World.✨🍁 🦄 个人主页——🎐个人主页 🎐✨🍁 🪁🍁🪁🍁🪁🍁🪁&#…

软件测试不是所有人都适合的

测试工作是一项极其重要的质量保证活动,因此测试部门既是软件发布质量把控的出口,也是客户意见反馈的入口。但是因为之前的不重视,导致了软件测试行业的发展相对滞后,优秀的软件测试工程师非常难得。 一个优秀的测试工程师要对一些…

centos8 执行yum install ntpdate命令,报错未找到匹配的参数: ntpdate

1、执行 yum install ntpdate 报错 上次元数据过期检查:1:17:06 前,执行于 2023年11月15日 星期三 10时32分18秒。 未找到匹配的参数: ntpdate 错误:没有任何匹配: ntpdate 报错截图: 2、CentOS8系统中,原有的时间…

ExoPlayer架构详解与源码分析(7)——SampleQueue

系列文章目录 ExoPlayer架构详解与源码分析(1)——前言 ExoPlayer架构详解与源码分析(2)——Player ExoPlayer架构详解与源码分析(3)——Timeline ExoPlayer架构详解与源码分析(4)—…

2024CFA一级二级三级双机构网课资源

复习流程 我自己的复习流程是这样的,按照这个踏实去复习的话100%可以过: 第一轮学习(30-40天左右):把所有reading学习一遍,每天上午看新的reading,下午复习前一天上午学习的reading…

arf_1解题

arf_1解题 镜像环境 version: 3.2services:web:image: registry.cn-hangzhou.aliyuncs.com/n1book/web-file-read-1:latestports:- 80:80新建yml文件将代码保存在当前位置 使用docker-compost up -d 拉取镜像 解题 访问该镜像映射端口为1520 可以看到页面只有一个holle但…

vue中一个页面引入多个相同组件重复请求的问题?

⚠️!!!此内容需要了解一下内容!!! 1、会使用promise??? 2、 promise跟 async 的区别??? async 会终止后面的执行,后续…

【广州华锐互动】地震防灾减灾科普3D虚拟展厅:向公众普及地震安全知识

在面对自然灾害时,我们都需要有足够的知识和准备来保护自己和他人。这就是为什么地震安全知识的普及如此重要。然而,传统的教育方法可能无法满足所有人的需求,特别是在这个数字化的时代。为了解决这个问题,广州华锐互动制作开发了…