使用大模型来实现医疗领域的隐私信息保护

大模型隐私主要分为训练阶段、推理阶段以及用户与大模型交互过程中的隐私泄露,目前的研究重点在大模型训练阶段。传统隐私保护技术主要包括联邦学习、差分隐私、同态加密等,这些技术在大模型背景下的应用挑战不断加剧:(1)联邦学习应用于大模型中时更注重使用多个小模型来训练性能更强的大模型,对隐私的关注有所减少;(2)差分隐私应用于大模型中更加爱庞大的数据量和模型参数时,加剧了数据的可用性损失;(3)同态加密因其复杂度很难独立地应用于大模型全局的隐私保护,通常需要结合其他技术或应用于局部隐私保护。大模型的记忆能力带来的隐私泄露风险是大模型中特有的,缓解大模型的记忆能力对于隐私保护具有重要意义。除保护大模型本身的隐私问题以外,使用大模型用于隐私保护(比如AIGC for Privacy、用大模型覆盖数据隐私信息等)等工作也不断发展.

1. Navigating Data Privacy and Analytics: The Role of Large Language Models in Masking conversational data in data platforms

图片

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10433801

这项工作利用LLM进行实时实体识别和替换,有效地屏蔽敏感信息,同时遵守隐私法规。这种方法特别适用于处理来自各种来源的会话数据的第三方分析提供商。利用LLM识别潜在的个人身份信息(PII)或敏感数据点,并用匿名占位符替换,保持数据的结构和上下文完整性。医疗保健场景展示了该方法在外部数据分析提供商的现实环境中的实际应用和效果。

● 方法

作者首先对数据建立基线,提取关键隐私指标(常见症状、患者情绪或医疗查询的趋势),用LLM掩盖敏感信息,确保仅更改数据的个人身份或敏感部分,数据的整体结构和本质保持不变,为实现在对话中保持历史背景(指向同一含义的不同token),方案中使用外部存储,将已识别的PII映射到其匿名对应项。最后对屏蔽数据集进行分析,旨在评估隐私保护后的数据效能是否与保护前相同。

● 实验

数据:ChatGPT3.5提示生成1000名病人、20名医生之间的大约10,000行对话,涉及100种疾病

图片

图1 生成的对话数据

隐私信息处理:GPT-4 Turbo

实验结果(屏蔽效果):谈话中提到的所有姓名、电子邮件地址、医疗记录号码、电话号码、地址、疾病等都被完全屏蔽,但症状并没有被掩盖;

屏蔽后是否能得到相同的数据分析结果(屏蔽对数据效能的影响):每个医生的患者数比较、诊断为特定疾病的患者数量、医生之间的疾病分布

图片

图2 数据被处理前后每个医生的患者数比较

图片

图3 数据被处理前后诊断为特定疾病的患者数量

● 缺点

首先,实验在有限的数据集上进行,可扩展性不强;其次,未开发参数调优,OpenAI提供了各种调优参数来微调模型,这些参数在实验中没有使用;再次,确保跨对话的上下文一致性是一项复杂的任务,这对实现精确的分析一致性提出了挑战。管理上下文一致性所涉及的复杂性需要仔细考虑更准确和可靠的结果;最后,在利用大型语言模型(LLM)进行数据屏蔽时,必须承认LLM方面潜在数据泄漏的固有风险。尽管LLM提供商保证数据安全,但数据泄漏的可能性仍然是一个值得注意的问题。

● 总结

这篇论文介绍了LLM用于隐私保护新用途,通过智能制作的提示,为各个部门量身定制实时识别和掩盖PII。这种方法确保在数据传输到第三方之前删除敏感信息,同时保留数据的分析效用。进入门槛低,而且OpenAI等平台的api易于访问,这使得这种方法具备可行性,在医疗保健部门提出一个假设的案例研究和实验结果中证明了方法的有效性。

大模型用于隐私保护时,首先,大模型本身的隐私问题导致出现更复杂的隐私问题;其次,大模型用于隐私保护的能力本质上还是用户数据赋予的,因此需要有准确的定义与范畴。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/550287.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ArkTs

一、概述 ArkTs是由TypeScript扩展而来,在继承TypeScript语法的基础上进行了一系列优化,使开发者能够以更简洁、更自然的方式开发应用。 TypeScript语法: 线上网站:https://www.typescriptlang.org/zh/play 二、TS变量 变量声明: 常量声明: const b…

【高端电流检测IC储能产品应用方案】耐压45V侧轨的电流检测芯片FP137 应用于电脑电源,开关电源以及多口快充充电器,户外移动电源,适配器,电池充电器等

近年来,随着电子产品的飞速发展,对电流检测精度和可靠性的要求也越来越高。特别是在电脑电源、开关电源以及多口快充充电器、户外移动电源、适配器、电池充电器等领域,对电流检测技术的需求更是日益增长。 电流检测芯片是一种关键的电子元器…

强化学习(三)基于动态规划 Dynamic Programming 的求解方法

文章目录 1. 动态规划与强化学习的联系2. 利用动态规划求解最优价值函数2.1 案例背景2.2 策略评估(预测)2.3 策略迭代(控制) 在前文《强化学习的数学框架:马尔科夫决策过程 MDP》中,我们用马尔可夫过程抽象…

STM32 软件I2C方式读取MT6701磁编码器获取角度例程

STM32 软件I2C方式读取MT6701磁编码器获取角度例程 📍相关篇《STM32 软件I2C方式读取AS5600磁编码器获取角度例程》🌿《Arduino通过I2C驱动MT6701磁编码器并读取角度数据》🔰MT6701芯片和AS5600从软件读取对比,只是读取的寄存器和…

Adobe AE(After Effects)2024下载地址及安装教程

Adobe After Effects是一款专业级别的视觉效果和动态图形处理软件,由Adobe Systems开发。它被广泛用于电影、电视节目、广告和其他多媒体项目的制作。 After Effects提供了强大的合成和特效功能,可以让用户创建出令人惊艳的动态图形和视觉效果。用户可以…

【OpenGL实验】在python、Qt5、pyOpenGL程序的若干要点

实验效果图: 代码 目录 一、说明二、关于QGLWidget2.1 三个方便的虚函数2.2 析构函数2.3 QGLWidget析构函数 三、关于QGLWidget的三个虚函数分工3.1 initializeGL:数据准备、数据绑定分离3.2 resizeGL:视角改变函数3.3 paintGL:…

苍穹外卖分类管理

分析 需求分析 SQL的写法 1 在mapper中写 2 在xml中写 Mapper public interface CategoryMapper {/*** 插入数据* param category*/AutoFill(OperationType.INSERT)Insert("insert into category(type, name, sort, status, create_time, update_time, create_user, upd…

docker安装并跑通QQ机器人实践(2)-签名服务器bs-qsign搭建

在前文中,我们详尽阐述了QQ机器人的搭建过程及其最终实现的各项功能展示。接下来,我们将转向探讨该项目基于Docker构建服务的具体实践。本篇将以QQ机器人签名服务——qsign为起点,逐步展开论述。 1 获取和运行 xzhouqd/qsign:8.9.63 镜像 1.…

【K8s】:在 Kubernetes 集群中部署 MySQL8.0 高可用集群(1主2从)

【K8s】:在 Kubernetes 集群中部署 MySQL8.0 高可用集群(1主2从) 一、准备工作二、搭建nfs服务器2.1 安装 NFS 服务器软件包(所有节点执行)2.2 设置共享目录2.3 启动 NFS 服务器2.4 设置防火墙规则(可选&am…

【ROS2】搭建ROS2-Humble + Vscode开发流程

【ROS2】搭建ROS2-Humble Vscode开发流程 文章目录 【ROS2】搭建ROS2-Humble Vscode开发流程1.基本环境配置2.搭建Vscode开发环境 1.基本环境配置 基本的环境配置包括以下步骤: 安装ROS2-Humble,可以参考这里安装一些基本的工具,可以参考…

Webrtc 信令服务器实现

webrtc建联流程图 由上图可知,所谓的信令服务器其实就是将peer的offer/candidate/answer传给对端而已。这样的话实现方式就有很多种了,目前普遍的方式HTTP/HTTPS,WS/WSS。像webrtc-demo-peerconnection就是实现HTTP这种方式。本文使用WS&…

APIGateway的认证

APIGateway的支持的认证如下: 我们从表格中可以看到,HTTP API 不支持资源策略的功能,另外是通过JWT的方式集成Cognito的。 对于REST API则是没有显示说明支持JWT认证,这个我们可以通过Lambda 自定义的方式来实现。 所以按照这个…

LangChain-Chatchat 开源知识库来了

LangChain-Chatchat 开源知识库来了 LangChain-Chatchat 架构设计LangChain-ChatChat 具体实现过程 一键本地离线部署软件环境硬件环境支持三种部署方式 LangChain-Chatchat 是基于 ChatGLM 等大语言模型与 LangChain 等应用框架实现,开源、可离线部署的 RAG 检索增…

Django数据导出与导入问题

执行: python manage.py loaddata data.json 的常见错误: * 1. UnicodeDecodeError: utf-8 codec cant decode byte 0xff in position 0: invalid start byte* 2. raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)",...django.core.serializer…

vue的就地更新与v-for的key属性

vue的就地更新 Vue中的就地更新到底是怎么回事,为什么会存在就地更新的现象? 注意下面的例子,使用v-for指令时,没有绑定key值,才有就地更新的现象,因为Vue默认按照就地更新的策略来更新v-for渲染的元素列表…

windows Webrtc +VS2019 (M124)下载编译以及调通测试demo

下载depot tools 设置梯子 git config --global http.proxy 127.0.0.1:10000 git config --global https.proxy 127.0.0.1:10000 下载 $ git clone https://chromium.googlesource.com/chromium/tools/depot_tools.git 设置depot_tools目录为环境变量 下载webrtc # 设置系统代…

CommunityToolkit.Mvvm笔记1---Instruction

CommunityToolkit.Mvvm是一个官方社区套件(Windows Community Toolkit),延续了MVVMLight的风格,是一个现代、快速和模块化的 MVVM 库。 它是 .NET 社区工具包的一部分。 第一:入门安装 1,用NuGget安装,搜索Community…

.NET 发布,部署和运行应用程序

.NET应用发布 发布.Net应用有很多种方式,下面列举三种发布方式: 单文件发布跨平台发布Docker发布 单文件发布 右键工程,选择“发布”,部署模式选择“独立”,目标运行时选择自己想要部署到的系统,我这里用…

【Windows10】Anaconda3安装+pytorch+tensorflow+pycharm

文章目录 一、下载anaconda0.双击下载的文件1. 选择All users2. 安装路径3. 勾选环境变量和安装python4.安装完成5.添加环境变量6.测试是否安装成功 二、安装pytorch(先看四!先检查一下自己电脑是不是只能安装GPU版的1.查看conda图形化界面2.在安装pytor…

ES源码二:集群启动过程

命令行参数解析 Elasticsearch:在main里面创建了Elasticsearch实例,然后调用了main方法,这个main方法最终会调用到父类Command的main方法 这里做了几件事: 注册一个 ShutdownHook,其作用就是在系统关闭的时候捕获IO…