[AI OpenAI] OpenAI 安全更新

AI 首尔峰会中分享我们的实践

safety-blog-cover-02

我们自豪地构建并发布了在能力和安全性方面都处于行业领先地位的模型。

超过一亿用户和数百万开发者依赖于我们安全团队的工作。我们将安全视为我们必须在多个时间范围内投资并取得成功的事项,从使今天的模型与我们未来预期的更具能力的系统保持一致。这项工作一直在 OpenAI 中开展,我们的投资将随着时间的推移而增加。

我们信奉一种平衡、科学的方法,其中安全措施从一开始就被整合到开发过程中。这确保了我们的人工智能系统既具有创新性又可靠,并且能够为社会带来好处。

在今天的 AI 首尔峰会上,我们将与行业领袖、政府官员和公民社会成员一起讨论 AI 安全问题。虽然还有更多工作要做,但我们对 OpenAI 和其他公司今天达成的额外前沿 AI 安全承诺感到鼓舞。这些承诺呼吁公司在安全开发和部署前沿 AI 模型的同时,分享有关其风险缓解措施的信息,与我们已经采取的步骤保持一致。其中包括承诺发布安全框架,例如我们去年制定并采纳的“准备框架”。

我们分享了我们积极使用和改进的 10 项实践。

  1. **发布前的经验模型红队测试:**我们在发布前根据我们的“准备框架”和自愿承诺在内部和外部对模型安全性进行经验评估。如果新模型超过了我们“准备框架”中的“中等”风险阈值,我们将不会发布该模型,直到实施足够的安全干预措施将后处理评分恢复到“中等”水平。超过 70 名外部专家通过我们的外部红队测试工作帮助评估了与 GPT-4o 相关的风险,我们利用这些经验构建了基于早期检查点中弱点的评估,以更好地了解后期检查点。
  2. **一致性和安全研究:**随着时间的推移,我们的模型变得越来越安全。这归因于构建更智能的模型,这些模型通常会减少事实错误,并且在逆境条件下(如越狱)更不可能输出有害内容。这也归因于我们专注于实际一致性、安全系统和训练后研究的投资。这些努力旨在改善人类生成的微调数据的质量,并且在未来,改善我们的模型被训练遵循的指令。我们还正在进行并发布旨在大幅提高我们系统对越狱等攻击的鲁棒性的基础研究。
  3. **滥用监控:**随着我们通过我们的 API 和 ChatGPT 部署越来越强大的语言模型,我们利用了广泛的工具范围,包括专用的审核模型和我们自己的模型来监控安全风险和滥用情况。我们沿途分享了一些关键发现,包括与微软联合披露我们技术被国家行为者滥用的情况,以便其他人可以更好地防范类似风险。我们还使用 GPT-4 进行内容政策制定和内容审核决策,为政策的细化提供更快的反馈循环,并减少暴露给人工审核者的滥用材料。
  4. **安全系统化方法:**我们在模型的整个生命周期的每个阶段实施一系列安全措施,从预训练到部署。随着我们在开发更安全、更一致的模型行为方面取得进展,我们还投资于预训练数据安全、系统级模型行为引导、数据飞轮以持续改进安全和健壮的监控基础设施。
  5. **保护儿童:**我们安全工作的一个关键重点是保护儿童。我们在 ChatGPT 和 DALL·E 中构建了强大的默认防护栏和安全措施,以减轻对儿童的潜在危害。在 2023 年,我们与 Thorn 的 Safer 合作,以检测、审核和报告用户试图将儿童性虐待材料上传到我们的图像工具时,将其报告给国家儿童失踪和被剥削中心。我们继续与 Thorn、技术联盟、All Tech is Human、Commonsense Media 和更广泛的科技社区合作,以维护安全设计原则。
  6. **选举公正:**我们正在与政府和利益相关者合作,以防止滥用,确保 AI 生成内容的透明度,并改善准确选民信息的获取。为此,我们引入了一项用于识别由 DALL·E 3 创建的图像的工具,加入了内容真实性倡议(C2PA)的指导委员会,并在 DALL·E 3 中包含了 C2PA 元数据,以帮助人们了解他们在网上找到的媒体的来源。ChatGPT 现在将用户引导至美国和欧洲的官方选民信息来源。此外,我们支持美国参议院提出的两党“保护选举免受欺诈 AI 法案”,该法案将禁止在政治广告中使用误导性 AI 生成内容。
  7. **投资于影响评估和政策分析:**我们的影响评估工作在研究、行业规范和政策方面产生了广泛影响,包括我们早期在测量与 AI 系统相关的化学、生物、放射和核(CBRN)风险方面的工作,以及我们估算不同职业和行业可能受到语言模型影响程度的研究。我们还发布了关于社会如何最好地管理相关风险的开创性工作,例如与外部专家合作评估语言模型对影响运作的影响的工作。
  8. **安全和访问控制措施:**我们优先保护我们的客户、知识产权和数据。我们将我们的 AI 模型部署到世界各地作为服务,并通过 API 控制访问,从而实现政策执行。我们的网络安全工作包括根据需要限制对训练环境和高价值算法秘密的访问、内部和外部渗透测试、漏洞赏金计划等。我们相信保护先进的 AI 系统将受益于基础设施安全的演变,正在探索诸如 GPU 的保密计算和将 AI 应用于网络防御的新颖控制措施。为了加强网络防御,我们正在通过我们的网络安全资助计划资助第三方安全研究人员。
  9. **与政府合作伙伴关系:**我们与世界各地的政府合作,以制定有效和适应性强的 AI 安全政策。这包括展示我们的工作和分享我们的经验,与政府和其他第三方合作进行试点保证,并参与公众对新标准和法律的辩论。
  10. **安全决策和董事会监督:**作为我们“准备框架”的一部分,我们有一个安全决策的运营结构。我们的跨职能安全咨询小组在部署前审核模型能力报告,并在部署前提出建议。公司领导层做出最终决定,董事会对这些决定进行监督。

这种方法使我们能够在当前能力水平上构建和部署安全而有能力的模型。

随着我们迈向下一个前沿模型,我们意识到我们将需要改进我们的实践,特别是提高我们的安全姿态,以最终能够抵御复杂的国家行为者攻击,并确保我们在主要发布之前为安全测试增加额外的时间。我们和这个领域都有一个难题需要解决,以便安全和有益地提供日益强大的人工智能。我们计划在未来几周分享更多关于这些不断发展的实践的信息。


  • 原文
  • 本文
    • 博客 - 从零开始学AI
    • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/649056.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Spring Cloud】远程调用

目录 Spring Cloud Netflix Feign简介前言Feign是什么OpenFeign组件和Spring Cloud OpenFeignOpenFeign组件Spring Cloud OpenFeign OpenFeign-微服务接口调用需求说明1. 启动Eureka Server服务2.创建两个项目,将其注册到Eureka Server3.在服务提供者中添加业务处理…

如何处理逻辑设计中的时钟域

1.什么是时钟域 2.PLL对时钟域管理 不管是否需要变频变相,在FPGA内部将外部输入时钟从专用时钟引脚扇入后先做PLL处理。如何调用pll,见另一篇文章。 约束输入时钟 creat_clock -period 10 -waveform {0 5} [get_ports {sys_clk}] 3.单bit信号跨时钟…

【Linux进程篇】父子进程fork函数||进程生死轮回状态||僵尸进程与孤儿进程

W...Y的主页 😊 代码仓库分享💕 前言:上篇文章中我们认识了进程,可执行程序在内存中加载运行被称作进程,而操作系统是通过给每一个可执行程序创建一个PCB来管理进程的。并且学习了一些查看进程的指令,认识…

Flask 蓝图路由的模块化开发

基于 Flask 蓝图路由的模块化开发 1. 编程目标 为了提高Flask应用的可维护性和可扩展性,我们通过使用Flask的蓝图(Blueprint)功能,可以将不同的功能模块拆分到独立的文件中,方便后续的开发和维护。 2. 项目结构 项目结构树如下&#xff1…

助力企业标准化搭建--图框模板的创建

古有秦皇书同文、车同轨,今各行各业都有国际标准、国家标准,其目的就是为了标准化、统一化,由此可见标准化的重要性;一个企业若是想规范员工的操作,推行标准化也很重要;因此对于需要绘制电气图纸的行业来说…

从0开始学统计-秩和检验

1.什么是秩和检验? 秩和检验,也称为Wilcoxon 秩和检验,是一种非参数统计检验方法,用于比较两个独立样本的中位数是否有显著差异。它不要求数据满足正态分布假设,因此适用于小样本或者数据不满足正态分布假设的情况。 …

2024年怎么下载学浪app视频

想要在2024年紧跟潮流,成为一名优秀的学浪用户吗?今天就让我们一起探索如何下载学浪app视频吧! 学浪视频下载工具打包 学浪下载工具打包链接:百度网盘 请输入提取码 提取码:1234 --来自百度网盘超级会员V10的分享…

性能怪兽!香橙派 Kunpeng Pro 开发板深度测评,带你解锁无限可能

性能怪兽!香橙派 Kunpeng Pro 开发板深度测评,带你解锁无限可能 文章目录 性能怪兽!香橙派 Kunpeng Pro 开发板深度测评,带你解锁无限可能一、背景二、香橙派 Kunpeng Pro 硬件规格概述三、使用准备与系统安装1️⃣、系统安装步骤…

字节面试:百亿级数据存储,怎么设计?只是分库分表吗?

尼恩:百亿级数据存储架构起源 在40岁老架构师 尼恩的读者交流群(50)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会&#xff0c…

cuda 11.6 pytorch安装

在安装之前,需要先配置GPU环境(安装CUDA和CudaNN) 命令行输入nvidia-smi,查看驱动信息 nvidia-smi 安装相应的CUDA 和CUDANN 验证:输入nvcc --version 或者nvcc -V 进行检查 nvcc --version nvcc -V 在anaconda里创建环境 con…

彭永东所交“答卷”道尽万般无奈,贝壳找房营收、利润双双锐减

就今年第一季度业绩披露后两日的股价变动来看,贝壳找房(下称“贝壳”)似乎并未在港股和美股市场取得预期的效果。 港股市场,截至5月24日收盘,贝壳-W(HK:02423)报收43.9港元/股,当日跌…

海外网红营销新趋势:“快闪式”营销如何迅速提升品牌曝光度

在当今数字化时代,海外网红营销已成为品牌迅速触达全球消费者、提升品牌曝光度和刺激销售的重要手段。其中,“快闪式”营销以其独特的时效性、创意性和互动性,成为品牌与海外网红合作的新趋势。本文Nox聚星将和大家探讨如何利用海外网红的影响…

梭住绿色,植梦WILL来,容声冰箱“节能森林计划”再启航

近日,容声冰箱再度开启了“节能森林计划”绿色公益之旅。 据「TMT星球」了解,此次活动深入到阿拉善荒漠化地带,通过实地考察和亲身体验,见证容声了“节能森林计划”项目的持续落地和实施效果。 2022年,容声冰箱启动了…

5个好用的AI写论文网站推荐

目录 1.AIQuora论文写作 2.passyyds 答辩PPT 3.AIPassgo论文降AIGC 4.文状元 5.passyyds论文写作 毕业论文是每个毕业生的痛,不管你是本科还是硕士要想顺利毕业你就不得不面对论文。然而,面对论文写作时常常感到无从下手:有时缺乏灵感&a…

微信小程序毕业设计-跑腿系统项目开发实战(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

ChAMP加载肺癌数据和分析甲基化数据流程

ChAMP加载肺癌数据和分析甲基化数据流程 1. 加载数据分析 #!/bin/evn R rm(list = ls()) library(rstudioapi) current_script_path <- getActiveDocumentContext()$path# 将路径转换为当前目录 current_directory <- dirname(current_script_path)# 设置当前工作目录 …

【数据结构】红黑树——领略天才的想法

个人主页&#xff1a;东洛的克莱斯韦克-CSDN博客 祝福语&#xff1a;愿你拥抱自由的风 目录 二叉搜索树 AVL树 红黑树概述 性质详解 效率对比 旋转操作 元素操作 代码实现 二叉搜索树 【数据结构】二叉搜索树-CSDN博客 AVL树 【数据结构】AVL树——平衡二叉搜索…

摸鱼大数据——Hive表操作——基本操作

Hive表操作 Hive乱码解决 1、乱码现象 create database test1 comment "乱码测试"; use test1; CREATE TABLE orders ( orderId bigint COMMENT 订单id, orderNo string COMMENT 订单编号, shopId bigint COMMENT 门店id ); 2、处理步骤 注意&#…

uniapp页面vue3下拉触底发送获取新数据请求实现分页功能

页面下拉触底获取新数据实现分页功能实现方式有两种&#xff0c;根据自己的业务需求来定&#xff0c;不同的方案适用场景不一样&#xff0c;有的是一整个页面下拉获取新数据&#xff0c;有的是部分盒子内容滚动到底部时候实现获取新数据&#xff0c;下面讨论一下两种方式的区别…

是他将计算机从“一屋子”变成“一柜子”——量子前哨缅怀小型机之父 戈登·贝尔

内容来源&#xff1a;量子前哨&#xff08;ID&#xff1a;Qforepost&#xff09; 文丨浪味仙 排版丨沛贤 深度好文&#xff1a;6000字丨15分钟阅读 5 月 21 日&#xff0c; 美国贝尔实验室资深人士 John Mashey 发布消息称&#xff0c;计算机先驱戈登贝尔&#xff08;Gordon…