OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

ChatGPT 开发商 OpenAI 构建人工智能的方法本周遭到了前员工的抨击,他们指责该公司利用可能有害的技术冒不必要的风险。今天,OpenAI 发布了一篇新的研究论文,目的显然是为了表明它在通过提高模型的可解释性来应对人工智能风险方面的认真态度。

在这里插入图片描述
在论文中,该公司的研究人员提出了一种窥探为 ChatGPT 提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念–包括那些可能导致人工智能系统行为失常的概念。

虽然这项研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近解散的"超对齐"团队完成,该团队致力于研究技术的长期风险。

前小组的共同负责人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票解雇了首席执行官山姆-奥特曼(Sam Altman),引发了几天的混乱,最终奥特曼重返领导岗位。

ChatGPT 由一个名为 GPT 的大型语言模型系列提供支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力,但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用,使得逆向分析 ChatGPT 这样的系统为何会得出特定的反应极具挑战性。

这项工作背后的研究人员在一篇随附的博文中写道:“与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为,包括 ChatGPT 在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐藏信息或以有害的方式行事,以实现它们的目标。”

OpenAI 的这篇新论文概述了一种技术,该技术借助额外的机器学习模型,识别代表机器学习系统内部特定概念的模式,从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络,从而提高效率。

OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的概念,包括亵渎和色情内容。了解一个模型是如何表现某些概念的,这将有助于减少与不受欢迎的行为相关的概念,使人工智能系统保持正常运行。它还可以调整人工智能系统,使其偏向于某些主题或想法。

尽管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为,该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时,只需让人工只能机器人解释其推理过程,就能获得深刻的见解。

东北大学从事人工智能可解释性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:"这是令人兴奋的进展。“作为一个领域,我们需要学习如何更好地理解和审视这些大型模型。”

鲍说,OpenAI 团队的主要创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技术还需要改进,以使其更加可靠。要利用这些方法创造出完全可以理解的解释,还有很多工作要做。"

鲍是美国政府资助的一项名为"国家深度推理结构"(National Deep Inference Fabric)的工作的一部分,这项工作将向学术研究人员提供云计算资源,以便他们也能探索特别强大的人工智能模型。他说:“我们需要想办法让科学家即使不在这些大公司工作,也能从事这项工作。”

OpenAI 的研究人员在论文中承认,要改进他们的方法还需要进一步的工作,但他们也表示,希望这种方法能带来控制人工智能模型的实用方法。他们写道:“我们希望有一天,可解释性能为我们提供推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为提供强有力的保证,大大增加我们对它们的信任。”

阅读论文全文:

https://cdn.openai.com/papers/sparse-autoencoders.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/692004.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

跨区域文件管控过程中 如何保障安全和效率?

跨区域文件管控是指在跨越不同地域或区域的情况下对文件进行管理和控制的过程。这种控制可能涉及多个方面,包括安全性、合规性和管理效率等。 为了有效进行跨区域文件管控,组织通常需要采取一系列策略和措施,例如: 1、加密和安全…

西门子学习笔记10 - MCGS和西门子1200进行通讯设置

1、博图软件的设置 1、修改PLC的ip地址为192.168.1.1 2、打开put,get通讯功能 3、设置通讯变量,可以是M区也可以是DB块的数据 2、MCGSE组态环境设置 1、新建项目,在设备窗口界面进入设备窗口 2、添加设备如下 3、双击进入配置界面 4、添加变…

把 FolkMQ 内嵌到 SpringBoot2 项目里(比如 “诺依” 啊)

FolkMQ (消息中间件)支持内嵌、单机、集群、多重集群等多种部署方式。 内嵌版,就相当于 H2 或 SQLite 数据库一样。给一些小项目(或者特别需求)带来了方便。大项目,则可以使用独立部署的 “单机版” 或 “…

原花青素优化定向壳聚糖微通道的简单免疫调控结构设计

引用信息 文 章:A facile Immunoregulatory Constructional Design by Proanthocyanidin Optimizing Directional Chitosan Microchannel 期 刊:Small(影响因子:13.3) 发表时间:29/02/2024 作 …

软件游戏找不到d3dx9_43.dll怎么办,三分钟教你解决此问题

在现代科技发展的时代,电脑已经成为我们生活中不可或缺的一部分。然而,在使用电脑的过程中,我们可能会遇到一些问题,其中之一就是电脑缺失d3dx943.dll文件。这个问题可能会影响到我们的正常使用,因此了解其原因和解决方…

AI Agentic Design Patterns with AutoGen(下):工具使用、代码编写、多代理群聊

文章目录 四、工具使用: 国际象棋游戏4.1 准备工具4.2 创建两个棋手代理和棋盘代理4.3 注册工具到代理4.4 创建对话流程,开始对话4.5 增加趣味性:加入闲聊 五、代码编写:财务分析5.1导入和配置代码执行器5.2 创建 代码执行/编写 代理5.3 定义…

IO进程线程(七)代码替换函数、守护进程

文章目录 一、代码替换函数(一)system函数(二)exec函数族 二、守护进程(一)创建1. 脱离父进程影响2. 脱离原会话组和进程组的影响3.修改进程工作目录4. 修改进程创建文件的掩码5. 关闭从父进程继承的文件描…

YB2416 SOP8封装30V耐压 低成本3A电流同步降压车充芯片

YB2416 SOP-8 SOP8封装30V耐压 输出电流3A 输出电压可调 输出限流调节 外部线补功能车充IC 过流打隔保护 YB2416A50 SOP-8 30V 3A 固定5V 输出 5%高恒流精度 欠压过流过温保护 YB2416是支持高电压输入的同步降压电源管理芯片,在 4~30V 的宽输入电压范围内可实现3A的…

http和https数据传输与协议区分

目录 1. 数据传输安全性2. 端口号3. URL 前缀4. SSL/TLS 证书5. 性能6. SEO 和用户信任7. 应用场景总结 HTTP(HyperText Transfer Protocol)和 HTTPS(HyperText Transfer Protocol Secure)是用于在客户端(如浏览器&…

Java基础_异常

Java基础_异常 异常体系介绍编译时异常和运行时异常异常的作用异常的处理方式JVM默认的处理方式自己处理(捕获异常)try...catch灵魂四问Throwable的成员方法 抛出处理 综合练习自定义异常来源Gitee地址 异常体系介绍 异常是什么? 程序中可能出…

输入偏置电流是什么?

输入失调电流与输入补偿电流概念一样(input offset current):同相减去反相输入端偏置电流的差值。这是由生产工艺导致同相与反相端的电流大小方向都会有所不同。 第一种情况:同相输入端减去反相输入端 第一种情况:同相…

windows环境安装多版本jdk与环境切换

1:JDK官网下载 2:安装目录 3:在系统环境变量新添加JAVA_HOME_8和JAVA_HOME_21 4:设置默认使用jdk21,如果需要切换,就更改JAVA_HOME的变量值 5:在环境变量path添加,%JAVA_HOME%\bin和…

Vue3学习第二天记录

Vue3学习第二天记录 背景说明截图记录一个简单的JS文件Vue3的watch()函数Vue3的toRef()/toRefs()函数前端数据类型的分类前端写一个对外暴露的函数前端的...语法Vue3中watch()函数的总结Vue3中watchEffect()函数Vue3中watch()函数的坑Vue3中computed()函数 背景 最近在学习尚硅…

Vue2学习(04)

目录 一、组件的三大组成部分 二、组件的样式冲突scoped 三、scoped原理 ​编辑 四、data是一个函数 五、组件通信 六、props详解 七、非父子通信 1.eventbus事件总线(可以一传多)--->作用是在非父子组件之间,进行简易的消息传递(复杂场景---&…

西瓜书总结——决策树原理+ID3决策树的模拟实现

西瓜书总结——决策树原理ID3决策树的模拟实现 前言1. 决策树结构2. 决策树的生成(注意区分属性和类别)3. 划分选择3.1 信息熵和信息增益3.2 增益率3.3 基尼指数(鸡你指数) 4. 剪枝处理4.1 预剪枝4.2 后剪枝 5. 连续值与缺失值处理…

获取东方财富网股票的实时数据股票的数据,并保存到Excel文件中

可以运行python文件获取东方财富网:【序号,代码,名称,最新价,涨跌幅,涨跌额,成交量,成交额,振幅,最高,最低,今开,昨收,量比,换手率,市盈率-动态,市净率,总市值,流通市值,涨速,5分钟涨跌,60日涨跌幅,年初至今涨跌幅,】数据,保存到Excel文件中。 import pandas as pd import re…

使用 Ollama 和 Open WebUI 自托管 LLM 聊天机器人(无需 GPU)

✨点击这里✨:🚀原文链接:(更好排版、视频播放、社群交流、最新AI开源项目、AI工具分享都在这个公众号!) 使用 Ollama 和 Open WebUI 自托管 LLM 聊天机器人(无需 GPU) &#x1f31…

OS复习笔记ch7-3

承接上文我们讲完了页式管理和段式管理,接下来让我们深入讲解一下快表和二级页表 快表 快表和计算机组成原理讲的Cache原理如出一辙。为了减少访存的次数,OS在访问页面的时候创建了快表(Translation Lookaside Buffer ,简称TLB&…

数字滤波器和模拟滤波器(一)

模拟滤波器和数字滤波器(一) 下面介绍模拟滤波器和数字滤波器的频率响应的异同,以及如何使用python地scipy.signal来绘制其频谱响应和冲激阶跃响应。在第二期将谈到如何设计模拟滤波器和数字滤波器。 在正文之间,应该介绍连续时…

【面向就业的Linux基础】从入门到熟练,探索Linux的秘密(一)

主要帮助大家面向工作过程中Linux系统常用的命令联系,采用极致的实用主义,帮助大家节省时间。 文章目录 前言 一、linux系统 二、linux系统基本命令 1.Linux系统的目录结构 2. 常用命令介绍 3.命令演示 4.作业练习 总结 前言 主要帮助大家面向工作过程中…