[AI OpenAI] 提取GPT-4中的概念

总结:

研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。


我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前,我们还不理解如何理解语言模型内部的神经活动。今天,我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性,我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文(打开新窗口)、代码(打开新窗口)和特征可视化(打开新窗口),以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据组件的规格直接设计、评估和修复汽车,确保安全和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。产生的网络并不被很好理解,也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络,我们首先需要找到神经计算的有用构建块。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们也密集地激活,意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中,只有一小部分概念是相关的。这促使了稀疏自编码器的使用,这是一种方法,用于识别神经网络中对产生任何给定输出重要的少数“特征”,类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念对齐,即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而,训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念,我们的自编码器可能需要相应地巨大,以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的,过去的工作并没有显示出良好的可扩展性。

我们的研究进展:大规模自编码器训练

我们开发了新的最先进的方法论,允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展,比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器,包括GPT-4上的1600万特征自编码器。为了检查特征的解释性,我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征:

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而,这仍然是一项早期工作,存在许多限制:

  • 与之前的工作一样,许多发现的特征仍然难以解释,许多特征在没有明显模式的情况下激活,或者表现出与它们似乎通常编码的概念无关的虚假激活。此外,我们没有好的方法来检查解释的有效性。
  • 稀疏自编码器并没有捕捉到原始模型的所有行为。目前,将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念,我们可能需要扩展到数十亿甚至数万亿个特征,即使使用我们改进的扩展技术,这也是一项挑战。
  • 稀疏自编码器可以在模型的某一点找到特征,但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的,以及这些特征是如何在模型的其余部分中被使用的。

展望未来,并开放我们的研究

尽管稀疏自编码器研究令人兴奋,但前面还有一条漫长的道路和许多未解决的挑战。短期内,我们希望我们发现的特征能够实际用于监控和引导语言模型的行为,并计划在我们前沿模型中测试这一点。最终,我们希望有一天,可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性,并通过提供关于它们行为的强大保证,显著增加我们对强大AI模型的信任。

今天,我们分享了一篇论文(打开新窗口),详细介绍了我们的实验和方法,我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器,以及使用它们的代码(打开新窗口),和特征可视化工具(打开新窗口),以了解GPT-2和GPT-4特征可能对应的内容。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/686891.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【面试干货】索引的作用

【面试干货】索引的作用 1、索引的作用 💖The Begin💖点点关注,收藏不迷路💖 1、索引的作用 索引 可以协助 快速查询、更新数据库表中数据。 通过使用索引,数据库系统能够快速定位到符合查询条件的数据,提…

第二证券炒股知识:北交所的股票是a股吗?是主板吗?

北交所的股票是a股,但不属于主板,是一个单独的板块。 A股主板是在上海证券买卖所或许深圳证券买卖所上市的公司,主板通常是大盘股,多为商场占有率高、规划大、盈余安稳良好的大型企业。沪市主板以600、601或603最初,深…

Game Fi链游:定制开发源码搭建

随着科技的飞速发展,游戏开发行业正经历着前所未有的变革。Game Fi,这个新兴的概念,正以其独特的魅力,引发了游戏开发行业的热潮。 一、Game Fi 的概念与影响 Game Fi,是一种新型的游戏开发模式,它强调游…

从0到1实现一个自己的大模型,实践中了解模型流程细节

前言 最近看了很多大模型,也使用了很多大模型。对于大模型理论似乎很了解,但是好像又缺点什么,思来想去决定自己动手实现一个 toy 级别的模型,在实践中加深对大语言模型的理解。 在这个系列的文章中,我将通过亲手实践…

Django项目部署(命令函部署)

Django项目搭建 一. 下载宝塔面板 我这里使用的是命令函部署 , 下载宝塔主要为了是方便操作 , 宝塔的终端支持复制粘贴 , 而且可以帮助我们快速的检索文件目录以及避免一些软件的环境配置 下载方法: ​ 打开浏览器访问 : 宝塔面板下载,免费全能的服务器运维软件…

智谱AI最新开源模型CHATGLM4-9B试用

智谱AI最近开源了GLM4-9B模型。之前已开源chatglm1到chatglm3,相比前面开源的相比GLM3-6B有了大幅度提升。本次开源基本的GLM4-9B,还开源了对话版GLM-4-9B-Chat, 多模态版GLM-4V-9B, 长文本版GLM-4-9B-Chat-1M。 在语义、数学、推…

解决nvidia驱动和CUDA升级问题

解决nvidia驱动和CUDA升级问题 注释:升级高版本的nvidia驱动和cuda是不影响现有的docker镜像和容器的。因为是向下兼容的。仅仅升级后重启服务器即可。 ERROR: An NVIDIA kernel module ‘nvidia-drm’ appears to already be loaded in your kernel. This may be…

git根据历史某次提交创建新分支

有时候项目在做版本管理的时候,忘记了创建某次版本的分支,而直接在主分支上进行开发了,这个时候,想要对某次提交单独拉出来一个版本分支,就需要用到这个功能: git checkout -b 新分支名 某次提交的id 找到…

全栈工程师之路 — 从零到精通Spring Boot -1

全栈工程师之路 — 从零到精通Spring Boot -1 Day 1: 项目初始化与依赖配置 课程详细介绍: 在第一天,我们将创建一个简单的Spring Boot项目,进行基本的初始化和依赖配置。我们将使用Maven子模块方式组织项目结构,并配置基本的依赖以支持后续学习。 示例代码: 创建父项…

QT Creator与QT的下载安装

0.起因/小结: 因为运行项目需要更高版本的QT。 下载了QT 6.2.0,但是里面的gcc,g,gdb是64bit的,而我的QT Creator是32bit的,所以又下载了QT 13.0.0的64bit版本。 遇到问题:msvcp140_1.dll找不到…

轻兔推荐 —— hoppscotch

via:轻兔推荐 - https://app.lighttools.net/ 简介 hoppscotch是一个开源的http调试客户端,界面简洁,功能完善,原名叫postwomen,明显是要跟postman干的,作为postman的替代品就挺合适 - 功能完善&#xff…

【全开源】Java 农产品类型商城APP小程序公众号源码(APP+小程序+公众号+H5)

农产品商城小程序:新鲜直达,品味田园生活 🌾一、引言:农产品商城小程序的便捷与实用 在现代快节奏的生活中,我们常常怀念那份来自大自然的纯粹味道。农产品商城小程序应运而生,将新鲜、健康的农产品直接送…

Ubuntu server 24 (Linux) 保存iptables 规则 重启也生效

1 默认iptables-save 保存,及时生效,重启服务器失效的 sudo iptables-save > /etc/iptables/rules.v4 2 系统启动时自动应用规则,安装iptables-persistent sudo apt-get update sudo apt-get install iptables-persistent 3 重启服务器…

目标检测——铁轨表面裂纹数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

【git】subtree 简单教程

git subtree使用案例 😄生命不息,写作不止 🔥 继续踏上学习之路,学之分享笔记 👊 总有一天我也能像各位大佬一样 🏆 博客首页 怒放吧德德 To记录领地 🌝分享学习心得,欢迎指正&am…

交流回馈老化测试负载:行业竞争态势

在当今的科技行业中,交流回馈老化测试负载设备已经成为了一个重要的组成部分。这种设备主要用于模拟电力系统中的各种负载情况,以便对电力系统进行全面的测试和评估。随着科技的不断发展,这个行业的竞争态势也在不断变化。 从市场竞争的角度来…

电脑风扇声音大?6个正确解决方法记得收藏!

“不知道为什么,我在使用电脑时,发现我电脑的风扇声音特别大,有什么比较好的解决方法吗?希望大家给我分享一下。” 想象一下,当你正沉浸在紧张刺激的电竞对战中,或是努力钻研一项复杂的项目时,那…

windows域控共享网络驱动器

背景 假设在一家公司,有新入职的员工。我们给其创建了域账号,有一些共享的文件需要其可以直接访问到。我们可以采用共享目录的形式,但是每次都要输入共享端的ip或者主机名,比较麻烦。我们希望创建的域账号访问共享文件更便捷一些…

SpringSecurity6从入门到实战之登录表单的提交(源码级讲解,耐心看完)

SpringSecurity6从入门到实战之登录表单的提交(源码级讲解,耐心看完) 文接上回,当SpringSecurity帮我们生成了一个默认对象.本文继续对登录流程进行探索,我们如何通过账号密码进行表单的提交,SpringSecurity在这过程中又帮助我们做了什么 登录表单的提交的源码分析 在之前了解…

未来已至!OpenAI领航:日产千亿单词,5-7万亿AI芯片巨资揭秘,人类语言产出将被超越?

OpenAI每日狂飙,产出千亿单词!他们的野心不止于此,未来竟想超越全球人类每日的百万亿单词产量。 而支撑这一切的,是一个震撼天地的5至7万亿美元的AI芯片投资大计。你能想象吗?这比许多国家的GDP还要高! 想…