三院院士 Michael I. Jordan 指出:大模型在两个方向仍需 “努力“,补充过度自信问题和逆转诅咒问题

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


三院院士 Michael I. Jordan 指出:大模型在两个方向仍需 “努力“

Michael I. Jordan 的个人主页:https://people.eecs.berkeley.edu/~jordan/

回顾过去的一年,大模型的崛起无疑对技术产业格局产生了巨大影响。然而,尽管其影响深远,但鲜有人讨论大型模型的真正致命缺陷。

“如果你询问 ChatGPT 乌干达总统是谁,它会给出一个答案。但如果你问它刚才所说话语的确定性,它无法给出令人满意的回答。” —— Michael I. Jordan

乌干达总统是谁?你评估一下自己刚才所说话语的确定性!

近期,Michael I. Jordan 院士在智源专访中提到,当前大语言模型在两个前沿方向上仍需努力。首先,大语言模型缺乏量化不确定性并进行干预的能力,这意味着模型在给出答案时无法确定其准确性,也无法对不确定性进行干预和调整。其次,大语言模型缺乏一个良性的经济激励模式,即模型应追溯提供答案的人,并给予相应的报酬或其他激励方式,这才是真正的经济系统运作方式。因此,未来大语言模型的发展需要在这些方面进行改进和优化。

这两点与他自身的知识框架紧密相关。Michael 在几十年的学术生涯中经历了两次顿悟,一次涉及统计学,另一次关乎微观经济学。机器学习、统计学和经济学的交融使他深刻认识到从系统角度解决医疗、教育等现实问题的重要性。这个时代最吸引人的挑战是实现一种集体主义的机器学习,即从人群乃至人机混合的整体层面进行分析。

大语言模型缺乏量化不确定性并进行干预的能力

在回答问题时,大型模型不仅需要给出结果,还应该评估其确定性。不幸的是,目前的大模型在这方面表现不佳,且很少有研究者深入研究不确定性问题。优秀的统计学家会经常评估答案的可靠性,这是我们应该学习的。尽管目前的大语言模型在许多任务上表现出色,但在评估自身推理的确定性方面仍然存在挑战。如果你问 ChatGPT,它会告诉你乌干达总统是谁。但如果你问它刚才说的话有多确定,它要么无法回答这个问题,要么会查看过去的情况,从数据和别人的回答中推断。然而,这并不是一个好的推理不确定性方法。

ChatGPT 不太擅长处理不确定性,比如说它不知道世界上正在发生什么。或者它可能会说它不知道,但它并不真正知道 “它不知道”。它无法定量评估对自己知识的匮乏程度。它不知道怎么说我想和你合作,因为你比我懂得多。它不知道如何成为事物集体的一部分。由于没有经过充分的训练,它不知道如何收集新数据。它不知道它是否已被损坏…有很多很多它不知道的事情。

我们人类在这方面好多了,我们会说:“嗯,我不太确定,原因如下:” 。我可以追溯到我知识不完整的原因。此外,我需要获取更多信息,以便更加确定,这是人类的常见反应。这些推理风格基于统计学,将不确定性聚合并收集更多数据。ChatGPT 和其他大语言模型尚未明确实现这一点,即使它们在某种程度上隐式地考虑了不确定性。

人类虽然并不完美,但是我们一直在应对大量的不确定性。这是人类特别擅长的。所以说,谈及人类智能,但却没有一个好的关于不确定性的模型,对我来说,那只杯子只满了一半。所以问题的重点在于不确定性。现在,不确定性不仅仅是噪声,随着我们测量的东西越来越多,不确定性就会消失。这是工程学中思考问题的一种经典方式。不确定性是指你真正知道一些我不知道的事情,而你却不愿意告诉我(出于隐私、竞争等原因)。我们不公开分享所有知识的原因有很多,经济学家将此称为信息不对称

我真的希望大模型能够更好地处理推理中的不确定性。因此,我坚信统计原理在机器学习(包括大语言模型)中至关重要,这一信念已持续 30 年。忽视统计原理将会影响系统在实际应用中的有效性,使其不够实用和可靠,也无法更好地与人类交流。

从更专业的角度来看,讨论 ChatGPT 的巨大成功时,我们发现它在量化不确定性方面存在一些不足。为解决这一问题,我们可以考虑运用统计学原理,例如共形预测、校准方法、渐近方法和引导方法,来探讨不确定性和算法改进。引入这些原则和方法到大语言模型和深度神经网络中需要进行复杂的系统工程,耗费大量时间。

大语言模型缺乏一个良性的经济激励模式

此外,我认为大语言模型存在一个不太健康的问题,即它们从互联网获取所有数据,却无法准确提供预测的来源,即哪些人的答案和意见支持了这一预测。例如,它们将维基百科作为输入,这样一来,当人们有问题时,以前会去维基百科查找答案,现在则会转向 ChatGPT,我对此持反感。维基百科的创建者付出了巨大努力,这是集体智慧的结晶,但现在这些努力仅仅被 ChatGPT 简单地利用,而 ChatGPT 却获得了收益。这并不构成良好的经济模式。我认为这不会激励人们有效地使用互联网和知识,也不会促使他们更好地聚集在一起。理想情况下,如果我为某些问题支付费用以使用 GPT 作答,那么应该追溯到提供这些答案的人,并给予相应的报酬或其他激励方式,这才是真正有效的经济运作方式。它应该激励真正做出贡献的人,但目前 ChatGPT 还无法做到这一点。

过度自信问题

人们发现,大语言模型(LLMs)很难知道自己不具备某些知识,在这种情况下往往会提供似是而非的答案。为了减轻 LLMs 的幻觉,人们对检索增强(RA)进行了广泛的研究。然而,由于可能存在额外的成本和无法保证的检索质量,一直进行检索增强可能不是最优策略。一个简单而明确的思路是,只有当 LLMs 对问题存在不确定性时才进行检索。因此,我们需要提高 LLMs 对知识边界的感知能力,以帮助它们更有效地进行检索增强。

什么情况下需要对 LLMs 进行检索增强?减轻 LLMs 的过度自信有助于提高检索增强的效果。在这项研究中,研究者首先定量测量了 LLMs 的这种能力,并确认它们的过度自信现象。接着,他们探讨了 LLMs 对问题确定性与对外部检索信息的依赖之间的关系。最终,他们提出了几种增强 LLMs 对知识边界感知的方法,并证明这些方法可以有效减轻过度自信。此外,借助这些方法,LLMs 可以用更少的检索调用实现与检索增强相当甚至更好的性能

逆转诅咒问题

如果一个人知道 “奥拉夫·朔尔茨是联邦德国第九任总理” 这个事实,他们就可以正确回答 “谁是德国第九任总理?” 这个问题。这是一种基本的泛化形式,看起来平平无奇。

然而研究表明,当前 AI 领域里火热的自回归式大语言模型无法以这种方式进行泛化。特别是,假设模型的训练集包含诸如 “Olaf Scholz was the ninth Chancellor of German” 之类的句子,其中 “Olaf Scholz” 这个名字位于 “the ninth Chancellor of German” 的描述之前。然后,大模型可能会学会正确回答 “奥拉夫·朔尔茨是谁?”(答案是:德国第九任总理)。但它无法回答 “德国第九任总理是谁?” 以及描述位于名称之前的任何其他提示。这就是我们称之为 “逆转诅咒” 的排序效应的一个实例。这项研究通过实验证明,只在一种方向上(“A 是 B”)训练的 LLMs 不能很好地推广到相反的方向(“B 是 A”)。

Inconsistent knowledge in GPT-4

大语言模型在 “逆转诅咒” 下无法正确推断出相反的关系,暴露了其在逻辑推理和泛化能力上的不足

  • 逆转诅咒是指大语言模型无法正确推断出相反的关系,例如无法从 “A 是 B” 推断出 “B 是 A”。

  • 这种排序效应与模型体量、问的问题等因素无关,暴露了大模型在逻辑推理和泛化能力上的不足。

  • 逆转诅咒的存在表明了大模型训练过程中逻辑演绎的基本失败,传统的知识图谱也无法解释这一现象。

  • 逆转诅咒的发现引起了 AI 研究者的关注,对于避免逆转诅咒的方法仍需进一步研究。

实验证据:作者通过在合成数据上微调 GPT-3 和 Llama-1 等模型,以及在真实名人数据上测试 GPT-4 等模型,发现 LLM 在逆转方向上的表现远远低于正向,表现出逻辑推理的失败。

改进尝试:作者尝试了不同的训练设置,如增加数据量、增加双向示例、增加同义改写、改变数据格式等,但都没有缓解逆转诅咒的问题。

讨论和展望:作者探讨了逆转诅咒的可能原因,如梯度更新的单向性、元学习的缺失等,并提出了一些未来的研究方向,如研究其他类型的关系、寻找逆转失败的实例、分析逆转诅咒的实际影响等。


📚️ 参考链接:

  • Michael Jordan:大模型在两个方向仍需 "努力"丨智源专访

  • Ni, S., Bi, K., Guo, J., & Cheng, X. (2024). When Do LLMs Need Retrieval Augmentation? Mitigating LLMs’ Overconfidence Helps Retrieval Augmentation. arXiv preprint arXiv:2402.11457.

  • Berglund, L., Tong, M., Kaufmann, M., Balesni, M., Stickland, A. C., Korbak, T., & Evans, O. (2023, October). The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”. In The Twelfth International Conference on Learning Representations.

  • 机器学习泰斗 Michael I. Jordan 与张宏江共话青年成长之路:研究者要对复杂时代有所贡献

  • Michael I. Jordan 最新报告:去中心化机器学习中的契约、不确定性和激励

  • 机器学习泰斗迈克尔·乔丹:AI 的本质是集体,而不是个人

  • 大模型的最大 bug,回答正确率几乎为零,GPT 到 Llama 无一幸免

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/408352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构和算法初阶(c语言)】数据结构前言,初识数据结构(给你一个选择学习数据结构和算法的理由)

1.何为数据结构 数据结构(Data Structure)是计算机存储、组织数据的方式,指相互之间存在一种或多种特定关系的 数据元素的集合。本质来讲就是在内存中去管理数据方式比如我们的增删查改。在内存中管理数据的方式有很多种(比如数组结构、链式结构、树型结…

【Spring MVC】处理器映射器:AbstractHandlerMethodMapping源码分析

目录 一、继承体系 二、HandlerMapping 三、AbstractHandlerMapping 四、AbstractHandlerMethodMapping 4.1 成员属性 4.1.1 MappingRegistry内部类 4.2 AbstractHandlerMethodMapping的初始化 4.3 getHandlerInternal()方法:根据当前的请求url,…

linux安装sqoop

目录 下载配置 下载 本地下载好上传,解压,重命名,注意路径 tar -zxvf /opt/sqoop/sqoop-1.4.6.tar.gz -C /opt/ mv /opt/sqoop-1.4.6.bin__hadoop-2.0.4-alpha /opt/sqoop配置 环境变量 echo export SQOOP_HOME/opt/sqoop/ >> /etc…

FISCO BCOS(二)———配置及使用控制台

一、前言 FISCO BCOS是由金融区块链合作联盟(深圳)与微众银行共同发起的开源区块链项目,支持多链多账本,满足金融行业复杂业务需求。本文将介绍如何在Ubuntu操作系统上使用Linux命令配置FISCO BCOS的控制台并进行get/set操作。 目…

文生视频模型调研

文生视频只有OpenAI的Sora,其他的()都是动图。 OpenAI发布了可以生成60s视频的Sora模型。刚刚发布的google的Gemini pro 1.5就一下子变得无人问津了,太尴尬了。 在这之前视频生成的天花板是Runway,支持最多18s视频生成…

设计模式-创建型模式-建造者模式

建造者模式(Builder Pattern):将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。建造者模式是一种对象创建型模式。 建造者模式一步一步地创建一个复杂的对象,它允许用户只通过指定复杂对象…

MBG(Mybatis-Generator)生成代码

目录 步骤: 1. 创建数据库表 2. 配置 MyBatis Generator 3. 运行 MyBatis Generator 4. 编写业务逻辑 在实际开发中,你会发现有很多重复的工作: 首先是PO对象,我们往往创建与数据库表字段一一对应的PO对象; 其次在Mapper里…

十四届蓝桥杯国赛考试计算思维 U10 组真题和答案

答案在底部 第一题 恐龙乐园的规划图中有 n 个小岛,m 座小桥,每座桥连接两个小岛。 下图是 n=5,m=8 的一个例子: 希希发现,如果拆除一些桥,仍然能使任何两个小岛都互通。最多可以拆除( )座 桥。 A. n-m B. m-n C. m-m-1 D. m-n+1 第二题

YOLOv8重磅升级!新增旋转目标检测功能

YOLOv8重磅升级!新增旋转目标检测功能,基于DOTA数据集,支持15个类别目标航拍图像检测,模型&代码均已开源~ 新版亮点 YOLOv8-OBB:YOLOv8中OBB(Oriented Bounding Box)模型的引入标志着物体检测的重要一步&#xff…

简单mock server模拟用户请求给小程序提供数据

整理小程序代码时发现一此小程序离开了mock-server基本上没有办法显示了,因此用node,express来满足给小程序提供演示数据的功能 const express require(express); const { createCanvas, Image } require(canvas); const fs require(fs); const path require(path);…

【图像处理】Matlab图像边缘检测与直线提取

1、问题描述: 使用Matlab图像边缘检测和直线提取。通过选取感兴趣区域,用户可以选择需要处理的图像部分。随后,对选取的区域进行亮度调整、直方图均衡化和自适应直方图均衡化等预处理操作,以增强图像的细节和对比度。 然后…

SpringBoot+PDF.js实现按需分片加载预览(包含可运行示例源码)

SpringBootPDF.js实现按需分片加载预览 前言分片加载的效果前端项目前端项目结构前端核心代码前端项目运行 后端项目后端项目结构后端核心代码后端项目运行 项目运行效果首次访问分片加载 项目源码 前言 本文的解决方案旨在解决大体积PDF在线浏览加载缓慢、影响用户体验的难题…

从docx提取文本的Python实战代码

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

代码随想录day33-动态规划的应用1

LeetCode62.不同路径 题目描述: 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 …

Linux的进程

在Linux中,可以使用多种方式来结束进程。以下是8种常见的方式: 终端中断(Ctrl C):在终端中运行的程序可以通过按下Ctrl C组合键来发送SIGINT信号,终止该进程的执行。 kill命令:使用kill命令可…

软考39-上午题-【数据库】-关系代数运算1-传统的集合运算

一、笛卡尔积 二、关系代数 关系代数是施加于关系之上的集合代数运算。 关系代数包含: 传统的集合运算专门的关系运算 2-1、传统的集合运算 1、关系的并 示例: 2、关系的差 示例: 3、关系的交 示例: 关系的并、差、交&#xf…

【C语言】linux内核ipoib模块 - ipoib_ib_handle_rx_wc

一、中文注释 // 定义一个处理InfiniBand接收完成工作请求的函数 static void ipoib_ib_handle_rx_wc(struct net_device *dev, struct ib_wc *wc) {// 通过网络设备获取私有数据结构struct ipoib_dev_priv *priv ipoib_priv(dev);// 获取工作请求ID,并屏蔽掉接收…

【Flink精讲】Flink 内存管理

面临的问题 目前, 大数据计算引擎主要用 Java 或是基于 JVM 的编程语言实现的,例如 Apache Hadoop、 Apache Spark、 Apache Drill、 Apache Flink 等。 Java 语言的好处在于程序员不需要太关注底层内存资源的管理,但同样会面临一个问题&…

纳斯达克大屏-投放需要知道的几个条件-大舍传媒

引言 随着移动互联网的快速发展,数字广告媒体广告越来越受到企业的关注。纳斯达克大屏作为全球最大的数字媒体广告投放平台之一,拥有广泛的受众和优质的媒体资源,吸引了众多企业的眼球。要想在纳斯达克大屏上投放广告,企业需要了…

java数据结构与算法刷题-----LeetCode617. 合并二叉树

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 解题思路 此题如果使用广度优先遍历,一定需要创建很多队列&…