一年前 LLM AGI 碎片化思考与回顾系列⑦ · 在SystemⅡ未知之境之中徘徊

阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。

因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。

在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会尽量保持原文内容不变。

另外大伙需特别注意的是,因为保持了原始记录时内容的不变(仅修改笔记上的笔误与错字),一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然坦率地说,自己确实也在回顾中针对某些想法有了新的思路!如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!

最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。


「2023/06/12 · 在SystemⅡ未知之境之中徘徊

图片

背景提要 ↓

基于上一篇“探索复杂推理的未知之境”,本篇笔记将在system2的未知之境中继续徘徊、探索,并对一些本质问题继续通过慢思考的模式来尝试进行思维上的扩散与延展,并期待在其中过滤并把握住一些本质洞察。同时,大家可以结合本次记录和思考的内容,可以去阅读那篇「融合RL与LLM思想,探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」,我想将会有一些不一样的体会吧,这也是这个系列分享目的之一。

记录正文 ↓

前日针对整个E2E下的system2涉及到的深度推理模式与对应的神经网络中的神经元信号激活形式两者间的等效性进行了大胆猜想与尝试,在这一过程中,我们看到针对某一模式寻找对应的另一种抽象结构上的形式化映射匹配,其难度可想而知,且现在似乎也没有相关完备的理论去支撑印证它,而对于复杂的长链推理本身而言,对于我们当下的探索来说仍有许多未解之谜:

① 上接前文,这种E2E system2长链思维模式是否对于我们所身处的真实世界来说是一种真实存在的客观认知规律呢,其反映出的推理链,归纳链,反思链等这些看似决策过程的中间环节是否是得出答案(因→果)的客观存在的必须一环呢?是否存在其它链式模式或完全的非链式结构(非人类或超越人类现有认知模式)甚至根本不存在这种长链模式的存在呢?而上述这种范长链模式是否可以通过一个完全E2E的的方式通过超大样本,超大多样性的推理任务数据集仅通过输入因和输出的果(不包含中间的推理模式过程)将这种中间的非或超人类推理模式硬拟合到模型参数并通过网络中神经元信号激活的传递中呢?!

如果拿强化学习(如DPO)训练的过程来举例,即仅通过稀疏奖励函数而非稠密奖励函数来完成对于神经网络中多层神经元的目标价值的梯度优化。研究强化学习的大家可能都知道,密集型的过程奖励对模型目标的收敛是有益的,但这种“有益”的意义背后的真实原因可能还未找到一个足矣令人信服的答案。直觉上,这种稠密的过程奖励通过利用某种可行的模式将优化目标进行细粒度切分并融合,即同时将切分后的细粒度目标映射匹配到稠密奖励的过程中来,这一过程也许降低了目标优化过程中采用数学工具或方法的难度,也许是仅仅按照人类的某种特有的先验认知模式来形式性的“简化”这一复杂过程的折中,也许通过这样的形式性“简化”或“取巧”,也会在这一过程中使我们丢失或遗漏一些东西,甚至是导致这一过程复杂度提升的元凶。(回到当前时间节点的额外补充:大家可以试想一下基于CV像素级别建模学习的sora和llm对于原始训练数据的采样并最终学习到物理规律的过程)在这里可以思考一下alpha zero的强化学习过程中的长期稀疏奖励与短期稠密奖励两者间的平衡意义。

② 可否真的可以将长链推理中的规划、步骤分解、反思等过程模式映射为某种模型网络信号激活结构,实现E2E呢?如某一场景下模型通过迭代反思后发现并没有理解问题或基于历史长链推理出现了偏差或矛盾而无法做出生成应答,而模型内部的某隐层信号激活状态又会感知到这种状态,模型内部的神经元信号传递并激活到另一其中隐层状态,从而形式上促进另一种思维模式去继续尝试探索...目前这一部分仍仅停留在猜想假说阶段,后续可能需要结合实验进行持续的探索,但相信最终人类能够通过逐步的探索,最终打开隐藏在模型内部的黑盒。

③【阶段性总结】:感觉我所理解的上述system2的E2E更多是体现在让模型网络中神经元的激活状态与路径(参数控制)最终拟合到人类所擅长的认知长链推理模式中去,实现模型网络结构中参数激活传递的多跳,而COT思想下的autoGPT,HuggingGPT,plugin更多是在推理形式维度上生成单跳(为什么说是推理形式维度:因为在模型网络结构参数中实际上应该是多跳,如物理的多跳,但这种物理的多跳没有涌现出逻辑的多跳)。即推理真正的在模型参数的激活中中涌现出抽象长链推理。


「本篇配图

这一期的笔记貌似问题很多,看的出来在涉足“未知之境”当中自己的这种迷茫和彷徨,甚至直到当下,其中的部分问题还是悬而未决。

但处于这种“未知之境”中除了带给我迷茫和彷徨之外,也对未知有着越来越强烈的兴奋和期待。

因此本期配图将为大家附上我未曾亲身品尝过并拍照留存的一些美食图片(之前的配图都是来自自己的吃拍照),图片来自昨日好友朋友圈晒的吃拍照,嗯...他也是一位爱吃拍的“美食家”哦~你们能是否吃过或能叫出菜名吗?味道如何?欢迎大家评论区讨论~

图片

图片


「融合RL与LLM思想,探寻世界模型以迈向AGI」内容回顾与再版更新

融合RL与LLM思想,探寻世界模型以迈向AGI「上篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「中/下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「下篇」

融合RL与LLM思想,探寻世界模型以迈向AGI「总结」

合集PDF版本v6.2已更新,大家可访问百度网盘地址自行下载:

https://pan.baidu.com/s/1dwuviZkL8J7afBhjEQqXqg?pwd=lm51

提取码: lm51

或扫码下载:

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/734882.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

乾坤微服务的使用

前言: 在这里整理下用乾坤来开发微服务的一些资料。 使用好处: 使用乾坤可以实现什么效果呢?众所周知,前端的框架五花八门,react/vue/angular等各领风骚,那么如果我们有需要把不同技术栈的项目整合起来&…

UFS Power Mode Change 介绍

一. UFS Power Mode Change简介 1.UFS Power Mode指的是Unipro层的Power State, 也可以称为链路(Link)上的Power Mode, 可以通过配置Unipro Attribute, 然后控制切换Unipro Power State, 当前Power Mode Change有两种触发方式: (1) 通过DME Power Mode Change触发…

Tortoise 删除文件

1、右击需要删除的文件,选择Delete 2、提交

遗传算法求解时间窗车辆路径规划问题(附python代码)

摘要 本研究提出了一种基于遗传算法的车辆路径规划(VRP)问题求解框架,它能够有效地处理一系列复杂约束,包括软时间窗、硬时间窗、行驶距离限制、车辆最大载重量、多个配送中心的协调、特定的配送顺序,以及多种车型的选…

【Python系列】探索 NumPy 中的 mean 函数:计算平均值的利器

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【AI技术】GPT-4o背后的语音技术猜想

前言: 本篇文章全文credit 给到 台大的李宏毅老师,李宏毅老师在机器学习上风趣幽默、深入浅出的讲解,是全宇宙学AI、讲中文学生的福音,强力推荐李宏毅老师的机器学习课程和深度学习 人工智能导论; 李宏毅老师的个人长…

LabVIEW机器视觉在质量控制中的应用

基于LabVIEW的机器视觉系统在质量控制中应用广泛,通过图像采集、处理和分析,自动检测产品缺陷、测量尺寸和识别标记,提高生产效率和产品质量。下面介绍LabVIEW机器视觉系统在质量控制中的实现方法、应用场景及其优势。 项目背景 在现代制造业…

Redis 入门篇

文章目录 Redis简介关系型数据库:非关系型数据库 Redis应用场景Redis下载和安装Redis 数据类型Redis 常用命令字符串 string 操作命令哈希 hash 操作命令列表 list 操作命令集合 set 操作命令有序集合 sorted set 操作命令通用命令 Jedis 快速入门配置依赖建立连接 / 操作 Jedi…

ShareX,屏幕截图、屏幕录制和文件共享,还提供了丰富的高级功能和自定义选项

ShareX是一个免费开源的Windows应用程序,用于屏幕截图、屏幕录制和文件共享。它不仅支持基本的屏幕截图功能,还提供了丰富的高级功能和自定义选项,使其成为提高工作效率和截图体验的利器。以下是ShareX v16.1.0便携版的主要功能和特色&#x…

NeRF从入门到放弃4: NeuRAD-针对自动驾驶场景的优化

NeuRAD: Neural Rendering for Autonomous Driving 非常值得学习的一篇文章,几乎把自动驾驶场景下所有的优化都加上了,并且也开源了。 和Unisim做了对比,指出Unisim使用lidar指导采样的问题是lidar的垂直FOV有限,高处的东西打不…

Vue: Module “vue“ has no exported member xxx

这个问题让我困扰了好一会儿,我询问了 chatgpt 和各种网站社区,尝试了切换依赖的版本,清除缓存等等,依然没有解决 不过算是有心栽花花不开,无心插柳柳成荫,碰巧解决了,也不知道是不是这个原因&a…

java收徒 java辅导 java试用期辅导 java零基础学习

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末报名辅导🌟 感兴趣的可以先收藏起来,还有大家…

WinMerge v2 (开源的文件比较/合并工具)

前言 WinMerge 是一款运行于Windows系统下的免费开源的文件比较/合并工具,使用它可以非常方便地比较多个文档内容甚至是文件夹与文件夹之间的文件差异。适合程序员或者经常需要撰写文稿的朋友使用。 一、下载地址 下载链接:http://dygod/source 点击搜…

微信小程序-伪类选择器

一.伪类选择器 结构伪类常见书写方式: 第一类:找第几个孩子 1. :first-child 找第一个孩子2. :last-child 找最后一个孩子3. :nth-child(),正着找数字:写数字几就是找第几个孩子,2n或者even:找偶数2n1或者o…

python数据分析案例-信用卡违约预测分析

一、研究背景和意义 信用卡已经成为现代社会中人们日常生活中不可或缺的支付工具,它不仅为消费者提供了便利,还为商家提供了更广泛的销售渠道。然而,随着信用卡的普及和使用量的增加,信用卡违约问题逐渐成为金融机构面临的重要挑…

Java基础的重点知识-03-方法与数组

文章目录 方法数组 方法 定义方法的格式详解 修饰符 返回值类型 方法名(参数列表){//代码省略...return 结果; }修饰符: public static 固定写法返回值类型: 表示方法运行的结果的数据类型,方法执行后将结果返回到调用者参数列表&#xff1…

Pytho字符串的定义与操作

一、字符串的定义 Python 字符串是字符的序列,用于存储文本数据。字符串可以包括字母、数字、符号和空格。在 Python 中,字符串是不可变的,这意味着一旦创建了一个字符串,就不能更改其中的字符。但是,你可以创建新的字…

一文读懂LLM API应用开发基础(万字长文)

前言 Hello,大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者,上一篇文章中我们详细介绍了LLM开发的基本概念,包括LLM的模型、特点能力以及应用;😲 在本文中作者将通过&#xff1a…

Flutter ListView详解

文章示例代码 ListView常用构造 ListView 我们可以直接使用ListView 它的实现也是直接返回最简单的列表结构&#xff0c;粗糙没有修饰。 ListView 默认构建 效果 ///默认构建 Widget listViewDefault(List list) { List _list new List(); for (int i 0; i < list.le…

Java学习 - 网络IP协议簇 讲解

IP协议 IP协议全称 Internet Protocol互联网互连协议 IP协议作用 实现数据在网络节点上互相传输 IP协议特点 不面向连接不保证可靠 IP协议数据报结构 组成说明版本目前有IPv4和IPv6两种版本首部长度单位4字节&#xff0c;所以首部长度最大为 15 * 4 60字节区分服务不同…