LLMs应被视为一种文字计算器?

编者按:当前,大语言模型已经成为自然语言处理领域的热点。LLMs 是否真的“智能”?它们又为我们带来了哪些启发?针对这些问题,Darveen Vijayan 为我们带来了这篇引人深思的文章。

作者主要阐释了两个观点:第一,LLMs应被视为一种文字计算器,它通过预测下一个词来工作,当前阶段还不应被归为“智能”。第二,尽管LLMs 目前存在局限,但它们为我们提供了反思人类智能本质的契机。我们应保持开放的思维,不断追逐新的知识和对知识的新理解,积极与他人交流沟通,从而拓展我们的认知边界。

LLMs是否智能,恐怕仍存在争议。但有一点确定无疑,它们为自然语言处理领域带来了革新,也为人类智能的本质提供了新的思考维度。这篇文章值得每一位大模型工具使用者和 AI 从业者细细品读、反复咀嚼。

作者 | Darveen Vijayan

编译 | 岳扬

17 世纪初,一位名叫埃德蒙·冈特的数学家和天文学家面临了一个前所未有的天文挑战——要计算行星的复杂运动轨迹并预测日食,天文学家不仅需要依靠直觉,还需要掌握复杂的对数运算和三角方程。因此,像其他优秀的创新者一样,冈特决定发明一种模拟计算装置!他创建的这种装置,最终成为了我们熟知的计算尺[1]。

计算尺是一个长30厘米的长方形木块,由固定框架和滑动部分两部分组成。固定框架中装有固定的对数刻度,而滑动部分则装有可移动的刻度。要使用计算尺,需要理解对数的基本原理,以及如何对准刻度进行乘法、除法和其他数学运算。需要滑动可移动部分,使数字对齐,读出结果,并注意小数点的位置。哎呀,真的太复杂啦!


计算尺

大约在 300 年后,贝尔庞克公司(Bell Punch Company)于 1961 年推出了第一台台式电子计算器 “ANITA Mk VII”。在随后的几十年里,电子计算器变得越来越复杂,功能也越来越多。以前需要大量人工计算的工作所花费的时间越来越少,使员工能够专注于更具分析性和创造性的工作。因此,现代电子计算器不仅使工作更加高效,还使人们能够更好地解决问题。

计算器对于数学的处理方式来说是一次重大的改变,那么对于语言呢?

想想你是如何构造句子的。首先,你需要有一个想法(这句话要表达什么意思)。接下来,你需要掌握一堆词汇(拥有足够的词汇量)。然后,你需要能够正确地将这些词汇组成句子(需要掌握语法)。哎呀,还是那么复杂!

早在 5 万年前,也就是现代智人第一次创造语言的时候,我们产生语言词汇的方式就基本保持不变了。

可以说,在构造句子这方面,我们仍然像冈特使用计算尺一样!

It’s fair to say we’re still in Gunther’s era of using a slide rule when it comes to generating sentences!

仔细思考一下,使用恰当的词汇和正确的语法就是在遵守语言规则。

这与数学类似,数学充满了规则,因此我才能确定1+1=2以及计算器的工作原理!

我们需要一种用于文字的计算器!

What we need is a calculator but for words!

是的,不同的语言需要遵循不同的规则,但只有遵守语言规则,语言才能被人理解。语言和数学的一个明显区别是,数学有固定且确定的答案,而适合放入句子中的合理单词可能很多。

试着填充下面这个句子:I ate a _________.(我吃了一个 _________。)想象一下接下来可能出现的单词。英语中大约有 100 万个单词。很多单词可以在这里使用,但肯定不是全部。

回答“黑洞(black hole)”相当于说 2+2=5。此外,回答“apple”也不准确。为什么呢?因为语法的限制!

在过去的几个月里,大语言模型(LLM)[2]风靡全球。有人将其称为自然语言处理领域的重大突破,也有人将其视为人工智能(AI)新时代的曙光。

事实证明,LLM 非常善于生成类人文本(human-like text),这提高了基于语言的人工智能应用的标准。凭借庞大的知识库和优秀的语境理解能力,LLM 可以应用于各个领域,从语言翻译和内容生成到虚拟助理和用于客户支持的chatbots。

我们现在是否正处于与上世纪60年代的电子计算器类似的转折点?

在回答这个问题之前,让我们先了解一下 LLM 是如何工作的?LLM 基于 Transformer 神经网络,用于计算和预测句子中下一个最合适的单词。要构建一个强大的 Transformer 神经网络,需要在大量文本数据的基础上进行训练。这就是为什么“预测下一个单词或token”的方法效果如此好:因为有大量容易获得的训练数据。LLM 将整个单词序列(sequence of words)作为输入,并预测下一个最有可能出现的单词。为了学习最有可能出现的下一个词,他们先吞下所有维基百科数据作为热身,然后再吞下成堆的书籍,最后吞下整个互联网。

我们在前面已经确定,语言包含各种规则和模式。模型会通过所有这些句子来隐式地学习这些规则,用来完成预测下一个单词的任务。

深度神经网络

在单数名词之后,下一个词出现以 "s "结尾的动词的概率就会增加。同样,在阅读莎士比亚的作品时,出现 "doth "和 "wherefore "等词的概率也会增加。

在训练过程中,模型会学习这些语言模式,最终成为一位语言专家!

但这就够了吗?仅仅学习语言规则就足够了吗?

But is that enough? Is learning linguistic rules enough?

语言是复杂的,根据语境,一个词可能有多重含义。

因此,需要自注意力(self-attention)。简单来说,自注意力是语言学习者用来理解句子或文章中不同单词之间关系的一种技巧。就像你会关注故事的不同部分来理解故事一样,自注意力可以让 LLM 在处理信息时更加重视句子中的某些单词。 这样,模型就能更好地理解文本的整体含义和上下文,而不是仅仅根据语言规则盲目地预测下一个单词。

在这里插入图片描述

自注意力机制

如果将大语言模型视为一种单词的计算器,只会单纯地预测下一个单词,那么它如何能回答我所有的问题呢?

If LLMs are calculators for words, just predicting the next word, how can it answer all my questions?

当你让大语言模型处理一些需要思考的任务时,而它也能够成功完成,这很可能是因为你给它的任务它已经在成千上万个例子中见过了。即使你提出了一些非常独特的需求,比如:

“写一首关于虎鲸吃鸡的诗”

Write me a poem about an orca eating a chicken

大语言模型也能够成功完成你交待的任务:

Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins.

With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one.
ChatGPT

很不错,对吧?这多亏了它的自注意力机制,使其能够有效地融合和匹配相关信息,从而构建出一个合理而连贯的回答。

在训练过程中,大语言模型(LLM)学会了识别数据中单词(and 短语)之间的模式、关联和关系。经过大量的训练和微调,LLM 可以表现出一些新的特性,例如进行语言翻译、摘要生成、问题解答,甚至是创意写作。尽管模型没有直接接受某些任务或技能的教授,但通过对大量数据的学习和训练,模型可以展现出超出预期的能力,并且表现得非常出色

那么,大语言模型是否具备智能(intelligent)呢?

Are Large Language Models intelligent?

电子计算器(electronic calculator)已经存在了六十多年。这种工具在技术上取得了“飞跃式”的进步,但从来没有被认为是智能的。为什么呢?

图灵测试(Turing Test)是一种判断机器是否具有人的智能(human intelligence)的简单方法:如果一台机器能以让人类无法区分的方式与人类进行对话,那么它被认为具有人的智能。

计算器从未经历过图灵测试[3],因为它不使用与人类相同的语言进行交流,只能使用数学语言。然而,大语言模型生成的是人类语言。它的整个训练过程都围绕着模仿人类语言展开。因此,它能够“以让人类无法区分的方式与人类进行对话”并不令人意外。

因此,用“智能(intelligent)”一词来描述大语言模型有些棘手,因为对于智能的真正定义并没有明确的共识。判断某物是否智能的一种方式是,它是否能够做出有趣、有用且有一定程度的复杂性或创造性的事情。大语言模型确实符合这个定义。不过,我并不完全同意这种解释。

我将智能定义为拓展知识边界的能力。

I define intelligence as the ability to expand the frontiers of knowledge.

截至本文撰写之时,通过预测下一个token/单词方式进行工作的机器仍然无法拓展知识的边界。

不过,它可以根据已有的数据进行推断和填补。它既无法明确理解词语背后的逻辑,也无法理解现有的知识体系。它无法产生创新的想法或深入的洞察力。它只能提供相对一般的回答,而无法产生突破性的想法。

在这里插入图片描述

在面对机器无法产生创新思维和深入洞察力的情况下,对于我们人类来说有什么影响或启示呢?

So, what does this mean for us humans?

我们应该将大语言模型(LLMs)更多地视为一种对词语的计算器。 不应该让我们的思考过程完全依赖于大模型,而应将其视为我们思考和表达的辅助工具而非替代品。

同时,随着这些大模型的参数量呈指数级增长,我们可能会感到越来越不知所措和力不从心。对此,我的建议是始终保持对看似不相关的想法的好奇心。有时候我们会遇到一些看似不相关的或矛盾的想法,但通过我们的观察、感知、经验、学习和与他人的交流,我们可以发现这些想法之间可能存在某种联系,或这些想法可能是合理的。(译者注:这种联系可能来自于我们对事物的观察、理解和解释,或者是通过将不同领域的知识和概念相互关联而得出的新的想法。我们应该保持开放的思维,不仅仅局限于表面上的直觉,而是观察、感知、经验、学习和与他人的交流,来发现更深层次的意义和联系。)我们不应满足于仅停留在已知领域,而是应该积极探索新的领域,不断扩展我们的认知边界。 我们也应该不断追求新的知识或对已掌握知识的新理解,并将它们与已有的知识相结合,去创造新的见解和想法。

如果你能够以前文所描述的思维方式和行为方式行动,那么,无论是计算器还是大语言模型,所有形式的技术都将成为你可以利用的工具,而不是你需要担心的生存威胁。

END

参考资料

[1]https://www.whipplemuseum.cam.ac.uk/explore-whipple-collections/calculating-devices/slide-rules#:~:text=The%20slide%20rule%27s%20origins%20can,logarithmic%20scales%20for%20physical%20instruments.

[2]https://en.wikipedia.org/wiki/Large_language_model#:~:text=Large%20language%20models%20(LLMs)%20are,MassiveText%2C%20Wikipedia%2C%20and%20GitHub.

[3]https://en.wikipedia.org/wiki/Turing_test

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接:

https://medium.com/the-modern-scientist/large-language-models-a-calculator-for-words-7ab4099d0cc9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/623997.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WCF 通信三种模式 请求与答复、单向、双工通信

WCF 通信三种模式 请求与答复 默认模式单向双工 请求与答复 [OperationContract] string GetInfo(string id); [OperationContract] void Getxxx();即使返回值是void 也属于请求与答复模式。 缺点:如果用WCF在程序A中上传一个2G的文件,那么要想执行程…

【设计模式】JAVA Design Patterns——Abstract Factory(抽象工厂模式)

🔍目的 提供一个用于创建相关对象家族的接口,而无需指定其具体类 🔍解释 真实世界例子 要创建一个王国,我们需要具有共同主题的对象。精灵王国需要精灵国王、精灵城堡和精灵军队,而兽人王国需要兽人国王、兽人城堡和兽…

部署YUM仓库及 NFS共享服务

YUM仓库服务 部署YUM软件仓库 使用YUM工具管理软件包 一、YUM概述 1.YUM (Yellow dog Updater Modified) 基于RPM包构建的软件更新机制可以自动解决依赖关系所有软件包由集中的YUM软件仓库提供 2. 准备安装源3-1 2.1 软件仓库的提供方式 FTP服务:ftp://..HTTP服务:htt…

常见加解密算法03 - RC4逆向认识

各位聪明绝顶,才高八斗的读者们你们好!今天我们主要讨论编译之后的RC4算法识别。 题外话,之前看到一个蛋疼的小知识,说“势”这个字最好不好查词典释义。我是很好奇的,果然后来无法直视势不可挡这个成语。 言归正传&am…

网络安全之OSPF进阶

该文针对OSPF进行一个全面的认识。建议了解OSPF的基础后进行本文的一个阅读能较好理解本文。 OSPF基础的内容请查看:网络安全之动态路由OSPF基础-CSDN博客 OSPF中更新方式中的触发更新30分钟的链路状态刷新。是因为其算法决定的,距离矢量型协议是边算边…

【微信小程序开发】深入探索事件绑定、事件冒泡、页面跳转的逻辑实现

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

Windows Qt中支持heic 图片显示

安装vcpkg: git clone https://github.com/microsoft/vcpkg 执行脚本: .\vcpkg\bootstrap-vcpkg.bat 在安装之前如果需要指定vs的编译器, 在如下文件中做更改, 我指定的是用vs2019编译的: D:\vcpkg\vcpkg\triplets 增…

安科瑞AIM-D100-ES光伏储能系统直流绝缘监测仪

概述 AIM-D100-ES 型直流绝缘监测仪主要用于在线监测直流不接地系统正负极对地绝缘电阻,当绝缘电阻低于设定值时,能发出预警和报警信号。 产品可测 100-1500V 的直流系统,可应用于储能直流系统、电动汽车充电装置、UPS 供电系统、光伏直流系…

联合四川博物院跨界,探索五粮液700余年“活窖之美”

执笔 | 尼 奥 编辑 | 扬 灵 “川酒甲天下,精华在宜宾。”千百年来,宜宾得天独厚的自然风土,传承巴蜀大地的臻臻韵味,酝酿出“美酒哉”的和美五粮液,奠定大国浓香的品牌基石。 5月10日,“中国品牌日”如…

「Python绘图」绘制同心圆

python 绘制同心圆 一、预期结果 二、核心代码 import turtle print("开始绘制同心圆") # 创建Turtle对象 pen turtle.Turtle() pen.shape("turtle") # 移动画笔到居中位置 pen.pensize(2) #设置外花边的大小 # 设置填充颜色 pen.fillcolor("green&…

JSP相关题目练习

一、前置知识 【eclipse/IDEA】如何在IDE里创建一个Java Web项目? 1. 实现Bean类的User实例 以一个实现Bean类User的实例。在Eclipse里调用Tomcat服务器运行。 Javabean是一种Java类, 通过封装属性和方法成为具有某种功能或者处理某个业务的对象&…

ai电销机器人智能系统的应用场景包括什么?

随着科技的不断进步,传统的销售方式已经无法满足现代企业的需求,电销机器人智能系统可以在各种场景中发挥作用,其中一些主要的应用场景包括: 客户服务与支持:通过语音识别和自然语言处理技术,电销机器人可以…

812寸硅片为什么没有平边(flat)?

知识星球(星球名:芯片制造与封测社区,星球号:63559049)里的学员问:上期种说2,4,6寸硅片都有平边,那为什么8&12寸硅片只有一个notch?为什么不能像小尺寸晶…

汇编语言程序设计-2-访问寄存器和内存

2. 访问寄存器和内存 文章目录 2. 访问寄存器和内存2.0 导学2.1 寄存器及数据存储2.2 mov和add指令2.3 确定物理地址的方法2.4 内存的分段表示法2.5 Debug的使用2.6 【代码段】CS、IP与代码段2.7 【代码段】jmp指令2.8 【数据段】内存中字的存储2.9 【数据段】用DS和[address]实…

Transformers中加载预训练模型的过程剖析(一)

使用HuggingFace的Transformers库加载预训练模型来处理下游深度学习任务很是方便,然而加载预训练模型的方法多种多样且过程比较隐蔽,这在一定程度上会给人带来困惑。因此,本篇文章主要讲一下使用不同方法加载本地预训练模型的区别、加载预训练模型及其配置的过程,藉此做个记…

ARM64汇编09 - 分支指令与模式切换

本文主要讨论两部分内容: 分支指令,B、BL 等 v7中的模式切换,arm切thumb,thumb切arm。理解了模式切换就会明白为什么在做 inline hook 时,有些地址需要加上1,加上 1 的作用是什么。 B B指令是无条件跳转…

linux phpstudy 重启命令

[rootLinuxWeb phpstudy]# ./system/phpstudyctl restart 查看命令 1) phpstudy -start 启动小皮面板 2) phpstudy -stop 停止小皮面板 3) phpstudy -restart 重启小皮面板 4) phpstudy -status 查询面板状态 5) phpstudy -in…

中北大学软件学院javaweb实验三JSP+JDBC综合实训(一)__数据库记录的增加、查询

目录 1.实验名称2.实验目的3.实验内容4.实验原理或流程图5.实验过程或源代码(一)编程实现用户的登录与注册功能【步骤1】建立数据库db_news2024和用户表(笔者使用的数据库软件是navicat)【步骤2】实现用户注册登录功能(与上一实验报告不同的是&#xff0…

windows下redis配置为服务自启动

1. 准备安装包 2. 解压该zip到文件夹 3. 配置环境变量 4. 配置自启动 4.1 检查redis.windows.conf和 redis.windows-service.conf 文件,将bind注释掉 4.2 [cmd]窗口运行redis 输入 redis-server.exe 或者 redis-server.exe redis.windows.conf 4.3 验证redis是否…

外卖订餐总后台系统原型

页面数量:共 210 页 源文件格式:rp格式,兼容 Axure RP 9/10 应用领域:O2O领域、网上订餐、外卖行业 文章展示不够全面,如有兴趣请联系作者 该原型作品为外卖订餐总后台管理系统,定位偏向美团外卖与饿了么一…