【文末福利送资料】深度探索GPT模型,竟然10个字都不会说?

目录

导读

自回归模型

那么什么时候停下呢?

该停下来,但是概率不让啊

GPT欠缺的两种能力

目录

导读

自回归模型

那么什么时候停下呢?

该停下来,但是概率不让啊

GPT欠缺的两种能力

缺少规划

反省和修订

所有的人工智能模型都这样吗?

福利:


缺少规划

反省和修订

所有的人工智能模型都这样吗?


导读

图片

最近,大家可能都听说了各种风靡互联网的聊天机器人,它们的背后是GPT模型。(GPT(Generative Pre-Trained)是一类模型,但下文中的GPT均由某著名GPT模型友情参演)。作为强大的大语言模型,GPT已经展现出了令人惊叹的实力。写邮件,学英语,帮忙看文献,已然成为了许多人的生活好帮手。作为一个聊天机器人,它在很多任务上已经达到甚至超越了人类的智能水平,这实在是令人非常佩服。但今天我们不是要夸它,而是要展示一个看似很简单的事情,但是GPT却完全无能为力。

图片

其实GPT还是识数的,如果这样问它

图片

咦?“博古通今”的GPT肯定有办法理解“10个字”的意思,但是为什么无法正确输出只有10个字的话呢?小编知道GPT为什么会搞不定这件事呢,这就是本文要解释的事情。

自回归模型

要解释为什么GPT无法胜任这么简单的任务,我们首先需要从GPT的底层原理——自回归模型开始讲起。千万不要被这个看似抽象的词吓到,实际上这个概念非常简单。

自回归模型能做的事情其实和猜单词类似,我们可以以英语课堂上的一个小场景为例。

图片

图片

......在猜错了一些明明概率很高的字母之后,学生终于猜出了第二个字母是’h’。

那下一步呢,下一步就要考虑什么样子的字母或单词接在'ch'后面比较常见,概率比较高。这时候学生就要考虑概率当中的,对于不同的字母表现如何,学生们当然要猜更大的,因为这样更有机会猜对。学生又翻了一通词典,按照出现频率的大小估计概率,再用概率依次猜出了第三个,第四个字母,是chat。

学生的猜谜的例子其实就是自回归模型和GPT工作模式的生动诠释,GPT在工作的时候就像猜词一样,只是把字母换成了token。

token:自然语言处理术语,指处理文本的最小单元,一个token可能是一个字符,一个单词,甚至一小段话。

更一般地说,GPT会依据给定地语境,在可能的不同输出选项中计算概率,并按照这个概率进行输出。也就是按照

的大小进行输出。

确实,在GPT的实际应用中,没有老师来纠正学生的答案。但可以将学生猜词例子中老师的指正视为GPT在训练时使用的数据集进行的训练。在训练过程中,GPT会利用数据集来调整当前输出当前语境 以提高回答的准确性。

我们跟GPT说的提示词,可以类比为老师最开始说的第一个字母‘c’,然后GPT要开始根据这个初始输入来组织和生成输出。它会先猜自己输出的第一段话语,等效于‘h’。然后根据‘ch’这个新的“当前语境”再逐步猜后面的字母/语素。

那么什么时候停下呢?

聪明的小伙伴们可能已经意识到了一个问题,在没有老师指正的情况下,GPT似乎可以无穷无尽地猜下去啊,反正猜了一个再猜下一个,永远没有终止啊。GPT说话虽然经常说一堆车轱辘话,但是最后好歹还是会停下来的。是什么让这个猜谜停下来了呢?

GPT是这样解决这个问题的。工程师们知道,想让GPT把无穷无尽的猜词停下来其实很简单,只需要“扩展”一下语素表,让“停下来”这个操作是一个新的语素就行了。如此一来,GPT在猜词的时候,就会一直猜一直猜,猜到语素“停下来”才停下来。

该停下来,但是概率不让啊

既然已经知道了自回归模型的工作原理,我们就可以回头来看一开始的问题了。在小编的例子里,GPT的“内心”或许经历了这个计算

请说一段话,恰好包含个汉字。生活不止眼前的苟且

GPT是很冷酷无情的,它根本不管你是不是只要10个汉字,也并不是很在乎你的需求,它眼里只有这个概率分布,只想按照这个概率进行抽样

而当GPT说完九个汉字,应该在一个字里结束输出的时候。GPT对概率表进行了搜索,发现在所有输出当中,仅输出一个字的概率太小了(这也意味着这种情况的训练语料太少了),只能不管前面“恰好10个汉字的要求”进行输出了。

GPT欠缺的两种能力

缺少规划

自回归模型每次抽样都是根据当前信息(当前语境),在抽样的过程中对全局缺少规划。 从人类的观点下看,如果有恰好10个字的要求,那就不应该一口气说9个字,应该每说一个字,都得斟酌下看看剩下的字数能不能组成一句完整通顺的话。可自回归模型(GPT)才不管这些,它十分盲目短视地,每次只管当前的

当前输出当前语境

并不很在意总回复的概率

总输出初始语境

是不是足够好。

反省和修订

自回归模型不具有“反省并修订”的能力。 人类基本都会反省吧。说了错话做错事,至少也得心里想着:对不起对不起,不能这么干,我要弥补下。

换到说恰好10个字的任务中,肯定有许多人和小编一样,估计错了10个字的量,一口气说多了。

小编:今天天气很不错,阳光真...

怎么办?已经10个字了?我也要通不过图灵测试了吗!赶紧修改一下,把“很”删掉,就能多出来一个字了。

而GPT那可是金口玉言,说一不二。每一步说出来的话就会被放进新的“当前语境”中。它不会对自己已经抽样了的内容进行删减和修订,在逐次猜出token的过程中,将错就错,一错再错..... 换而言之,GPT虽然能看到自己之前的输出,但是却不具有反省并修订的能力

所有的人工智能模型都这样吗?

并不是所有机器学习模型都有这个缺点,例如围棋战力单位“狗”(AlphaGo),在其蒙特卡罗搜索树算法中,如果搜到了胜率过低的结果,会修订之前的选择。

这也教导我们,要培养良好的规划能力和自我反省和自我改进的能力。不然即使“博览群书”如GPT,也只会像它一样,完成不了说恰好10个字的简单任务呢。

送大家一份2024最新各厂牌教程资源,非常的全面。

福利:

包含:Java、云原生、GO语音、嵌入式、Linux、物联网、AI人工智能、python、C/C++/C#、软件测试、网络安全、Web前端、网页、大数据、Android大模型多线程、JVM、Spring、MySQL、Redis、Dubbo、中间件…等最全厂牌最新视频教程+源码+软件包+面试必考题和答案详解。

福利:想要的资料全都有 ,全免费,没有魔法和套路

关注公众号:资源充电吧


点击小卡片关注下,回复:学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/624542.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Flume 的安装和使用方法(Spark-2.1.0)

一、Flume的安装 1.下载压缩包 https://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 2.上传到linux中 3.解压安装包 cd #进入加载压缩包目录sudo tar -zxvf apache-flume-1.7.0-bin.tar.gz -C /usr/local # 将 apache-flume-1.7.0-bin.tar.g…

透明加密软件推荐:哪款实用又高效?

透明加密软件是一种专门针对文件保密需求的计算机加密工具。 其核心在于“透明”二字,意味着整个加密过程对于使用者来说是无形且无感知的。 当用户进行文件的日常操作,如打开、编辑或保存时,透明加密软件会在后台自动进行加密和解密工作&a…

Microsoft Edge浏览器,便携增强版 v118.0.5993.69

01 软件介绍 Microsoft Edge浏览器,便携增强版,旨在无需更新组件的情况下提供额外的功能强化。这一增强版专注于优化用户体验和系统兼容性,具体包含以下核心功能的提升: 数据保存:通过优化算法增强了其数据保存能力&…

AI系列:大语言模型的RAG(检索增强生成)技术(下)-- 使用LlamaIndex

目录 前言什么是LlamaIndex?LlamaIndex代码设置embedding模型设置LLM模型索引查询机 验证使用感受参考资料 前言 继上一篇文章AI系列:大语言模型的RAG(检索增强生成)技术(上),这篇文章主要以LlamaIndex为…

2024最新网络安全零基础入门学习路线,学网安看这篇就够了!

前言 一、什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“ 安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与…

高通QCC3071 ANC调试录音新方法

1, 从QCC307X和QCC517X的芯片开始ANC调试录音不再使用QACT软件了,而是使用Qualcomm ANC Filter Designer使用耳机进入Recording模式,再使用第三方的音频编辑软件来播放和录取声音。 2, 本文以QCC3071做Hybrid ANC,FF MIC使用数字MIC FB MIC使用模拟MEMS MIC为例来讲解具体…

IDEA里面数据库编辑数据库链接/重命名库的操作

选中数据库图标,点击号,打开MySql 图片的每一处都可以修改,改完再点test connection,没问题再点确定按钮就可以

4万字一文带你看懂车载摄像头技术、市场、发展前景

1、小孔成像 在战国初期,我国学者墨子(公元前468年-公元前376年)和弟子们完成了世界上第一个小孔成像的实验,并记录在《墨经》中:“景到,在午有端,与景长。说在端。”“景。光之人,煦…

从旺店通·企业奇门到金蝶云星空通过接口配置打通数据

从旺店通企业奇门到金蝶云星空通过接口配置打通数据 接通系统:旺店通企业奇门 慧策最先以旺店通ERP切入商家核心管理痛点——订单管理,之后围绕电商经营管理中的核心管理诉求,先后布局流量获取、会员管理、仓库管理等其他重要经营模块。慧策的…

Spring事务和事务传播机制(@Transactional)

文章目录 Spring事务(Transactional详解)什么是事务为什么需要事务事务的操作(sql) Spring中的事务实现Spring编程式事务Spring声明式事务 TransactionalTransactional可以用来修饰方法或类对异常进行捕获细节: Transactional详解三个属性1. …

牛客NC363 开锁【中等 BFS Java/Go/PHP】

题目 题目链接: https://www.nowcoder.com/practice/e7cbabbf7e0a41ec98055ee5f3d33bbe https://www.lintcode.com/problem/796 思路 Java代码 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改&#x…

在PyQt5中实现点击按钮打开新窗口功能—窗口的跳转功能实现

百度搜索“pyqt5中如何点击按钮打开新的窗口”,自动生成以下参考代码。 在PyQt5中,要实现点击按钮打开新窗口,你需要定义一个新的窗口类,并在按钮的点击信号(clicked)处理函数中创建并显示这个新窗口。以下…

Eclipse 里如何建立SAP应用服务层的CDS

关于Core Data Service(CDS) CDS:Core Data Ser vice.核心数据服务。CDS 是使用基于 SQL的数据定义语言(DDL)定义的,该语言基于标准 SQL 并带有一些附加概念。使用类似 SQL的灵活表达式可以进行复杂的数据建模。有两种类型的 CDS:ABAP CDS 和 HANA CDS。 S/4 HANA…

安装HTTPS证书后,网站安全性会有哪些提升?

在当今数字化时代,网络安全已成为一个不可忽视的话题。随着网络攻击的日益频繁,保护网站和用户数据的安全变得尤为重要。HTTPS作为一种加密的HTTP协议,为我们提供了一种安全的网络数据传输方式。本文将详细介绍HTTPS的工作原理、端口号以及如…

测试docker GPU性能损失

NVIDIA 3090 利用HSOpticalFlow代码测试docker GPU性能损失 docker介绍图如下: 形象生动展示了他们之间的关系 今天要测试docker容器运行HSOpticalFlow算法的性能损失,包括CPU和GPU 上一篇博客 http://t.csdnimg.cn/YW5kE 我已经介绍了使用docker和nvid…

如何判断海外住宅ip的好坏?

在海外IP代理中,住宅IP属于相对较好的资源,无论是用于工作、学习、还是娱乐,都能得到较好的使用效果。作为用户,该如何判断海外住宅IP的好坏呢? 稳定性与可靠性:海外住宅IP相比动态IP地址,通常具…

国际数字影像产业园近期活动一览

一、4月23日,在数媒大厦的春日里,我们共同迎来了第29个“世界读书日"。由数字影像联合工会委员会、树莓科技(成都)集团有限公司工会委员会主办,成都树莓信息技术有限公司、四川聚能文化传播公司承办的「共沐书香 …

“AI换脸”“一键脱衣” AI诈骗正在进行

这两年AI技术快速发展,从AI变声到AI换脸,AI技术在给我们带来震撼的同时,也有心术不正的人利用它做坏事。比如,近来媒体常报道的“一键脱衣”案件,一位广州女生在地铁拍的美照,被个别网友,用AI一…

(值得拥有)项目框架构建之7:提供工业互联网的框架基础,本文附带框架基础源码

很多读者,可能只是匆匆一看,感觉没啥东西。 但我要特意提醒各位读者:此源码,可是非常有价值的东西。我不一定会一直开放。 前述文章曾讲解了大概如何构建一个项目框架,本意是好的,无奈框架这种思想性的东西…

react18【系列实用教程】组件 (2024最新版 | 含父子组件传值、兄弟组件传值、越层组件传值、“插槽“)

什么是组件? 一个组件就是用户界面的一部分,它可以有自己的逻辑和外观。 组件之间可以互相嵌套,也可以复用多次 为什么要用组件? 组件能让开发者像搭积木一样快速构建一个完整的庞大应用,大大提升了开发效率&#xff…