通过在线编程彻底搞懂transformer模型之三:为啥大语言模型都做不好数学题

为什么大语言模型做不好数学题?这个要从大语言模型的原理来讲。

这里是这篇文字的视频讲解,可能视频讲得更清楚一些:

写代码彻底搞懂attention注意力机制 – LLM transformer系列,附:在线编程地址

现代大语言模型都源自于2017年谷歌的一篇文章《Attention is all you need》 里面引入了一个非常有用的模型叫transformer。
请添加图片描述

请添加图片描述

这个模型首先对输入的句子进行编码, 这个编码并不是我们平常所说的文字编码,比如大家常听到过的 AscII编码,UTF8编码等等;
请添加图片描述
以前的计算机编码针对字或者词 主要是为了保证对每一个字或者词唯一的编码,让计算机好存储和使用;

但是transformer的编码叫Embedding,中文叫“内嵌”;每一个内嵌可能需要很多位表示 比如一个常见的编码可能是768位或者是2048位 这么多位的数据来表示一个词 是因为一个词里面包含了它的语义信息。
在这里插入图片描述
在这里插入图片描述

马这个词 就包含了 动物 食草 非洲 四蹄 池塘 等等 他甚至还包括了一些人不太能理解的信息 这些词的 Embedding是由专门的神经网络训练出来的。

我们可以拿这些词的embedding来计算不同词组之间的关联程度 比如河马与斑马之间的距离 就要比盒马与汽车之间的距离要近 在计算机里面可以用一个叫 Product点积的方法来计算。
在这里插入图片描述

那么问题来了,对几乎所有的词都会有一个Embedding, 但是对数字来说可能性就太多了 – 计算机是无法对所有数字的可能都进行编码,实际上它会对数字进行拆分。一个很大的数字它会拆分成几个小的Embedding,这样即使是大语言模型有一定的数学能力, 它也无法理解被拆分成的多个Embedding的数字组合起来的意义,更别提用他们来进行计算了。


我给大家准备了一个在线编码的网页,大家可以直接在上面写代码,试验上面讲的内容
https://chn.ai/embedding.html

import { AutoModel, AutoTokenizer, dot } from 'https://res.chn.ai/module/transformers@2.15.1/transformers@2.15.1.js'

let tokenizer = await AutoTokenizer.from_pretrained('Xenova/jina-embeddings-v2-base-zh')
let model = await AutoModel.from_pretrained('Xenova/jina-embeddings-v2-base-zh')

function stringify(obj) {
    return JSON.stringify(obj, (key, value) => {
        return typeof value === 'bigint'
            ? value.toString()
            : value
        
    }, null, 2)
}


var tokens = await tokenizer(['56873.254 * 12.312', '879237 / 09182', '1235'], {padding: true})
var tokenIds = Array.from(tokens.input_ids.data)
var words = await tokenizer.decode(tokenIds).split(' ')
console.log(words)


var embeddings = await model(tokens)
console.log(stringify(embeddings))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/495756.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Excel 十字交叉聚光灯查询,再也不用担心看串行与列

当Excel表格行列较多时,要想跟条件找到目标数据可以用查找引用函数自动调取,如果又想让找出来的结果突出显示,有什么好办法呢? 先来看一个做好的案例效果,用户选择查询条件后,结果突出显示。 当查询条件变…

第20篇:逻辑门控D锁存器

Q:基本RS锁存器存在不确定状态,本篇我们设计可以消除不确定状态的锁存器--逻辑门控D锁存器。 A:逻辑门控D锁存器逻辑图: 其工作原理:在CLK1期间,数据输入端D的值被传输到输出端Q,而当CLK由1 跳…

【Redis】redis哨兵模式

概述 Redis Sentinel,即Redis哨兵,在Redis 2.8版本开始引入。它是Redis高可用的实现方案之一。Sentinel是一个管理多个Redis实例的工具,它的核心功能是可以实现对Redis的监控、通知、自动故障转移。 监控(Monitoring&#xff09…

docker部署-RabbitMq

1. 参考 RabbitMq官网 docker官网 2. 拉取镜像 这里改为自己需要的版本即可,下面容器也需要同理修改 docker pull rabbitmq:3.12-management3. 运行容器 docker run \ --namemy-rabbitmq-01 \ -p 5672:5672 \ -p 15672:15672 \ -d \ --restart always \ -…

盏多多生物现已加入2024第七届燕窝天然滋补品展

参展企业介绍 广东省盏多多生物科技有限公司是一家从事食品销售,食品销售,食品进出口等业务的公司,成立于2018年12月07日,公司坐落在广东省,详细地址为:惠州市东江三路45号悦榕湾27层05号(仅限办公);经国家…

用系统观念打造智慧公厕,引领智慧城市的发展

智慧公厕,作为智慧城市建设的一部分,具有重要意义。在高度发达的科技条件下,如何打造高质量的智慧公厕是一个值得思考的问题。本文将以智慧公厕源头实力厂家广州中期科技有限公司,大量精品案例项目现场实景实图实例,探…

UE小:基于UE5的两种Billboard material(始终朝向相机材质)

本文档展示了两种不同的效果,分别是物体完全朝向相机和物体仅Z轴朝向相机。通过下面的演示和相关代码,您可以更加直观地理解这两种效果的差异和应用场景。 1. 完全朝向相机效果 此效果下,物体将完全面向相机,不论相机在哪个角度…

Element

1、Element 基本使用 1.1、Element介绍 Element:网站快速成型工具。是饿了么公司前端开发团队提供的一套基于Vue的网站组件库。 使用Element前提必须要有Vue。 组件:组成网页的部件,例如超链接、按钮、图片、表格等等~ Element官网&#…

【上云API】GB28181流媒体服务器搭建

docker拉取配置好的ZLMediaKIt和wvp-GB28181-pro docker pull 648540858/wvp_pro第一次运行 docker一键运行ZLMediaKIt和wvp-GB28181-pro docker run --env WVP_IP"自己电脑的ip" -it -p 18080:18080 -p 30000-30500:30000-30500/udp -p 30000-30500:30000-3050…

伦敦金实时行情交易需要了解的3个事实

在伦敦金市场中,我们要交易就要面对伦敦金实时行情。然而,在伦敦金实时行情交易中,有几个事实是我们不得不去了解的,下面我们就来讨论一下。 盈利的经历不等于盈利的能力。我们经常看到一些卖课的或者卖指标、卖策略的人会宣传自己…

双通道内存@DDR5多通道内存

文章目录 多通道内存DDR4及以前的内存的双通道DDR5往后的双通道和多通道半位宽4通道组合 其他组合测试 DDR5介绍概览重要Features特点 总结 多通道内存 DDR4及以前的内存的双通道 双通道内存是一种内存架构设计,通过在主板上配置两个或多个独立且同时工作的内存控制…

沃通国密SSL根证书入根赢达信国密浏览器

近日,沃通CA国密SSL根证书正式入根赢达信国密安全浏览器,携手推动国产密码技术应用、完善国密应用生态体系,也标志着沃通国密SSL证书兼容性再次得到提升,进一步夯实国密应用根基。 密码算法的安全性是信息安全保障的核心&#xff…

服务器BMC测试之postman测试redfish

postman初始化设置----Redfish测试 1.下载安装postman 下载链接:https://www.postman.com/downloads/ 2.安装完成后启动postman -----登录账号请自行申请 3.新建测试环境 ----增加测试BMC ip 为环境变量 点击 新建环境 4.修改环境 增加变量名字为BMCIP 这个名字…

【Java程序设计】【C00398】基于(JavaWeb)Springboot的果园预售管理系统(含论文)

基于(JavaWeb)Springboot的果园预售管理系统(含论文) 项目简介项目获取开发环境项目技术运行截图 博主介绍:java高级开发,从事互联网行业六年,已经做了六年的毕业设计程序开发,开发过…

SQL/日志监控框架log4jdbc

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 log4jdbc is a Jav…

【61-80】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了

【61-80】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了 以下是本文参考的资料 欢迎大家查收原版 本版本仅作个人笔记使用61、 四次挥手相关内容62、挥手为什么需要四次?63、2MSL等待状态?64、四次…

【Redis主从架构。主从工作原理psync、bgsave、部分数据复制、主从复制风暴解决方案】【Redis哨兵高可用架构。sentinel】

Redis主从架构 Redis主从工作原理数据部分复制 Redis哨兵高可用架构client连接哨兵规则主节点挂了,集群从新选择主节点,并且同步给sentinel 转自图灵课堂 redis主从架构搭建,配置从节点步骤: 1、复制一份redis.conf文件2、将相关…

《Linux运维实战:达梦DM8数据库之开启本地归档》

一、归档概述 在达梦数据库归档模式下,数据库同时将重做日志写入联机日志文件和归档日志文件中分别进行存储。采用归档模式会对系统的性能产生影响,然而,当系统一旦出现介质故障,如磁盘损坏时,利用归档日志&#xff0c…

【nodejs ubuntu】nodejs版本过老的更新方法

使用apt方法安装的node.js版本过于老了,以至于我没法用npm下载hexo 下面是更新方法 参考了这篇文章 然后就可以成功安装了

TXT文本内容高效处理,支持删除文件前后行多余内容,轻松管理文本内容

在信息爆炸的时代,文本文件是我们日常生活和工作中不可或缺的一部分。然而,处理大量的TXT文本内容常常让人头疼不已。为了帮助您更高效地处理TXT文本内容,我们特别推出了一款强大的文本处理工具,支持删除文件前后行多余内容&#…