大模型面试笔试常见问题汇总(精心准备)

1 GPT和Bert的区别?

1.模型结构和训练方式

        BERT通过掩码语言模型(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)任务进行训练:

  • 掩码语言模型(MLM):在输入序列中,BERT随机掩盖一些词语,并要求模型预测这些被掩盖的词语。这使得BERT能够学习在给定上下文中预测缺失词语的能力。

  • 下一句预测(NSP):在某些自然语言处理任务中,理解句子之间的关系很重要。为了让模型学习句子级别的关系,BERT使用NSP任务,该任务要求模型判断两个句子是否是连续的,即一个句子是否是另一个句子的下一句。

        GPT基于解码器,其输入序列首先通过一个嵌入层转换成向量表示,然后输入到Transformer解码器中。每个解码器层由多个注意力头和前馈神经网络组成,用于逐步生成下一个词语的概率分布。

        BERT使用双向语言模型的训练策略。在输入序列中,BERT随机掩盖一些词语,并让模型预测这些被掩盖的词语。这种方式使BERT能够从上下文中学习词语的语义和语境信息。

        GPT使用自回归语言模型的训练方式。它通过让模型预测当前位置的词语来学习生成文本的能力。在预训练过程中,GPT逐步生成下一个词语,并优化参数以最大化下一个词语的概率。

2.上下文理解能力

        这两种基于Transformer架构的预训练模型在上下文理解能力和应用领域上有所不同。

        由于BERT采用双向模型,通过预测被掩盖的词语和判断句子之间的关系,它可以从上下文中获取更丰富的信息,并具有较强的上下文理解能力。因此,BERT在词语级别的任务中表现优异,如命名实体识别和问答等。

        GPT是一个单向模型,只能依赖已生成的上文来预测下一个词语。通过自回归语言模型训练,GPT逐步生成下一个词语,以学习生成连贯的文本。由于单向模型的限制,GPT在生成式任务中表现出色,如对话生成和文本生成。GPT能够生成具有上下文连贯性和逻辑性的文本,因为它在生成每个词语时都能考虑之前已生成的上文。

3.下游任务适用性

        由于BERT具有强大的上下文理解能力和双向模型的特点,它在各种下游任务中表现优秀,如文本分类、命名实体识别和语义关系判断等。

        GPT主要用于生成式任务,如对话生成、文本生成和机器翻译等。它能够

        生成自然流畅的文本,但在一些需要输入-输出对齐的任务中效果较弱。由于其单向特性,GPT在生成任务中表现突出,但在需要复杂上下文理解的任务上相对不如BERT。

2 NLP哪些场景不适用大模型?

1)数据稀缺的场景

        大型模型通常需要海量的训练数据以实现优异的性能。然而,在某些领域或任务中,获取足够的数据可能非常困难,这使得训练大型模型变得不切实际。

2)资源受限的环境

        大型模型通常需要大量的计算资源和存储空间。因此,在资源受限的环境中,例如嵌入式系统或移动设备上,使用大型模型可能不可行。

3)实时性要求高的场景

        在需要快速响应的场景中,如实时对话系统或自动翻译工具,大型模型由于计算复杂度高,可能无法满足实时性的要求。

3 ChatGPT的优缺点?

        优点:

  1. 自然语言交互:ChatGPT能够实现与用户的自然语言对话,使交流变得直观且方便。你可以通过对话形式提问、请求帮助或寻求建议。

  2. 广泛应用:ChatGPT适用于多种场景,包括自助客服、编程支持、写作辅助、语言翻译等。它能够根据不同的用例提供准确的回答和解决方案。

  3. 大量数据的学习:ChatGPT通过大量互联网文本进行训练,从多个领域的数据中学习知识和语言模式。这使它能为多种主题和话题提供有用的信息和答案。

        缺点:

  1. 可信性无法保证:ChatGPT的回复有时可能看似合理但实则不准确,模型目前还无法提供可信性验证的合理证据。

  2. 成本高昂:训练和部署ChatGPT基础大模型的成本很高,每次调用也可能费用不菲,并且可能存在延迟问题,这对工程能力提出了较高要求。

  3. 特定专业领域表现欠佳:由于大规模语言模型的训练数据是通用数据,缺乏专业领域的数据支持,因此在处理特定领域的专业术语翻译时表现不佳。

4 为什么现在的大模型大多是decoder-only的架构?

        Decoder-only架构是一种仅包含解码器部分而不包含编码器部分的模型结构。不同于编码器-解码器架构,这种结构直接将输入序列传递给解码器进行处理。省略编码器部分使得Decoder-only架构能够显著减少模型的参数量和计算资源需求。

        优点:

  1. 减少计算资源需求:由于省略了编码器部分,Decoder-only架构显著减少了模型的参数量和计算资源需求。在训练和推理过程中,这种架构可以更快地收敛,提高效率。

  2. LLM的主要架构选择:大型语言模型(LLM)通常采用Decoder-only架构,除了其在训练效率和工程实现上的优势外,还有理论上的原因。编码器的双向注意力机制可能存在低秩问题(容易退化为低秩状态),这会削弱模型的表达能力,而casusal attention是下三角矩阵满秩,建模能力更强,同时causal attention有隐式位置编码的功能 。对于生成任务而言,引入双向注意力并无实质性好处。而编码器-解码器架构在某些场景下表现更好,可能仅是因为其参数量增加了一倍。

  3. Prompt直接作用于decoder参数,指令和微调效果更强

  4. 同时causal attention有隐式位置编码的功能,双向attention部分token兑换不改变表示,对时序的区分能力较弱。


补充知识点:

        矩阵的低秩问题指的是矩阵的秩(rank)相对较低,导致矩阵的表示空间的维度远小于矩阵本身的维度,从而无法完整地捕捉矩阵的所有信息。

        在深度学习领域,特别是在自然语言处理(NLP)中,矩阵的低秩问题通常出现在注意力机制中,尤其是在使用自注意力机制(self-attention)的Transformer模型中。

        在自注意力机制中,给定一个输入序列,模型计算每个位置之间的相互关联性,产生一个注意力矩阵(attention matrix),用于指导信息的传递和整合。然而,由于输入序列的长度可能会很大,导致注意力矩阵的维度也很大,这就会带来两个问题:

  1. 计算复杂度高:注意力矩阵的计算复杂度与序列长度的平方成正比,因此当序列长度很大时,计算量会非常庞大。

  2. 参数数量庞大:由于注意力矩阵的维度较大,其中的参数数量也会很多,这会增加模型的参数量,增加训练和推理的时间和空间成本。

        为了解决这些问题,研究人员提出了一些方法,其中包括使用低秩近似技术。低秩近似技术通过在注意力矩阵的计算过程中引入一些约束或近似操作,使得最终的注意力矩阵具有较低的秩,从而降低了计算和存储的复杂度,同时保持了模型的性能。

5 LLaMA的主要结构?

        前置层归一化(Pre-normalization)并使用RMSNorm归一化函数(Normalizing Function)、激活函数更换为SwiGLU,并使用了旋转位置嵌入(RoP),整体Transformer架构与GPT-2类似。

  • 前置层归一化(Pre-normalization)并使用RMSNorm归一化函数(Normalizing Function)

    • 作用:前置层归一化通过在每一层的输入进行归一化来稳定和加速训练过程。使用RMSNorm作为归一化函数,可以有效减少训练过程中梯度爆炸或消失的问题,从而提升模型的收敛速度和稳定性。

  • 激活函数更换为SwiGLU

    • 作用:将激活函数替换为SwiGLU(Swish-Gated Linear Units)可以增强模型的非线性表示能力。SwiGLU在实验中表现出优于传统激活函数(如ReLU)的性能,尤其在复杂任务中可以提高模型的准确性和效率。

  • 使用旋转位置嵌入(RoPE)

    • 作用:旋转位置嵌入(RoPE)是用于捕捉输入序列中位置信息的一种方法。与传统的位置编码不同,RoPE通过旋转向量的方式编码位置信息,使模型更好地理解序列中的相对位置关系,提升了模型在处理长序列时的表现。

        RoPE(Rotary Position Embedding,旋转位置编码)是一种用于编码序列位置信息的方法,特别适用于Transformer架构的模型。RoPE的核心原理是通过旋转操作将位置信息嵌入到向量空间中。

        具体来说,RoPE使用了复数单位向量的旋转操作来表示序列中每个位置的位置编码。其基本原理如下:

  1. 单位向量表示位置:首先,每个位置被映射到一个单位复数向量。这些单位向量具有相同的模长(即长度为1),但在复数平面上具有不同的方向。

  2. 旋转操作:然后,通过旋转操作将这些单位向量在复数平面上进行旋转。旋转的角度取决于位置的索引和维度。通常情况下,使用复数单位向量的正弦和余弦函数来确定旋转角度。

  3. 嵌入到模型中:得到旋转后的单位向量后,这些向量就被嵌入到模型的输入中,与其他输入特征一起被送入模型进行处理。

        RoPE的优势在于它能够有效地捕捉序列中位置的相对关系,而不受序列长度的影响。由于旋转操作是在单位向量上进行的,因此不需要额外的参数或计算成本,能够很好地融入到Transformer模型中。

        总的来说,RoPE通过旋转操作将位置信息嵌入到向量空间中,从而使得模型能够更好地理解序列中的位置关系,提高模型在长序列任务中的性能。

6 RMSNorm和LayerNorm的区别?

        对于layerNorm和RMSNorm,layerNorm包含缩放和平移两部分,RMSNorm去除了平移部分,只保留了缩放部分。有研究认为layerNorm取得成功的关键是缩放部分的缩放不变性,而不是平移部分的平移不变性。

        RMSNorm相比一般的layerNorm,减少了计算均值和平移系数的部分,训练速度更快,效果基本相当,甚至有所提升。

7 BPE、wordpiece、sentencepiece的区别?

        目前的机器学习模型都是基于数学模型,这意味着输入必须是数字形式。然而,在真实场景中,我们处理的输入通常包含许多非数字形式(有时即使原始输入是数字形式,也需要进行转换)。最典型的例子就是自然语言处理(NLP)中的文本输入。为了让文本能够被模型处理,我们需要将其转换成数字形式,这个转换过程就是通过映射关系(mapping)实现的。具体来说,我们将文本映射成对应的数字,即token,而这个映射过程的工具就是tokenizer。它可以将文本编码成数字(encode),也可以将数字解码回文本(decode)。

1. 词级别(Word Level)

        在词级别上,一个词对应一个ID。比如“武汉市/长江/大桥/欢迎/你”和“武汉/市长/江大桥/欢迎/你”,我们应该选择哪个方案呢?

2. 字符级别(Char Level)

        考虑到分词的复杂性,我们可以选择不分词,而是按“字”(char)来作为最小单元进行映射。这样词表就小多了:对于英文,仅需要26个字母;对于中文,根据2013年中华人民共和国教育部发布的《通用规范汉字表》定义,国家规定的通用规范汉字共有8105个,相对来说并不算多。然而,将文本切分得过细会导致序列长度增加,显著增加建模难度(需要通过字来学习词的语义),并且通常会影响模型效果。

3. 子词级别(Subword Level)

        子词级别(subword level)介于字符和单词之间。例如,'Transformers'可能会被分成'Transform'和'ers'两个部分。这个方案在词汇量和语义独立性之间取得了平衡,是一种相对较优的方案。

        在子词级别的tokenizer方法中,主要有以下几种:BPE、Bytes BPE、WordPiece、Unigram、SentencePiece。下面简要总结各个方法:

BPE(Byte Pair Encoding)

        BPE 通过统计词频来确定是否合并相邻的子词对(pair subwords)。具体步骤如下:

  1. 初始化时,将所有单词拆分为字符。

  2. 统计所有相邻字符对的频率,找到出现频率最高的一对。

  3. 合并这对字符,更新词表。

  4. 重复步骤2和3,直到达到预定的词汇表大小。

        这种方法通过逐步合并高频字符对,逐渐形成常用的子词,从而减少词汇表的大小。

Bytes BPE

        Bytes BPE 是BPE的变种,适用于处理任意语言的文本,包括非拉丁字符和特殊符号。它直接在字节级别进行操作,不依赖于特定的字符集,因此对多语言和非标准文本有更好的兼容性。

WordPiece

        WordPiece 方法最初由Google在训练其BERT模型时提出。它与BPE类似,通过统计子词对的频率进行合并,但其目标是最大化词汇表的语言覆盖率和分词质量。考虑的是合并后能否最大程度提高训练数据的整体似然值(通常基于 n-gram 模型得分)。这意味着 WordPiece 更侧重于选择能够优化语言模型性能的子词组合。BPE选择频数最高的相邻子词合并,而WordPiece选择使得语言模型概率最大的相邻子词加入词表。

具体步骤包括:

  1. 将单词拆分为字符。

  2. 统计词频,合并频率最高的子词对。

  3. 不断重复,直到达到预定的词汇表大小。

WordPiece 相较于BPE,更注重子词合并后的语义完整性和词汇覆盖率。

Unigram

Unigram 是一种基于概率模型的分词方法。它和 BPE 以及 WordPiece 从表面上看一个大的不同是,前两者都是初始化一个小词表,然后一个个增加到限定的词汇量,而 Unigram Language Model 却是先初始一个大词表,接着通过语言模型评估不断减少词表,直到限定词汇量。

其核心思想是:

  1. 初始化一个包含大量子词的词汇表。

  2. 根据子词的概率,计算给定文本的最优分词方案。

  3. 移除低概率的子词,不断精简词汇表。

  4. 迭代上述过程,直到达到预定的词汇表大小。

Unigram 方法通过概率模型,能够更灵活地处理词汇分布和词频变化,适用于多语言文本。

SentencePiece

        SentencePiece 是一个独立于语言和字符集的分词方法,适用于多语言处理。SentencePiece它是谷歌推出的子词开源工具包,它是把一个句子看作一个整体,再拆成片段,而没有保留天然的词语的概念。一般地,它把空格也当作一种特殊字符来处理,再用BPE或者Unigram算法来构造词汇表。SentencePiece除了集成了BPE、ULM子词算法之外,SentencePiece还能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/784072.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TCP的p2p网络模式

TCP的p2p网络模式 1、tcp连接的状态有以下11种 CLOSED:关闭状态LISTEN:服务端状态,等待客户端发起连接请求SYN_SENT:客户端已发送同步连接请求,等待服务端相应SYN_RECEIVED:服务器收到客户端的SYN请请求&…

214.贪心算法:K次取反后最大化的数组和(力扣)

class Solution { public:int largestSumAfterKNegations(vector<int>& nums, int k) {int sum 0;// 进行k次取反操作while (k > 0){// 对数组进行排序sort(nums.begin(), nums.end());// 将最小的元素取反nums[0] -nums[0];// 减少k的值k--;}// 计算数组的总和…

学习数据库2

在数据库中创建一个表student&#xff0c;用于存储学生信息 查看建表结果 向student表中添加一条新记录 记录中id字段的值为1&#xff0c;name字段的值为"monkey"&#xff0c;grade字段的值为98.5 并查看结果 向student表中添加多条新记录 2,"bob"…

水利水库大坝结构安全自动化监测主要测哪些内容?

在大坝安全自动化监测系统建设中&#xff0c;应根据坝型、坝体结构和地质条件等因素选定监测项目&#xff1b;主要监测对象包括坝体、坝基及有关的各种主要水工建筑物、大坝附近的不稳定岸坡和大坝周边的气象环境。深圳安锐科技建议参考下列表格适当调整。 &#xff08;一&am…

预训练对齐:数学理论到工程实践的桥梁

在人工智能和机器学习领域&#xff0c;预训练模型的对齐是一个至关重要的概念。本篇博客源自听了一场黄民烈老师关于大模型对齐的分享&#xff0c;整理内容如下&#xff0c;供大家参考。 数学理论中的预训练对齐 数学理论上&#xff0c;预训练对齐是什么&#xff1f; 序列…

比赛获奖的武林秘籍:04 电子类比赛嵌入式开发快速必看的上手指南

比赛获奖的武林秘籍&#xff1a;04 电子类比赛嵌入式开发快速必看的上手指南 摘要 本文主要介绍了电子类比赛中负责嵌入式开发同学的上手比赛的步骤、开发项目的流程和具体需要学习的内容&#xff0c;并结合自身比赛经历给出了相关建议。 正文 如何开始上手做自己第一个项目…

STM32中的DMA:解锁高效数据传输的秘密武器(内附实例)

目录 引言 理解DMA&#xff1a;数据的高效搬运工 DMA的主要特性 多优先级请求 事件标志 数据对齐 多样化的数据传输路径 广泛的数据源与目标 最大数据长度 DMA寄存器详解 增量与循环模式 DMA中断机制 ​编辑 小实验&#xff1a;DMA-ADC串口发送 引言 在现代嵌入…

推荐一款Win11主题WPF UI框架

最近在微软商店&#xff0c;官方上架了新款Win11风格的WPF版UI框架【WPF Gallery Preview 1.0.0.0】,这款应用引入了前沿的Fluent Design UI设计&#xff0c;为用户带来全新的视觉体验。 WPF Gallery简介 做为一关注前沿资讯的开发人员&#xff0c;首先关注的是应用WPF Gallery…

马斯克公布xAI Grok-2大语言模型将于8月推出;GPT-5仍需时日

&#x1f989; AI新闻 &#x1f680; 马斯克公布xAI Grok-2大语言模型将于8月推出 摘要&#xff1a;7月1日&#xff0c;马斯克在X平台宣布&#xff0c;其人工智能初创公司xAI的新大语言模型Grok-2将于8月推出。此前&#xff0c;xAI已发布了Grok-1.5和Grok-1.5 Vision模型。马…

2024年【安全员-C证】考试及安全员-C证免费试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 安全员-C证考试根据新安全员-C证考试大纲要求&#xff0c;安全生产模拟考试一点通将安全员-C证模拟考试试题进行汇编&#xff0c;组成一套安全员-C证全真模拟考试试题&#xff0c;学员可通过安全员-C证免费试题全真模…

飞睿智能无线高速uwb安全数据传输模块,低功耗、抗干扰超宽带uwb芯片传输速度技术新突破

在信息化的时代&#xff0c;数据传输的速度和安全性无疑是每个企业和个人都极为关注的话题。随着科技的飞速发展&#xff0c;超宽带&#xff08;Ultra-Wideband&#xff0c;简称UWB&#xff09;技术凭借其性能和广泛的应用前景&#xff0c;逐渐成为了数据传输领域的新星。今天&…

C语言学习笔记[21]:分支语句if...else

C语言是结构化的程序设计语言 顺序结构选择结构循环结构 分支语句对应的就是选择结构&#xff0c;循环语句对应的就是循环结构 分支语句 if...elseswitch 循环语句 whilefordo...while goto语句 语句 C语言中由分号隔开的就是一条语句&#xff0c;比如&#xff1a; #…

这个暑假,带娃就交给华为儿童手表5 Pro吧

一年一度孩子们最期待的暑期终于到啦&#xff01;在这个充足的时间段里&#xff0c;孩子们可以尽情的释放他们的热情与好奇心&#xff0c;家长们也可以努力为孩子们创造更多的回忆。但是&#xff0c;不少家长暑期带娃总是发愁&#xff0c;宝贝们玩的多&#xff0c;家长们需要注…

数据库系统概论 | MySQL | 数据定义 | 单表查询 | 嵌套查询 | 连接查询 | 带有谓词的查询

数据定义 模式的定义与删除 定义模式与删除模式&#xff1a; CREATE SCHEMA S_C_SC; DROP SCHEMA S_C_SC;进入模式&#xff1a; USE S_C_SC;建立学生表&#xff1a; CREATE TABLE Student (Sno CHAR(8) PRIMARY KEY, Sname VARCHAR(20) UNIQUE, Ssex CHAR(6), Sbirthdate …

07.C2W2.Part-of-Speech (POS) Tagging and Hidden Markov Models

往期文章请点这里 目录 OverviewPart of Speech TaggingMarkov ChainsMarkov Chains and POS TagsPOS tags as StatesTransition probabilitiesThe transition matrixInitial probabilities Hidden Markov ModelsEmission probabilitiesSummary Calculating ProbabilitiesTran…

向新求质 智赋广西,2024华为数智转型助力企业高质量发展论坛在南宁举办

7月5日以“向新求质 智赋广西”为主题的2024华为数智转型助力企业高质量发展论坛在南宁成功举办。来自广西区管企业、驻桂央企和国有企业等80余位中高层管理者&#xff0c;与华为业务变革专家、数字化转型专家共同探讨企业数字化转型新路径&#xff0c;为企业创新转型发展献计献…

SSM城镇居民社区再生资源回收系统-计算机毕业设计源码04175

摘 要 本论文介绍了一个基于SSM&#xff08;Spring Spring MVC MyBatis&#xff09;技术的城镇居民社区再生资源回收系统的设计与实现。随着社会对环境保护意识的不断提高&#xff0c;再生资源回收成为了一种重要的环保行动。然而&#xff0c;传统的再生资源回收方式存在着信…

哈佛大学 || 概念空间中学习动态的涌现:探索隐藏能力

获取本文论文原文PDF&#xff0c;请在公众号【AI论文解读】留言&#xff1a;论文解读 今天主要看一个问题&#xff1a;在模型中的学习动态是如何涌现的。 在现代生成模型的研究与应用中&#xff0c;不断发现这些模型在处理训练数据时展现出了惊人的能力&#xff0c;这些能力很…

2024年【道路运输企业安全生产管理人员】考试及道路运输企业安全生产管理人员操作证考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 道路运输企业安全生产管理人员考试参考答案及道路运输企业安全生产管理人员考试试题解析是安全生产模拟考试一点通题库老师及道路运输企业安全生产管理人员操作证已考过的学员汇总&#xff0c;相对有效帮助道路运输企…

数字身份管理发展趋势:​​​​​​扩展身份安全能力

身份作为企业各个应用的入口&#xff0c;大量存在于企业的内部业务和外部业务中&#xff0c;身份作为最核心数据对于企业的重要性不言而喻&#xff0c;因此也往往成为攻击者的攻击目标&#xff0c;从2023年国资国企受攻击的情况也不难看出&#xff0c;针对身份的攻击累计超过37…