大模型面试挺水的,面试官听到这些直接过

AI大模型600道面试总结(LLM)

1、目前主流的开源模型体系有哪些?

目前 主流的开源模型体系 分三种:

第一种:prefixDecoder系

介绍:输入双向注意力,输出单向注意力·

代表模型:ChatGLM、ChaGLM2、U-PaLM

·第二种:causal Decader系

介绍:从左到右的单向注意力
·代表模型:LLaMA-7B、LLaMa 行生物。

第三种:Encoder-Decoder

介绍:输入双向注意力,输出单向注意力。

代表模型:T5、FIan-T5、BART
在这里插入图片描述

2 prefix Decoder和causal Decoder 和Encoder-Decoder 区别是什么?

preflx Decoder和causal Decoder和Encoder-Decoder 区别在于 attention mask不同:

.Encoder-Decoder:

·在输入上采用双向注意力,对问题的编码理解更充分
·适用任务:在偏理解的 NLP任务上效果好
·缺点:在长文本生成任务上效果差,训练效率低;

causal Decoder.

自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的

token才能看到前面的token的规则;

适用任务:文本生成任务效果好

优点:训练效率高,zero-shot 能力更强,具有涌现能力

preix Decoder:

特点:prefix部分的token互相能看到,causal Decoder积Encoder-Decoder 折中

缺点:训练效率低
在这里插入图片描述

3 大模型LLM的训练目标是什么?

1.语言模型
根据 已有词 预测下一个词,训练目标为最大似然函数
在这里插入图片描述
训练效率:PrefixDecoder<Causal
DecoderCausal Decoder 结构会在 所有 token 上计算损失,而 Prefix Decoder 只会在 输出上计算损失。
1.去噪自编码器
随机替换掉一些文本段,训练语言模型去恢复被打乱的文本段。目标函数为:
在这里插入图片描述
去澡自编码器的实现难度更高,采用去噪自编码器作为训练目标的任务有GLM-130B、T5.

4、涌现能力是啥原因?

根据前人分析和论文总结,大致是2个猜想:

  • 任务的评价指标不够平滑;
  • 复杂任务 s子任务,这个其实好理解,比如我们假设菜个任务T有5个子任务 S山-T构成,每个 sub-T 随着模型增长,指标从
    40%提升到60%,但是最终任务的招标只从 1.1%提升到了 7%,也就是说宏观上看到了涌现现象,但是子任务效果其实是平滑增长的。

5、为何现在的大模型大部分是Decoderonly结构?

因为decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能,

目前的LargeLM的训练范式还是在大规模语料shang 做自监督学习,很显然zer0-shot性能更好的decoder-only架构才能更好的利用这些无标注的数据.

大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题,这可能会削弱模型的表达能力。 就生成任务而言,引入双向注意力并无实质的好处,而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了。

6、简单介绍一下大模型【LLMS】?

大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(Large Language Mode,LLM)是针对语言的大模型。

7、大模型【LLMs】后面跟的175B、60B、540B等指什么?

175B、608、540B等:这些一般指参数的个数,B是Bion/十亿的意思,175B是1750亿参数,这是ChalGPT大约的参数规模。
在这里插入图片描述
在这里插入图片描述

这份《AI大模型600道面试总结(LLM)》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

PDF书籍: 完整版本链接获取

👉[CSDN大礼包🎁:《AI大模型600道面试总结(LLM》免费分享(安全链接,放心点击)]👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/902883.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【状态机DP】力扣1186. 删除一次得到子数组最大和

给你一个整数数组&#xff0c;返回它的某个 非空 子数组&#xff08;连续元素&#xff09;在执行一次可选的删除操作后&#xff0c;所能得到的最大元素总和。换句话说&#xff0c;你可以从原数组中选出一个子数组&#xff0c;并可以决定要不要从中删除一个元素&#xff08;只能…

驱动-----LED

前面我们学习了demo1的驱动的编写,在写LED的时候,我们可以在demo1的基础上修改。 1.首先就是修改名字,把所有的demo改成led,使用一个字符串替换指令。 2.设备号要变 3.想操作硬件,LED的初始化,亮灭 LED的初始化,在open的时候实现。 亮灭在write的时候实现。 现在就是…

技术成神之路:设计模式(二十三)解释器模式

相关文章&#xff1a;技术成神之路&#xff1a;二十三种设计模式(导航页) 介绍 解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为设计模式&#xff0c;用于定义一种语言的文法表示&#xff0c;并提供一个解释器来处理这种文法。它用于处理具有特定语法或表达…

移远通信斩获两项车载大奖,引领全球智能网联汽车产业发展

10月24日&#xff0c;由盖世汽车主办的2024第六届金辑奖中国汽车新供应链百强颁奖盛典在上海隆重举行。 作为全球领先的物联网和车联网整体解决方案供应商&#xff0c;移远通信凭借智能座舱模组AG855G、车载5G模组AG59x系列&#xff0c;以及公司在海外市场的优异表现&#xff0…

Mac 上无法烧录 ESP32C3 的问题记录:A fatal error occurred:Failed to write to target RAM

文章目录 问题描述驱动下载地址问题解决&#xff1a;安装 CH343 驱动踩的坑日志是乱码 问题描述 我代码编译可以&#xff0c;但是就是烧录不上去 A fatal error occurred:Failed to write to target RAM(result was 01070000:Operation timed out) Uploaderror:上传失败&…

selenium脚本编写及八大元素定位方法

selenium脚本编写 上篇文章介绍了selenium环境搭建&#xff0c;搭建好之后就可以开始写代码了 基础脚本,打开一个网址 from selenium import webdriver driver webdriver.Chrome()#打开chrome浏览器 driver.get(https://www.baidu.com) #打开百度 打开本地HTML文件 上篇…

ctfshow(265->266)--反序列化漏洞--指针引用与php://input读取请求体

Web265 源代码&#xff1a; error_reporting(0); include(flag.php); highlight_file(__FILE__); class ctfshowAdmin{public $token;public $password;public function __construct($t,$p){$this->token$t;$this->password $p;}public function login(){return $this…

企业贷款大揭秘:税贷VS票贷,哪个更适合你?

在金融界&#xff0c;资金就像是现代经济的血液&#xff0c;特别是对于企业的发展来说&#xff0c;银行的资金支持简直是不可或缺的。最近&#xff0c;多家银行可是动作频频&#xff0c;加快了资金投放的步伐&#xff0c;尤其是制造业、小微企业、专精特新以及“三农”这些领域…

网络编程 Linux环境 C语言实现

进程间通信的延续 跨电脑进程间通信 一、远程通信方式 电路交换------老式有线电话通信 ​ 报文交换 ​ 分组交换 支持分时机制的(分片机制)报文交换 ​现行网络大部分都是采用分组交换形式 二、网络&互联网&因特网 网络Network&#xff1a;多台计算机通过某种传输…

Javaee---多线程(一)

文章目录 1.线程的概念2.休眠里面的异常处理3.实现runnable接口4.匿名内部类子类创建线程5.匿名内部类接口创建线程6.基于lambda表达式进行线程创建7.关于Thread的其他的使用方法7.1线程的名字7.2设置为前台线程7.3判断线程是否存活 8.创建线程方法总结9.start方法10.终止&…

微积分复习笔记 Calculus Volume 1 - 3.5 Derivatives of Trigonometric Functions

3.5 Derivatives of Trigonometric Functions - Calculus Volume 1 | OpenStax

西门子S7-200 SMART 多泵轮换功能库案例下载

通用描述 在现场使用多台风机水泵的场合&#xff0c;需要考虑对多台风机水泵进行轮换&#xff0c;因此如何合 理的对多台风机水泵进行轮换就成了一道难题&#xff0c;本文针对上述情况&#xff0c;专门开发了多 泵轮换的应用库&#xff0c;可以方便统计泵的运行时间&#xf…

Python print()输出颜色设置

标准格式 print("\033[显示方式&#xff1b;前景颜色&#xff1b;背景颜色m…\033[0m") 显示方式 前景颜色和背景颜色 print("\033[0;37;41m我是小杨我就这样\033[0m") print("\033[0;37;42m我是小杨我就这样\033[0m") print("\033[0;37;…

AI助理与知识库:企业新人培训的革新力量

在快速变化的商业环境中&#xff0c;企业新人培训模式的创新已成为提升组织效能的关键。特别是人工智能&#xff08;AI&#xff09;助理的引入&#xff0c;结合知识库的应用&#xff0c;为企业新人培训带来了革命性的变化。以下是对这一变革的深入探讨与前景展望&#xff0c;旨…

文本转语音工具 | Balabolka v2.15.0.880 便携版

Balabolka是一款功能强大的文本转语音&#xff08;TTS&#xff09;软件&#xff0c;它能够将文字转换成语音并保存为多种音频格式&#xff0c;如WAV、MP3、OGG或WMA。这款软件兼容多种文件格式&#xff0c;包括但不限于AZW、CHM、DjVu、DOC、EPUB、FB2、LIT、MOBI、ODT、PDF、P…

3.堆栈的理解

堆栈是同一段进行插入删除的线性表 &#xff08;先入后出&#xff09; 栈式最基础的常见的数据结构之一 进入一个新的函数的时候 会开辟一个空间&#xff0c;存放需要的数据 int add(int a,int b,int c) {return abc } int main() {add(1,2,3) }//add&#xff08;1&#xff…

Redis 线程控制 总结

前言 相关系列 《Redis & 目录》&#xff08;持续更新&#xff09;《Redis & 线程控制 & 源码》&#xff08;学习过程/多有漏误/仅作参考/不再更新&#xff09;《Redis & 线程控制 & 总结》&#xff08;学习总结/最新最准/持续更新&#xff09;《Redis &a…

https://huggingface.co/上的模型无法用linux服务器clone怎么办(只需要稍微改一下网址,就可以切换到镜像下载)

问题描述&#xff1a; 在ubuntu系统上&#xff0c;使用如下命令&#xff0c;克隆仓库&#xff0c;报无法访问错误&#xff1a; git clone https://huggingface.co/distilbert/distilroberta-base通用解决方案&#xff1a; 把下面部分更换&#xff1a; https://huggingface.…

Scrapy框架原理与使用流程

一.Scrapy框架特点 框架&#xff08;Framework&#xff09;是一种软件设计方法&#xff0c;它提供了一套预先定义的组件和约定&#xff0c;帮助开发者快速构建应用程序。框架通常包括一组库、工具和约定&#xff0c;它们共同工作以简化开发过程。scrapy框架是python写的 为了爬…

为什么有0.35/Tr这一信号带宽定义

从频域幅值函数可以近似认为这是一个低通滤波器模型&#xff0c;可以采用RC网络模型来处理&#xff0c;根据电路理论计算电压10%到90%所需上升时间&#xff0c;再根据滤波器频域特性计算幅值在-3db处的频率极限&#xff0c;通过两个关系式可以计算出频率极大值和上升时间关系&a…