大模型LLM架构--Decoder-Only、Encoder-Only、Encoder-Decoder

大模型LLM架构--Decoder-Only、Encoder-Only、Encoder-Decoder

article2025/1/11 10:01:01/文章来源:https://blog.csdn.net/u013171226/article/details/137907662

目录

1 LLM演变进化树

2 每种架构的优缺点

2.1 Decoder-Only 架构

2.2 Encoder-Only

2.3 Encoder-Decoder

参考文献：

1 LLM演变进化树

基于 Transformer 模型以非灰色显示：
decoder-only 模型在右边的浅蓝色分支，
encoder-only 模型在粉色分支，
encoder-decoder 模型在绿色分支。

模型在时间线上的位置表示它们的发布日期。开源模型由实心方块表示，而闭源模型由空心方块表示。右下角的堆积条形图显示了各公司和机构的模型数量。

2 每种架构的优缺点

2.1 Decoder-Only 架构

仅包含解码器部分，通常用于序列生成任务，如文本生成等。这类结构的模型适用于需要生成序列的任务，可以从输入的编码中生成相应的序列。这类结构的代表也就是我们平时非常熟悉的GPT模型的结构，所有该家族的网络结构都是基于Decoder-Only的形式来逐步演化。

2.2 Encoder-Only

仅包含编码器部分，主要适用于不需要生成序列的任务，只需要对输入进行编码和处理的单向任务场景，如文本分类、情感分析等，这种架构主要用于处理输入数据，专注于理解和编码信息，而不是生成新的文本。这类代表是BERT相关的模型，例如BERT，RoBERT，ALBERT等

2.3 Encoder-Decoder

既包含编码器也包含解码器，先理解输入的信息（Encoder部分），然后基于这个理解生成新的、相关的内容（Decoder部分），通常用于序列到序列（Seq2Seq）任务，如机器翻译、对话生成等，这类代表是以Google训出来T5为代表相关大模型。

参考文献：

生动说明BERT，Transformer，预训练模型的含义和关系 - 掘金

大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder_大语言模型和encoder和decoder-CSDN博客

原创 | 大模型扫盲系列——初识大模型-腾讯云开发者社区-腾讯云

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/553934.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【学习】测试新项目该如何高效的展开测试？需要做哪些规划？

【学习】测试新项目该如何高效的展开测试？需要做哪些规划？

当我们收到测试项目时，如何高效地展开测试是我们作为测试人员所要面临的一大挑战。测试是软件开发过程中不可或缺的一环，它确保了产品的质量，降低了出现问题的风险，提高了用户的满意度。因此，我们需要制定合理的测试计…

阅读更多...

操作教程丨MaxKB+Ollama：快速构建基于大语言模型的本地知识库问答系统

操作教程丨MaxKB+Ollama：快速构建基于大语言模型的本地知识库问答系统

2024年4月12日，1Panel开源项目组正式对外介绍了其官方出品的开源子项目——MaxKB（github.com/1Panel-dev/MaxKB）。MaxKB是一款基于LLM（Large Language Model）大语言模型的知识库问答系统。MaxKB的产品命名内涵为“Max …

阅读更多...

java对接IPFS系统-以nft.storage为列

java对接IPFS系统-以nft.storage为列

引言之前我们已经说过了、NFT.Storage是一个基于IPFS的分布式存储服务，专门用于存储和管理非同质化代币（NFT）相关的数据和资产。它是由Protocol Labs和Pinata共同推出的服务。今天我们基于nft.storage为列、使用java对接打通这个ipfs分布式存…

阅读更多...

成为程序员后的领悟与展望-ApiHug

成为程序员后的领悟与展望-ApiHug

🤗 ApiHug {Postman|Swagger|Api...} 快↑ 准√ 省↓ GitHub - apihug/apihug.com: All abou the Apihug apihug.com: 有爱，有温度，有质量，有信任ApiHug - API design Copilot - IntelliJ IDEs Plugin | Marketplace 选择一个…

阅读更多...

【代码】Python3｜Requests 库怎么继承 Selenium 的 Headers （2024，Chrome）

【代码】Python3｜Requests 库怎么继承 Selenium 的 Headers （2024，Chrome）

本文使用的版本： Chrome 124Python 12Selenium 4.19.0 版本过旧可能会出现问题，但只要别差异太大，就可以看本文，因为本文对新老版本都有讲解。文章目录 1 难点解析和具体思路2 注意事项2.1 PDF 资源获取时注意事项2.2 Capabiliti…

阅读更多...

关于老iPad 能够重新使用经过的一些列折腾

关于老iPad 能够重新使用经过的一些列折腾

背景搞了一台IPad air一代给家里老人看戏曲或者电视用，芯片是A7处理器，目前IOS系统是IOS12，也就是能支持的最后一个版本。并且可能是之前刷机问题，IPad基带丢失，显示无法连接激活服务器，无法进入系统。本人没有MAC设备，没有相关越狱经验，没有黑苹果经验，一切都是从头…

阅读更多...

制冷铜管焊接介绍

制冷铜管焊接介绍

铜管是制冷装置的重要原材料，它主要有两种用途：①制作换热器。②制作连接管道和管件。常用的焊料类型有铜磷焊料、银铜焊料、铜锌焊料等。在焊接时要根据管道材料的特点，正确的选择焊料及熟练的操作，以确保焊接的质量。 1.1对同类…

阅读更多...

基于springboot实现图书进销存管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现图书进销存管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现图书进销存管理系统演示摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了图书进销存管理系统的开发全过程。通过分析图书进销存管理系统管理的不足，创建了一个计算机管理图书进销…

阅读更多...

QML QtObject轻量级非可视化元素

QML QtObject轻量级非可视化元素

QtObject 理论1. 父指针形式代指子类2. 自定义组件中定义一些私有属性理论 QtObject类型是一个非常轻量级且非可视元素，它只包含objectName属性，其本质上是QObject。用途一般是两个： 父指针形式代指子类；自定义组件中定义一些…

阅读更多...

Java基于SpringBoot+Vue的蜗牛兼职网系统的研究与实现

Java基于SpringBoot+Vue的蜗牛兼职网系统的研究与实现

博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

阅读更多...

Python零基础从小白打怪升级中~~~~~~~多线程

Python零基础从小白打怪升级中~~~~~~~多线程

线程安全和锁一、全局解释器锁首先需要明确的一点是GIL并不是Python的特性，它是在实现Python解析器(CPython)时所引入的一个概念。 GIL全称global interpreter lock，全局解释器锁。每个线程在执行的时候都需要先获取GIL，保证同一时刻只…

阅读更多...

MySQL（2024.4.17）

MySQL（2024.4.17）

目录 1. 什么是MySQL的MVCC机制？ 2. 如何理解InnoDB的Next-Key Lock机制？ 3. 快照读和当前读的区别？ 4. 如何在SQL语句中触发当前读？ 5. MySQL默认的隔离级别是什么？ 6. 如何避免在使用当前读时可能出现的死锁问…

阅读更多...

Docker部署metahuman-stream数字人系统

Docker部署metahuman-stream数字人系统

metahuman-stream是基于ernerf模型的流式数字人，实现音视频同步对话。 metahuman-stream xtts-streaming-server srs 部署 srs # rtmpserver docker run -it -d \ -p 1935:1935 -p 1985:1985 -p 8080:8080 -p 8000:8000/udp -p 10080:10080/udp \ --name srs \ reg…

阅读更多...

Postgresql源码（126）TupleStore使用场景与原理分析

Postgresql源码（126）TupleStore使用场景与原理分析

相关《Postgresql源码（125）游标恢复执行的原理分析》《Postgresql游标使用介绍（cursor）》总结开源PG中使用tuple store来缓存tuple集，默认使用work_mem空间存放，超过可以落盘。在PL的returns setof场景…

阅读更多...

基于51单片机的步进电机调速系统设计

基于51单片机的步进电机调速系统设计

基于51单片机的步进电机调速系统 （仿真＋程序＋原理图＋设计报告） 功能介绍具体功能： 1.按键可以控制电机正、反转，加、减速，停止； 2.一位7段数码管实时显示档位&#xf…

阅读更多...

6个免费的伪原创工具，轻松生成原创文章

6个免费的伪原创工具，轻松生成原创文章

如今，内容创作已经成为许多人关注的焦点。然而，随之而来的是创作压力和时间成本的增加。为了解决这些问题，越来越多的人开始寻找一些伪原创工具来帮助他们生成原创文章，其中免费的伪原创工具成为了热门选择之一。这些免费的伪原创…

阅读更多...

建都寿春的袁术兴亡史

建都寿春的袁术兴亡史

三国(220年-280年)是中国历史上位于汉朝之后，晋朝之前的一段历史时期。这一个时期，先后出现了曹魏、蜀汉、东吴三个主要政权。袁术的地盘很小，为了在三国时期能够立足？ 事实上，袁术巅峰时期的地盘并不小，而…

阅读更多...

类和对象中-运算符重载

类和对象中-运算符重载

在C中，有些成员函数如果我们不去显示定义，编译器会自动生成会自动生成的特殊函数： 他们不能定义为全局函数，必须是类成员员函数（特别是拷贝赋值重载） 下面介绍默认生成函数的作用，特点构造 …

阅读更多...

工作流JBPM流程图说明

工作流JBPM流程图说明

文章目录 5☃️ 相关概念6 ☃️流程图说明6.0 ❄️❄️快速上手6.1 ❄️❄️活动Activity / 节点Node6.1.1 start 开始活动6.1.2 end 结束活动6.1.3 task 任务活动6.1.4 decision 判断活动6.1.5 fork/join 分支/聚合活动 6.2 ❄️❄️流转 Transition / 连线 （单向箭…

阅读更多...

Python相关性分析

Python相关性分析

分析连续变量之间线性相关程度的强弱，并用适当的统计指标表示出来的过程称为相关分析。可以直接绘制散点图，或者绘制散点图矩阵，或者计算相关系数来进行相关分析。相关系数的计算如下所示： 示例数据： 计算百合酱蒸…

阅读更多...

最新文章