开源大模型LLaMA架构介绍

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. swift与Internvl下的多模态大模型分布式微调指南(附代码和数据)
  2. 多模态大模型Internvl-1.5-26B微调后部署及测试实录(附代码)
  3. 多模态大模型Internvl-2-26B的OCR赋能方案(附代码)
  4. miniconda+xinference的大模型推理部署指南
  5. Mem0:大模型最强赋能“有记忆的LLM”
  6. 再谈Agent:Dify智能体实现Txet2SQL
  7. Moe模式:或将是最好的大模型应用开发路径
  8. 一文带你了解大模型RAG
  9. 详细记录swfit微调interVL2-8B多模态大模型进行目标检测(附代码)
  10. DIfy中集成magic-pdf实现文档解析agent与多模态大模型图文问答
  11. 大模型Prompt trick:利用大模型同情心提升模型性能
  12. 一文带你入门大模型微调
  13. 开源大模型LLaMA架构介绍

文章目录

  • 大模型相关目录
  • 开源大模型LLaMA架构介绍
    • ChatGPT等商业大模型并不“Open”
    • LLaMA
    • 模型技术:RMSNorm (Zhang and Sennrich, 2019)
    • 模型技术:SwiGLU (Shazeer, 2020)
    • 模型技术:SwiGLU (Shazeer, 2020)
    • 模型技术:Rotary Embeddings, RoPE (Su et al., 2021)
  • Llama-2
    • Grouped-Query Attention (GQA) (Ainslie et al., 2023)
  • 中文LLaMA&Alpaca大模型系列


开源大模型LLaMA架构介绍

抛砖引玉,用最近获取的一些资料,介绍一些羊驼模型的技术点和发展历史。

ChatGPT等商业大模型并不“Open”

• 以ChatGPT为代表的商业大模型不论是在效果上还是用户体验上都具有显著优势
• 然而,由于商业大模型的封闭性,使得整个模型属于“黑盒”,不利于开放透明的技术研究
• 学术界需要开源开放的大模型以供未来的技术探索与研究

LLaMA

Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)
• 2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4T token进行训练
• 虽然最大模型只有65B,但在相关评测任务上的效果可以媲美甚至超过千亿级大模型
• 被认为是近期开源大模型百花齐放的开端之一,
“羊驼”系列模型及其生态快速发展
• 主干模型仍然是传统的transformer decoder结构
• 主要技术:Pre-normalization, SwiGLU activation, Rotary Embedding (RoPE)

模型技术:RMSNorm (Zhang and Sennrich, 2019)

• RMSNorm相比LayerNorm计算更加简单而且更有效,经常被用于大模型训练中
• LLaMA模型中的“norm”均使用了RMSNorm

在这里插入图片描述

模型技术:SwiGLU (Shazeer, 2020)

• 谷歌提出的优化Transformer全连接层的新激活方法,在后续的PaLM等模型中也得到应用
• LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为(2/3) ⋅ 4d

在这里插入图片描述
在这里插入图片描述

模型技术:SwiGLU (Shazeer, 2020)

• 在GLUE、SQuAD上的实验结果表明,SwiGLU、ReGLU相比其他激活函数具有一定性能优势
• 基于Gating的方法普遍优于单纯的激活函数(ReLU/GELU/Swish等)
在这里插入图片描述

模型技术:Rotary Embeddings, RoPE (Su et al., 2021)

• 绝对位置编码

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Llama-2

在这里插入图片描述

Grouped-Query Attention (GQA) (Ainslie et al., 2023)

• GQA是一种提升推理速度的方法,主要针对多头注意力机制进行改进,与KV cache搭配使用

在这里插入图片描述
在这里插入图片描述

中文LLaMA&Alpaca大模型系列

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/871607.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

思科设备静态路由实验

拓扑及需求 网络拓扑及 IP 编址如图所示;PC1 及 PC2 使用路由器模拟;在 R1、R2、R3 上配置静态路由,保证全网可达;在 R1、R3 上删掉上一步配置的静态路由,改用默认路由,仍然要求全网可达。 各设备具体配置…

前端技巧——复杂表格在html当中的实现

应用场景 有时候我们的表格比较复杂,表头可能到处割裂,我们还需要写代码去完成这个样式,所以学会在原生html处理复杂的表格还是比较重要的。 下面我们来看这一张图: 我们可以看到有些表头项的规格不太一样,有1*1 2*…

Unity Protobuf3.21.12 GC 问题(反序列化)

背景:Unity接入的是 Google Protobuf 3.21.12 版本,排查下来反序列化过程中的一些GC点,处理了几个严重的,网上也有一些分析,这里就不一一展开,默认读者已经略知一二了。 如果下面有任何问题请评论区留言提…

实现 FastCGI

CGI的由来: 最早的 Web 服务器只能简单地响应浏览器发来的 HTTP 请求,并将存储在服务器上的 HTML 文件返回给浏 览器,也就是静态 html 文件,但是后期随着网站功能增多网站开发也越来越复杂,以至于出现动态技 术&…

2020 位示图

2020年网络规划设计师上午真题解析36-40_哔哩哔哩_bilibili 假设某计算机的字长为32位,该计算机文件管理系统磁盘空间管理采用位示图(bitmap),记录磁盘的使用情况。若磁盘的容量为300GB,物理块的大小为4MB,…

【网络安全】漏洞挖掘:IDOR实例

未经许可,不得转载。 文章目录 正文 正文 某提交系统,可以选择打印或下载passport。 点击Documents > Download后,应用程序将执行 HTTP GET 请求: /production/api/v1/attachment?id4550381&enamemId123888id为文件id&am…

C语言 | Leetcode C语言题解之第354题俄罗斯套娃信封问题

题目: 题解: int cmp(int** a, int** b) {return (*a)[0] (*b)[0] ? (*b)[1] - (*a)[1] : (*a)[0] - (*b)[0]; }int maxEnvelopes(int** envelopes, int envelopesSize, int* envelopesColSize) {if (envelopesSize 0) {return 0;}qsort(envelopes, …

JVM 有哪些垃圾回收器?

JVM 有哪些垃圾回收器? 图中展示了7种作用于不同分代的收集器,如果两个收集器之间存在连线,则说明它们可以搭配使用。虚拟机所处的区域则表示它是属于新生代还是老年代收集器。 新生代收集器(全部的都是复制算法)&…

wps题注为表格或图片编号

word中为表格添加题注: 问题:多次或多人编辑导致--序号不能联动更新(域代码不一致,如图) 所以是否可以批量替换word里的域代码?如果可以这问题就解决了————失败 解决办法: 如图,复制表头&…

协处理器+流水线 (9)

3级流水线 流程: 取指令 译码 执行。 每一个时钟周期都可以执行一个指令。 提高CPU的能力有两种方法, 1 提高时钟频率,造成单位时间内执行的指令更多。 2 减少每条指令的平均指令周期数CPI ,CPI我不太懂,但大概的…

2024.8.21 作业

一个服务器和两个客户端聊天 代码&#xff1a; /*******************************************/ 文件名&#xff1a;server.c /*******************************************/ #include <myhead.h> #define SER_IP "192.168.2.7" // 服务器IP #define SER…

C#开发基础之100个常用的C#正则表达式

前言 正则表达式是处理字符串的强大工具&#xff0c;特别是在文本搜索、替换和验证中。本文将100个常用的C#正则表达式进行分类&#xff0c;以帮助我们更快速地找到适合的正则表达式解决方案。 1. 基础匹配 这些正则表达式用于匹配一些基本的字符或字符串模式。 匹配任意字…

Linux信号机制探析--信号的产生

&#x1f351;个人主页&#xff1a;Jupiter. &#x1f680; 所属专栏&#xff1a;Linux从入门到进阶 欢迎大家点赞收藏评论&#x1f60a; 目录 &#x1f4da;信号什么是信号&#xff1f;为什么要有信号&#xff1f;查看Linux系统中信号 &#x1f388;信号产生&#x1f4d5;kill…

【计算机网络】网络版本计算器

此前我们关于TCP协议一直写的都是直接recv或者read&#xff0c;有了字节流的概念后&#xff0c;我们知道这样直接读可能会出错&#xff0c;所以我们如何进行分割完整报文&#xff1f;这就需要报头来解决了&#xff01; 但当前我们先不谈这个话题&#xff0c;先从头开始。 将会…

Kubectl命令、初识pod、namespace

文章目录 一、Kubectl简介基础命令1.基本信息命令2.创建和更新资源命令3.删除资源命令4. 查看日志和调试命令5. 端口转发和复制文件命令6. 部署管理命令7. 伸缩命令8. 配置和上下文管理命令9.常用命令 二、Pod简介核心概念pod常见状态调度和初始化阶段容器创建和运行阶段异常状…

Zookeeper服务注册及心跳机制详解

ZooKeeper提供了一种类似于文件目录的结构来保存key值&#xff0c;其提供了四种key类型&#xff0c;分别是持久节点&#xff0c;临时节点&#xff0c;持久有序节点&#xff0c;临时有序节点。其中临时节点的特性是当创建此节点的会话断开时&#xff0c;节点也会被删除。这一特性…

Apache Commons-IO 库

Apache Commons-IO是Apache开源基金组织提供的一组有关IO&#xff08;Input/Output&#xff09;操作的小框架。这个库的主要目的是为了提高IO流的开发效率&#xff0c;减少在进行文件读写、目录遍历等操作时编写的样板代码量。通过使用Commons-IO库&#xff0c;开发者可以更加简…

WT32-ETH01开发板模块,启明云端物联网方案,乐鑫ESP32多样化开发应用

在物联网(IoT)的浪潮中&#xff0c;无线Wi-Fi模块作为连接传统硬件与现代智能网络的桥梁&#xff0c;正逐渐成为智能家居和设备通信不可或缺的一部分。Wi-Fi模块也被称为串口Wi-Fi模块&#xff0c;是一种嵌入式模块&#xff0c;它能够将串口或TTL电平信号转换为符合Wi-Fi无线网…

关于AR在医疗领域创新应用

AR技术在医疗领域创新应用&#xff0c;旨在展示AR技术如何为医疗行业带来革命性的变化&#xff0c;我们可以从以下几个方面入手&#xff1a; 一、引言 随着科技的飞速发展&#xff0c;增强现实&#xff08;AR&#xff09;技术正逐步渗透到医疗领域的各个环节&#xff0c;为患…