SwiGLU激活函数

SwiGLU激活函数

article2024/12/26 8:40:24/文章来源:https://blog.csdn.net/transformer_WSZ/article/details/138592215

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体，公式如下：
$\operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c)$

Swish

$\operatorname{Swish_\beta}(x)=x \otimes \sigma(\beta x)$
在nlp和cv任务上，Swish性能都和GELU接近，稍微略高点。但Swish公式更简洁优雅。

GELU早期被BERT、RoBERTa、ALBERT采用。

GLU

$\operatorname{GLU}(x, W, V, b, c)=\sigma(x W+b) \otimes(x V+c)$
单纯从公式看，GLU是一个神经网络层。左右两个线性变换层，左边再接一个门控机制来控制信息流通多少。

SwiGLU

将Swish作为左侧激活函数就得到了SwiGLU。代码如下：

F.silu(self.w1(x)) * self.w2(x)

在 GLU Variants Improve Transformer 论文中，作者比较了各种GLU变体的激活函数，SwiGLU在各项任务上表现出众。但作者并未给出解释原因，只能说后验是这样，那就选它呗，所以成了LLM的标配。

各激活函数示意图

act

参考

GLU Variants Improve Transformer
SWISH: A SELF-GATED ACTIVATION FUNCTION
超越ReLU却鲜为人知，3年后被挖掘：BERT、GPT-2等都在用的激活函数
大模型基础｜激活函数｜从ReLU 到SwiGLU

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/605192.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

CSS---复合选择器和元素显示模式（三）

CSS---复合选择器和元素显示模式（三）

一、CSS的复合选择器 1.1 什么是复合选择器在CSS中，可以根据选择器的类型把选择器分为基础选择器和复合选择器，复合选择器是建立在基础选择器之上，对基本选择器进行组合形成的。复合选择器是由两个或多个基础选择器连写组成，它…

阅读更多...

从Python整数变量内存大小占用28字节谈起

从Python整数变量内存大小占用28字节谈起

实验结果本机环境64位Python 3.12 内存布局图 0 4 8 12 16 20 24 28 |----------|----------|----------|----------|----------|----------|----------| | ob_refcnt | ob_type | ob_digit | …

阅读更多...

【大数据】分布式数据库HBase下载安装教程

【大数据】分布式数据库HBase下载安装教程

目录 1.下载安装 2.配置 2.1.启动hadoop 2.2.单机模式 2.3.伪分布式集群 1.下载安装 HBase和Hadoop之间有版本对应关系，之前用的hadoop是3.1.3，选择的HBase的版本是2.2.X。下载地址： Index of /dist/hbase 配置环境变量&#xff1a…

阅读更多...

红米1s 刷入魔趣（Mokee）ROM（Android 7.1）

红米1s 刷入魔趣（Mokee）ROM（Android 7.1）

目录背景准备工具硬件（自己准备）软件（我会在文末提供链接） 刷机步骤1. 重启电脑2. 安装驱动3. 刷入TWRP4. 清空数据5. 刷入魔趣6. 开机结尾下载链接本文由Jzwalliser原创，发布在CSDN平台上，遵循CC 4.0 B…

阅读更多...

LeetCode 138. 随机链表的复制

LeetCode 138. 随机链表的复制

目录 1.原题链接： 2.结点拆分： 代码实现： 3.提交结果： 4.读书分享： 1.原题链接： 138. 随机链表的复制 2.结点拆分： ①.拷贝各个结点，连接在原结点后面； ②.处…

阅读更多...

Lora基础炼丹学习笔记

Lora基础炼丹学习笔记

1、收集数据集 20-30张人物各个角度、各个姿势的图片 2、图片预处理裁剪打标签裁剪必须也要512 * 512 ，因为sd1.5就是用这个尺寸训练的，可以使用后期处理打标可以勾选这个，Deepbooru对二次元画风更友好打标也可以使用wb14-tagger的…

阅读更多...

Centos7 安装 MySQL5.7 使用 RPM 方式

Centos7 安装 MySQL5.7 使用 RPM 方式

1 访问网站 https://downloads.mysql.com/archives/community/ 选择合适的版本，点击 Download。 2 上传下载好的 mysql-5.7.44-1.el7.x86_64.rpm-bundle.tar 文件到 Centos7 机器，这里放到了下载目录。 3 解压 mysql-5.7.44-1.el7.x86_64.rpm-bundle.…

阅读更多...

力扣每日一题119：杨辉三角||

力扣每日一题119：杨辉三角||

题目简单给定一个非负索引 rowIndex，返回「杨辉三角」的第 rowIndex 行。在「杨辉三角」中，每个数是它左上方和右上方的数的和。示例 1: 输入: rowIndex 3 输出: [1,3,3,1]示例 2: 输入: rowIndex 0 输出: [1]示例 3: 输入: rowIndex 1 输出…

阅读更多...

如何用多个高斯泼溅合成新的场景【3DGS】

如何用多个高斯泼溅合成新的场景【3DGS】

3D高斯泼溅（3D Gaussian Splatting）作为一种突破性摄影测量和可视化技术作为 SIGGRAPH 2023 上发表的研究论文的一部分发布。我相信3DGS是允许像你我这样的日常用户扫描 3D 的最佳现代方法并保留有机材料的精细细节，尤其是植物、树木、花卉和…

阅读更多...

【青龙面板教程】保姆级拉库 Faker库以及依赖安装教程

【青龙面板教程】保姆级拉库 Faker库以及依赖安装教程

青龙面板最新版拉库教程新版青龙（订阅）拉库教程拉库前请打开青龙面板-配置文件第18行 GithubProxyUrl"" 双引号中的内容清空复制以下拉库命令即可。Faker2 助力池版【安全本地sign防CK泄漏】使用助力池请在群里发"助力池" 机器…

阅读更多...

初阶数据结构之单链表详解

初阶数据结构之单链表详解

目录一：单链表概念二：单链表的基本操作 1.定义结点 2.创建链表（初始化链表） 3:新增结点 4.单链表尾插 5.单链表头插 6.单链表尾删 7：单链表头删 8.打印单链表 9.查找单链表结点 10.单链表删除指定结点 1…

阅读更多...

【C语言】static关键字用法

【C语言】static关键字用法

目录一、static修饰局部变量二、static修饰全局变量三、static修饰函数一、static修饰局部变量首先我们来看两段代码: 代码1（不加static） #include <stdio.h> void test() {int i 0;i;printf("%d ", i); } int main() {int i…

阅读更多...

UE5材质基础（2）——数学节点篇

UE5材质基础（2）——数学节点篇

UE5材质基础（2）——数学节点篇1 目录 UE5材质基础（2）——数学节点篇1 Add节点 Append节点 Abs节点 Subtract节点 Multiply节点 Divide节点 Clamp节点 Time节点 Lerp节点 Add节点快捷键：A鼠标左键值相加…

阅读更多...

C++学习第十二天（继承）

C++学习第十二天（继承）

1、继承的概念以及定义继承的概念继承机制是面向对象程序设计使代码可以复用的最重要的手段，它允许程序员在保持原有类特性的基础上进行拓展，增加功能，这样产生新的类，称派生类。继承呈现了面向对象程序设计的层次结构&#x…

阅读更多...

EditReady for Mac激活版：专业视频转码工具

EditReady for Mac激活版：专业视频转码工具

对于视频专业人员来说，一款高效的视频转码工具是不可或缺的。EditReady for Mac正是这样一款强大的工具，它拥有简洁直观的操作界面和强大的功能，让您的视频处理工作事半功倍。 EditReady for Mac支持多种视频格式的转码，并且支持常…

阅读更多...

多线程学习Day09

多线程学习Day09

10.Tomcat线程池 LimitLatch 用来限流，可以控制最大连接个数，类似 J.U.C 中的 Semaphore 后面再讲 Acceptor 只负责【接收新的 socket 连接】 Poller 只负责监听 socket channel 是否有【可读的 I/O 事件】一旦可读，封装一个任务对象&#x…

阅读更多...

阿里云VOD视频点播流程（2）

阿里云VOD视频点播流程（2）

二、视频点播 1、入门代码基于OSS原生SDK上传 ，参考文档：https://help.aliyun.com/zh/vod/user-guide/upload-media-files-by-using-oss-sdks?spma2c4g.11186623.0.0.1f02273fj4lxNJ 视频点播面向开发者提供了丰富的上传方式，其中上传SDK&…

阅读更多...

软件测试实战项目(含电商、银行、APP等)

软件测试实战项目(含电商、银行、APP等)

🍅 视频学习：文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】，回复 1 ，免费获取软件测试全套资料，资料在手，涨薪更快今天给大家带来几个软件测试项目的实战总结及经验，适…

阅读更多...

ps5电玩计时收费系统软件教程，电玩店适合的计时器，电脑定时语音提醒

ps5电玩计时收费系统软件教程，电玩店适合的计时器，电脑定时语音提醒

ps5电玩计时收费系统软件教程，电玩店适合的计时器，电脑定时语音提醒一、前言以下软件操作教程以，佳易王电玩计时计费管理软件为例说明软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 1、计时计费功能：只…

阅读更多...

PHPStudy 访问网页 403 Forbidden禁止访问

PHPStudy 访问网页 403 Forbidden禁止访问

涉及靶场 upload-labd sqli-labs pikachu dvwa 以及所有部署在phpstudy中的靶场注意：一定要安装解压软件很多同学解压靶场代码以后访问报错的原因是：电脑上没有解压软件。这个时候压缩包看起来就是黄色公文包的样子，右键只有“全部提取…

阅读更多...

最新文章