激活函数30年回顾总结，全paper第一份详尽研究来了！

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

新年好，离退休又近了一年

假期躺平未更新，但该保存的素材及热点还是拿小本本记了下来，如这篇今年2月14号arXiv上发表的长达100+页神经网络中激活函数大总结文章就进了我的收藏夹

在这里插入图片描述

https://arxiv.org/abs/2402.09092

这篇文章做了什么工作？直接看摘要

事实证明，神经网络是解决生活中许多领域复杂问题的高效工具。最近，随着深度学习的出现，神经网络的重要性和实用性得到了进一步加强。神经网络成功的重要条件之一是选择合适的激活函数，将非线性引入模型。过去的文献中曾提出过多种类型的激活函数，但目前还没有一个包含这些函数详尽概述的综合资料。根据我们的经验，缺乏这种概述会导致冗余和无意中重新发现已有的激活函数。为了填补这个空白，我们对 400 个激活函数进行了广泛的调查，规模是以往的数倍。主要目标是对以前发表的激活函数进行最全面的概述和系统化并提供原始链接，其次是更新对这一系列函数的理解

首先该工作回顾了近30年研究文章，总结了400+激活函数，前无古人，有名称、公式及参考文献，完全可以当激活函数表进行查询。无论出于什么目的，可能一部分同学搜索过“激活函数有哪些”，得到的是几年前以Sigmoid和ReLU为首的老文章

在这里插入图片描述

其次，摘要中说的“unintentional rediscovery of already existing activation functions”其实表述的很有意思，我们可能“自创了”一些激活函数并在自己的模型上得到不错收益，并将其写为了创新点。那么这篇文章可以给个参考，告诉大家这个函数已经在某个工作中做过了

在我个人看来，如果能进一步说明什么场合使用该函数，或者说这个激活函数为何这样定义，解决了什么问题、有何优缺点那就更舒服了（工作量激增）

其次，对于一些影响力大或者常用的激活函数，可以绘制成图表的形式，图是最直观说明问题的方式，比如GELU、Mish、Swish、SELU本质都只是对ReLU进行平滑，都在试图优化gradient flow及计算时间

在这里插入图片描述