Datawhale论文
来源:WhalePaper,负责人:芙蕖
WhalePaper简介
由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐(Res)等相关方向的论文解读和分享,后续将融入更多的方向。
开源地址:https://datawhalechina.github.io/whale-paper
本期活动
嘉宾简介
钟怡然为上海人工智能实验室青年科学家,新架构探索组PI,负责新一代非Transformer架构的高效大语言模型架构研发和视听语言多模态融合。在此之前,其在上海商汤智能科技有限公司担任高级经理职位,负责大语言模型、多轮对话以及多模态融合相关研究。其博士毕业于澳洲国立大学,师从李宏东教授和Richard Hartley院士。在国际顶级会议和权威期刊发表40余篇论文,包括TPAMI、IJCV、IEEE TIP、CVPR、NeurIPS、ECCV、ICCV、ICLR、EMNLP等,并拥有多项美国专利。成果获得了国际学术界与工业界的广泛关注,引用2200余次。获得了2023 ICCVW最佳论文奖、2014 ICIP的最佳学生论文奖。
分享详情
论文题目:
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models
联合分享:OpenNLPLab
论文简介:
近年来,线性注意力作为传统 softmax 注意力的一种高效替代方案,引起了人们的广泛关注。线性注意力能够以线性的计算复杂度处理标记,理论上可以处理长度无限的序列而不损失速度,即在固定内存消耗的情况下,保持各种序列长度的恒定训练速度。然而,由于当前线性注意力算法在因果设置中的累积求和问题,无法展示其理论优势。本文介绍了 Lightning Attention-2,这是第一个实现了线性注意力理论计算优势的线性注意力实现。为了实现这一目标,我们借鉴了平铺的思想,分别处理线性注意力计算中的内部块和外部块组件。具体而言,我们利用传统的注意力计算机制处理内部块,并将线性注意力内核技巧应用于外部块。通过在前向和后向过程中采用平铺技术,充分利用了 GPU 硬件。我们将算法实现在 Triton 中,使其具备 IO 感知能力和硬件友好性。我们在不同的模型大小和序列长度上进行了各种实验。Lightning Attention-2 在输入序列长度不同的情况下保持了一致的训练和推理速度,并且显著快于其他注意力机制。
论文地址:https://arxiv.org/abs/2401.04658
分享时间:2024年4月17日(周三)19点
本场分享会在视频号、b站同步直播
进群参与
群满在公众号后台回复“paper”
一起“点赞”三连↓