将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

本文首发于公众号:机器感知

将Llama2上下文长度扩展100倍;效率更高的SeTformer;LLM准确度基本不变加速1.56×;FreeTalker

Latte: Latent Diffusion Transformer for Video Generation

图片

本文使用Latent Diffusion Transformer(Latte)做视频,首先从输入视频中提取时空tokens,然后采用一系列Transformer块来建模潜在空间中的视频分布。为了建模从视频中提取的大量tokens,作者从输入视频的空间和时间的角度引入了四种高效变体。实验结果表明,Latte在四个标准视频生成数据集(FaceForensics、SkyTimelapse、UCF101和Taichi-HD)上实现了SOTA性能。此外,作者还将Latte扩展到文本到视频生成(T2V)任务,且Latte取得了与最近的T2V模型相当的结果。

Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

图片

本文提出了一种名为Activation Beacon的模块,可以用于扩展大语言模型(LLM)处理长上下文的能力。该模块通过压缩LLM的原始激活来感知更长的上下文,与此同时保持LLM在处理短上下文时的原始能力。此外,该模块使用短滑动窗口处理长上下文,提高了在训练和推理时的内存和时间效率。该模块通过自回归任务进行训练,仅需10K步和少量GPU时间即可完成训练。实验结果表明,Activation Beacon可以将Llama-2-7B的上下文长度扩展100倍(从4K扩展到400K),同时在长上下文生成和理解任务上取得了很好的结果。

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

图片

本文提出了一种名为FreeTalker的框架,用于生成自发(如伴随言语的手势)和非自发(如演讲者在讲台上的移动)的演讲者动作。该框架利用了来自不同动作数据集的异构数据,训练了一个基于扩散模型的演讲者动作生成器,该模型使用统一的表示形式来驱动言语手势和文本动作。在推理过程中,使用CFG来控制clips的风格。此外,为了创建clips之间的平滑过渡,作者使用了DoubleTake方法,该方法利用生成先验并确保无缝的运动混合。实验结果表明,该方法能够生成自然且可控的演讲者动作。

SeTformer is What You Need for Vision and Language

图片

本文提出了一种名为SeTformer的新型Transformer,该模型通过将点积自注意力(DPSA)完全替换为自我最优传输(SeT)来提高性能和计算效率。SeT基于两个重要的softmax属性,并通过引入核代价函数来实现这些属性。在小型和基础模型上,SeTformer在ImageNet-1K上实现了84.7%和86.2%的top-1准确率。在目标检测中,SeTformer-base比FocalNet高出2.2 mAP,参数和FLOPs分别减少了38%和29%;在语义分割中,基础模型比NAT高出3.5 mIoU,参数减少了33%;SeTformer还在GLUE语言建模任务中取得了最佳结果;这说明SeTformer适用于视觉和语言任务中。

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

图片

Transformer-based大语言模型(LLMs)在多个领域产生了重大影响,但计算和内存开销过大。常用的压缩技术缓解了LLM计算/内存开销与硬件限制的差距,但现有的GPU和transformer加速器无法高效处理压缩的LLM,因为存在计算效率低、内存带宽未充分利用和编译开销大等问题。本文提出了FlightLLM,通过在FPGA上实现完整的映射流实现LLM的高效推理。在FlightLLM中,作者利用FPGA特有的资源(如DSP48和异构内存层次结构)来解决LLM的计算和内存开销问题。还提出了一种可配置的稀疏DSP链,以高计算效率支持不同的稀疏模式。其次,还提出了一种always-on-chip的解码方案,以支持混合精度并提高内存带宽。

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference

图片

预训练语言模型(LLM)性能强大,但参数众多,难以在单GPU等硬件上部署。为降低模型大小和推理延迟,常采用模型压缩技术,但会影响模型准确性和效率。作者发现前馈网络(FFN)只有少数神经元对输入有大的输出范数(heavy hitters),据此,将FFN分为两部分,并为heavy hitters部分分配更多资源,从而平衡优化效率和准确性。此方法可使模型大小减少43.1%,加速1.25∼1.56×,同时几乎不降低准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/305414.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

让开发改bug全靠催?分享6个实用技巧

测试小伙伴们,你们有遇到下图的情况吗? ​ 这张图其实还算“温柔”的,其实有些情况下,某些测试人员或者开发人员脾气大的可能撕逼或者快干架。所以如何和开发有效沟通,并高效劝说开发改掉bug是一门学问,以…

阿里云服务器e实例和云服务器u1实例有什么区别?

阿里云服务器u1和e实例有什么区别?ECS通用算力型u1实例是企业级独享型云服务器,ECS经济型e实例是共享型云服务器,所以相比较e实例,云服务器u1性能更好一些。e实例为共享型云服务器,共享型实例采用非绑定CPU调度模式&am…

【C++入门到精通】异常 | 异常的使用 | 自定义异常体系 [ C++入门 ]

阅读导航 引言一、C异常的概念二、异常的使用1. 异常的抛出和捕获(1)throw(2)try-catch(3)catch(. . .)(4)异常的抛出和匹配原则(5)在函数调用链中异常栈展开…

Java项目:112SSM在线电影订票系统

博主主页:Java旅途 简介:分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 在线电影订票系统基于SpringSpringMVCMybatis开发,系统分为前台和后台,前台主要用来用户浏览电影信息,订票&#xff0c…

C/C++学习笔记 vcpkg使用备忘及简要说明

一、简述 vcpkg 是一个免费的 C/C 包管理器,用于获取和管理库。从 1500 多个开源库中进行选择,一步下载并构建,或者添加您自己的私有库以简化构建过程。由 Microsoft C 团队和开源贡献者维护。 官方教程 vcpkg 文档 | Microsoft Learnvcpkg …

day-04 字符串中的额外字符

思路 动态规划,每个字符要么额外要么不是额外 解题方法 int[] dp new int[n1]; dp[i] 表示从字符串开头到字符串索引i位置的最少额外字符数 dp[i 1] Math.min(dp[i 1], dp[j]) dp[j]表示假设s第i个字符不是额外的,可能等于dp[i 1],也可…

GPS 模拟器

GPS 工具包:https://www.ni.com/es/support/downloads/software-products/download.gnss-test-toolkit.html#333303 GPS-SDR-SIM:https://github.com/osqzss/gps-sdr-sim GPS LabVIEW :http://mikioblog.dolphinsystem.jp/2017/08/gps-sdr-si…

Presto大数据学习网站:让你轻松驾驭大数据处理!

介绍:Presto是一个由Facebook开源的分布式SQL查询执行引擎,它被设计用于处理各种规模的数据并进行快速分析查询。这个引擎具有优秀的兼容性,可以支持众多的数据源,包括但不限于HDFS、关系型数据库管理系统(RDBMS&#…

JVM的FastThrow优化机制

前言: 前一阵子,在公司排查线上问题发现:出问题的方法报空指针异常,但是没有异常堆栈信息和Message。我一开始以为是代码中做了处理,但是经过翻阅代码发现不是。最后一番查找资料,这种现象是JVM的一种优化机…

C# 日期转换“陷阱”

在 C# 中,日期转换可能会遇到一些陷阱。以下是一些常见的陷阱和如何避免它们: 时区问题 日期和时间通常与时区相关,但在转换时可能会忽略或混淆时区信息。确保在转换日期时始终考虑到时区,并使用正确的时区进行转换。 DateTime…

npm、pnpm和yarn 的区别

包管理工具是JavaScript开发中不可或缺的一部分,它们可以帮助我们方便地安装、更新、删除和管理项目所依赖的各种库和模块。 目前,最流行的包管理工具有npm、yarn和pnpm,它们各有各的特点和优劣势。 本文将试着对这三个工具进行全面的对比。…

Python-PyQt5树莓派上位机

Python-PyQt5树莓派上位机 一个使用PythonQT设计的树莓派的上位机,功能大概如下 1.笔记本电脑与树莓派的通讯是否成功显示(给个信号显示判断是否通讯成功); 2.阈值的设置显示; 3.图像成像的显示; 4.是否发生…

9.建造者模式

文章目录 一、介绍二、代码三、实际使用总结 一、介绍 建造者模式旨在将一个复杂对象的构建过程和其表示分离,以便同样的构建过程可以创建不同的表示。这种模式适用于构建对象的算法(构建过程)应该独立于对象的组成部分以及它们的装配方式的…

学习笔记——C++二维数组

二维数组定义的四种方式: 1,数据类型 数组名[ 行数 ][ 列数 ]; 2,数据类型 数组名[ 行数 ][ 列数 ]{{数据1,数据2},{数据3,数据4}}; 3,数据类型 数组名[ 行数…

【计算机网络】TCP原理 | 可靠性机制分析(二)

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【网络编程】【Java系列】 本专栏旨在分享学习网络编程、计算机网络的一点学习心得,欢迎大家在评论区交流讨论💌 T…

如何做好档案统一管理?

档案统一管理是指将一个组织或机构的所有档案资料进行集中管理和整理的一种管理方式。档案统一管理的目标是确保档案的完整性、准确性和可访问性,提高档案的利用价值和管理效率。 要做好档案统一管理,需要以下几个步骤: 1. 确定档案的分类与命…

【S32K 进阶之旅】 NXP S32K3 以太网 RMII 接口调试(2)

前言 前文介绍了 NXP S32K3 以太网 RMII 接口调试的开发环境搭建,下面开始详解软件调试步骤。没看过第一节的小伙伴请移步《【S32K 进阶之旅】 NXP S32K3 以太网 RMII 接口调试(1)》,话不多说我们直接进入正题。 lwip Stack 介绍 …

debug OpenBLAS library 和 应用示例

1. 构建openblas lib git clone gitgithub.com:OpenMathLib/OpenBLAS.git cd OpenBLAS/ 如果要安装在自定义文件夹中,可以修改 PREFIX 的定义: 将 PREFIX /opt/OpenBLAS 修改成 PREFIX ../local/ 然后构建: make -j make install 如果要…

09.面向对象进阶

面向对象进阶 在前面的章节我们已经了解了面向对象的入门知识,知道了如何定义类,如何创建对象以及如何给对象发消息。为了能够更好的使用面向对象编程思想进行程序开发,我们还需要对Python中的面向对象编程进行更为深入的了解。 property装…

OpenAI ChatGPT-4开发笔记2024-03:Chat之Tool和Tool_Call(含前function call)

Updates on Function Calling were a major highlight at OpenAI DevDay. In another world,原来的function call都不再正常工作了,必须全部重写。 function和function call全部由tool和tool_choice取代。2023年11月之前关于function call的代码都准备翘翘。 干嘛…