LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

文章目录

    • model arch
    • AudioTokenizer
    • model init

model arch

在这里插入图片描述

  • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 输入(连续特征):【input embedding, taskID】
  • 输出(离散特征):【output tokens】,task token在输入和输出矩阵中都有;(N + M + L) × D的结果,N-text_token;M:audio_token;L:task_token
  • 计算loss的时候,mask output token中的input token & task token;

AudioTokenizer

  • 16khz的音频通过卷积压缩为25hz(40ms);conv:[8, 5, 4, 2, 2],
  • 更多的RVQ改善语音质量,并且shallow quantizers中有更多的信息;
  • AudioTokenizer = encoder+1st quantizer,1st quantizer的输出是audio token,audio token只作为GPT的输出使用,输入是连续的embedding;剩余的量化器&decoder只在训练阶段使用;

model init

    • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 初始化是否真的有用处?
    • 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果,发现ASR/S2TT初始化有明显提升,SE任务初始化效果区别不大;
    • 使用的是NLP-LLM初始化,更多有助于文本生成任务;对于音频生成任务,可能用audio token训练过的会更有效;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/294105.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【动态规划】C++算法:115.不同的子序列

作者推荐 【动态规划】【字符串】扰乱字符串 本文涉及的基础知识点 动态规划 LeetCode115 不同的子序列 给你两个字符串 s 和 t ,统计并返回在 s 的 子序列 中 t 出现的个数,结果需要对 109 7 取模。 示例 1: 输入:s “rab…

如何让CHAT使用python绘制概率密度图像?

问CHAT:用python绘制概率密度图像 CHAT回复:你可以使用Python的matplotlib库和numpy库进行概率密度的绘制。 以下是一个简单的例子: python import numpy as np import matplotlib.pyplot as plt #随机生成1000个正态分布的数 data np.rand…

无法开机报 不可恢复的错误:securityagent无法创建所要求的机制Teamviewerauthplugin:start

无法开机报 不可恢复的错误:securityagent无法创建所要求的机制Teamviewerauthplugin:start 初步判断很有可能是TeamViewer的某个启动项或者签名书没有, 导致在预加载的时候无法加载TeamViewer。 然后出现这个情况有一个前提,那就是你用了第三…

Linux_CentOS_7.9配置时区及NTPdate同步之简易记录

前言:ntpdate命令来自英文词组”NTPdate“的拼写,其功能是用于设置日期和时间。ntpdate命令能够基于NTP协议设置Linux系统的本地日期和时间,利用NTP服务的时钟过滤器来选择最优方案,大大提高了可靠性和精度,让系统时间…

【RabbitMQ】1 消息中间件MQ概述

目录 什么是消息中间件为什么使用消息中间件流量削峰应用解耦异步处理 主流消息中间件及选型选取原则RabbitMQRocketMQKafka如何选择 消息中间件应用场景电商秒杀案例拉勾B端C端数据同步案例支付宝购买电影票 什么是消息中间件 维基百科对消息中间件的解释:面向消息…

宽压输入1.5KV隔离直流高压输出电源模块

GRC系列低成本小体积宽电压输入隔离高压模块电源,是一款业界的隔离稳压型DC-DC高电压转换器,可在宽范围波动的不稳定电压输入环境中运行,通过模块的内部调整电路可以生成隔离稳压的直流高电压输出。产品外壳采用铝壳喷塑防腐设计,…

栈的数据结构实验报告

一、实验目的: 1、理解栈的定义; 2、利用栈处理实际问题。 二、实验内容(实验题目与说明) 利用栈实现数据的分类,将输入的整数以奇偶为标准分别存放到两个栈中,并最终从栈1和栈2输出偶数和奇数序列。 …

如何培养学生的创造性思维

在当下这个时代,创造力的重要性不言而喻。如何在日常教育中潜移默化地培养孩子的创造性思维呢? 一、激发好奇心,让思维自由飞翔 孩子天生就有一颗好奇的心,作为老师,要鼓励他们提问,鼓励他们去探索。好奇…

风车模型与代码

这个模型使用NetLogo乌龟来重复绘制圆圈,定期转动,以便显示出类似万花筒或风车的效果。这是一个演示,展示了一组简单的代理规则如何产生复杂而美丽的图案。 内部工作原理非常简单。创建了许多乌龟,它们的笔都是放下的&#xff08…

电子化学品,预计2025年会增长到4302亿美元

电子化学品市场是一个庞大的细分市场,它包括了广泛的化学品种类,如涂料、塑料、精细化学品、农药和医药等。这个市场的发展相当迅速,下面我们将从全球市场和中国市场两个方面对其发展趋势进行分析。全球市场分析: 从全球市场的角度…

【HBase】——优化

1 RowKey设计 重要:一条数据的唯一标识就是 rowkey,那么这条数据存储于哪个分区,取决于 rowkey 处于 哪个一个预分区的区间内,设计 rowkey的主要目的 ,就是让数据均匀的分布于所有的 region 中,在一定程度…

Java重修第二天—学习”方法“

通过学习本篇文章可以掌握如下知识 1、方法的定义 2、方法在计算机中的执行流程。 3、方法使用时常见问题 4、Java中方法的参数传递机制 5、方法重载 1 方法是什么 方法是一种语法结构,它可以把一段代码实现的某种功能封装起来,以便重复利用。 方…

杰发科技AC7801——IO模拟IIC注意事项

7801的参考手册没有说清楚 7840说明了用开漏 使用办法

Java 支持表情包存储 Incorrect string value: ‘\\xF0\\x9F\\x98\\x8A\\xF0\\x9F...‘

一,前言 最近测试提出了一个比较刁钻的bug 在提交表单数据的时候,支持表情输入,如下 看了一下前端参数,也是正常传递 但是调用接口的时候,后端却报错 Cause: java.sql.SQLException: Incorrect string value: \\xF0…

梯度、散度、旋度

目录 梯度Gradient —— Scalar -> Vector 散度Divergence —— Vector -> Scalar 旋度Curl —— Vector -> Vector 梯度Gradient —— Scalar -> Vector 即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大&#x…

绿色物流:跨境电商的可持续发展之路

随着跨境电商的迅猛发展,物流体系的可持续性问题引起了广泛关注。绿色物流作为一种可持续发展的解决方案,在实现商品流通的同时,致力于减少环境影响。本文将深入探讨跨境电商在绿色物流方面的挑战和可行性,探寻可持续发展的路径。…

爬虫网易易盾滑块案例:某乎

声明: 该文章为学习使用,严禁用于商业用途和非法用途,违者后果自负,由此产生的一切后果均与作者无关 一、滑块初步分析 js运行 atob(‘aHR0cHM6Ly93d3cuemhpaHUuY29tL3NpZ25pbg’) 拿到网址,浏览器打开网站&#xff0…

Go使用vscode开发,必备的插件及最常用快捷键和代码自动补全

一、vscode必备插件 1.Go、Code Runner 2.Markdown All in One、Markdown Preview Enhanced、Paste Image 为进行Markdown文档编写提供很多快捷键和自动补全功能,使vscode可以完全代替Typora。 边写边看到Markdown渲染之后的样子,在 Preview 界面按住鼠…

添加一个编辑的小功能(PHP的Laravel)

一个编辑的按钮可以弹出会话框修改断更天数 前台 加一个编辑按钮的样式,他的名字是固定好的 之前有人封装过直接用就好,但是一定放在class里面,不要放在id里面 看见不认识的方法一定要去看里面封装的是什么 之前就是没有看,所以…

透明OLED屏,应用范围极其广泛,看看您在的行业是否存在

随着科技的飞速发展,显示技术也在不断创新。其中,透明OLED屏作为一种新型显示技术,以其独特的透明特性和优秀的画质表现,正逐渐在各个领域崭露头角。作为一名在尼伽OLED透明屏部门,专注于OLED技术研发的工程师&#xf…