阿里新发布的UniAnimate现高效人像动画生成;在ComfyUI中使用Stable 3模型;音频版的gpt2o;将 PDF 文档转换为音频播客

✨ 1: UniAnimate

阿里新发布的UniAnimate通过统一的视频扩散模型,实现高效人像动画生成,支持长视频生成

在这里插入图片描述

UniAnimate 是一种专注于一致性人像动画生成的统一视频扩散模型。该模型通过映射参考图像、姿势指导和噪声视频到一个共同特征空间,实现了高效且一致的长时视频生成。UniAnimate 的主要特点包括:

共同特征空间映射:利用统一的视频扩散模型,将参考图像、姿势指导和噪声视频映射到一个共同特征空间,减少了优化难度并确保了时间上的一致性。
统一噪声输入:支持随机噪声和基于第一帧的噪声输入,增强了长时间视频生成的能力。
高效的时间建模架构:使用基于状态空间模型的时间建模架构,替代原来计算消耗较大的时间 Transformer。

地址:https://github.com/ali-vilab/UniAnimate

✨ 2: ComfyUI Stable Diffusion 3 API

ComfyUI Stable Diffusion 3 API让你通过接口在ComfyUI中使用Stable 3模型。

在这里插入图片描述

ComfyUI Stable Diffusion 3 API 是将 Stable Diffusion 3 引入 ComfyUI 的工具。利用 API,用户可以通过 ComfyUI 访问和使用 Stable Diffusion 3 的模型生成图像。目前提供两种模型选择:SD3 和 SD3 Turbo,且不同模型在积分消耗上有所不同。该 API 提供了多种比例和模式以满足不同的生成需求。

地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-StableDiffusion3-API

✨ 3: Building GPT2o

构建生成音频的GPT2模型的方法和过程

在这里插入图片描述

从头开始构建一个能生成音频的GPT-2模型的过程。受到Andrej’s “Let’s Reproduce GPT-2” 的启发,作者希望创建一个类似于OpenAI的GPT-4o或AudioPaLM的自动回归生成音频的模型,而且最好在普通消费者硬件上训练。

音频标记化
使用SNAC(一个分层结构的音频离散标记化模型),将音频转换为离散标记。这种方法效果很好,几乎无法分辨原音频和重建音频之间的差别。作者利用SNAC模型和教程,创建了一个能将音频转换为离散标记的标记化工具,以供语言模型训练。

数据集
作者错过了LIAON的预标记化数据集,因此使用了来自Librivox的公共领域录音《福尔摩斯历险记》。这些音频总时长约12小时,相当于约150万个SNAC标记,并将其上传至Hugging Face。

训练与推理
训练代码与Andrej的原始代码几乎无异,只做了一些小的修改,如数据处理脚本、上下文长度、批次大小和词汇表大小等。尽管作者在分布式数据并行(DDP)版本中遇到问题,但在Colab上可以在一两个小时内得到一个能生成音频的模型。不过模型过拟合,大多数时间生成的音频是乱码。本文仅展示了概念验证,作者相信更多数据和计算资源能提升模型性能。

代码:https://github.com/nivibilla/build-nanogpt/tree/audio
模型:https://huggingface.co/eastwind/gpt2-audio-tiny-sherlock-5k-overfit
数据:https://huggingface.co/datasets/eastwind/tiny-sherlock-audio

地址:https://medium.com/@nivibilla/building-gpt2o-part-1-audio-65b66e193784

✨ 4: midGPT

midGPT是一个基于Jax和Equinox的可实验性LLM预训练仓库,支持大型模型跨多设备训练。

在这里插入图片描述

MidGPT 是一个用于 LLM(大型语言模型)预训练实验的简单且可扩展的代码库,基于 Jax 和 Equinox 构建。该代码库能够在 TPUs 或 GPUs 上训练具有数十亿参数的 GPT风格的解码器-仅 Transformers 模型。

MidGPT 受 NanoGPT 启发,但支持多设备和多主机的 FSDP(全栈数据并行),从而可以训练更大的模型。它还包括了一些最近的 Transformer 改进:旋转嵌入(rotary embeddings)、RMSNorm、QK-Layernorm 和独立权重衰减,能够在更大规模的训练中提高性能或稳定性。

地址:https://github.com/AllanYangZhou/midGPT

✨ 5: PDF to Podcast

PDF 转播客工具将 PDF 文档转换为音频播客,可以生成对话结构的 MP3 文件。

在这里插入图片描述

PDF to Podcast 项目是一款工具,可以将任何PDF文档转换成播客节目!通过使用OpenAI的文字转语音模型和Google Gemini,该工具处理PDF内容,生成适合音频播客的自然对话,并将其输出为MP3文件。

地址:https://github.com/knowsuchagency/pdf-to-podcast



更多AI工具,参考国内AiBard123,Github-AiBard123 公众号:每日AI新工具

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/710520.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SSM家乡旅游网-计算机毕业设计源码04802

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,SSM家乡旅游网当然也不能排除在外。SSM家乡旅游网是以实际运用为开发背景,运用软件工程开发方法&#xff0c…

Django配置连接池:使用django-db-connection-pool配置连接池

一、该三方库文档使用 github地址: https://github.com/altairbow/django-db-connection-pool/blob/1.2.5/README_CN.mdhttps://github.com/altairbow/django-db-connection-pool/blob/1.2.5/README_CN.md1、选择指定版本,查看指定版本的文档和配置&am…

Xcode无法使用设备:Failed to prepare the device for development

问题: Xcode无法使用设备开发,失败报错如下: Failed to prepare the device for development. This operation can fail if the version of the OS on the device is incompatible with the installed version of Xcode. You may also need…

容性负载箱在电子元器件制造中的应用有哪些?

容性负载箱是一种能够模拟实际负载的电子设备,主要用于测试电源、变频器、逆变器等电力电子设备的性能。在电子元器件制造中,容性负载箱的应用非常广泛,主要体现在以下几个方面: 1. 电源测试:电源是电子元器件正常工作…

【触想智能】壁挂式工业一体机在智能制造行业上的应用分析

随着智能制造的兴起,壁挂式工业一体机成为了越来越多工厂的首选设备。壁挂式工业一体机是一种高性能的计算机,内置多种工业级传感器和执行器,可以实时获取工厂生产过程中的各种数据,并与其他设备进行无缝连接。 为了大家更深入的了…

自动生成企业培训视频:创新与效率的完美结合

前言 随着人工智能技术的飞速发展,大模型技术在各个领域的应用日益广泛。在企业培训领域,大模型技术的应用为培训视频的生成带来了革命性的变革。本文将探讨如何利用大模型技术自动生成企业培训视频,以及这一技术为企业培训带来的创新和效率…

停止游戏中的循环扣血显示

停止游戏中循环扣血并显示的具体实现方式会依赖于你的代码结构和游戏的逻辑。通常情况下,你可以通过以下方式来实现停止循环扣血和显示: 1、问题背景 在使用 Python 代码为游戏开发一个生命值条时,遇到了一个问题。代码使用了循环来减少生命…

Mysql之不使用部署在k8s集群的Mysql而是选择单独部署的Mysql的原因

测试准备: 线程组:并发数100,持续时间2min 两个请求:使用k8s集群中的mysql的wordpress对应端口30011 使用单独部署的mysql的wordpress的对应端口为30022 访问同一个博客 测试结果: 汇总报告: 响应时间图&…

DevOps学习回顾01-技能发展路线-岗位能力-体系认知(射箭和拉弓的区别)

事为先,人为重–事在人为 参考来源: 极客时间专栏:DevOps实战笔记,作者:石雪峰 课程链接:https://time.geekbang.org/column/intro/235 时代的典型特征 VUCA VUCA 是指易变性(Volatility&…

深度学习 - CNN

第一部分:基础知识 1. 什么是卷积神经网络(CNN) 定义和基本概念 卷积神经网络(CNN)是一种专门用于处理具有网格结构数据(如图像)的深度学习模型。它们在图像识别和计算机视觉领域表现尤为突出…

欢乐钓鱼大师通关必备秘籍!云手机游戏辅助!

《欢乐钓鱼大师》是一款让玩家沉浸在放松钓鱼乐趣中的手机游戏。不同于传统钓鱼游戏,它融合了收集、升级和竞技等元素,让每位玩家可以根据自己的喜好和目标来发展钓鱼技艺。本攻略将为您详细介绍如何在游戏中迅速提升实力,达到通关的最高境界…

idea Alt+/ 自动补全变量名开头是大写 改 选择小写开头变量名

idea 中自动补全变量名是非常常见的操作,变量名一般都需要小写开头,但是idea中 Alt / 自动补全变量名时 补全的变量名是大写的,这就很难受了。如下图所示: AutowiredLogService LogService;Ctrl 空格 快捷键 虽然不像 Alt / 一…

基于51单片机的智能语音电子秤设计

一.硬件方案 电子秤的测量原理是被称量物体的重量使传感器弹性体发生变形,输出与重量成正比的电信号,传感器输出信号经放大器放大后,输入转换器进行转换,转换成的频率信号直接送入微处理器中,其数字量由微机进行处理&…

PMS助力制造企业高效运营︱PMO大会

全国PMO专业人士年度盛会 北京易贝恩项目管理科技有限公司副总经理朱洪泽女士受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“PMS助力制造企业高效运营”。大会将于6月29-30日在北京举办,敬请关注! 议题简要: …

【Better Lighting V2】Blender商城10周年免费送插件灯光预设和图案轮库场景打光和模拟光透过图案水滴波纹效果

Blender商城10周年免费送插件:https://blendermarket.com/birthday Better Lighting V2 灯光预设和图案轮库 模拟各种环境下光线透过物体效果 各种预设快速调整 非常简单和快速打光调色 更多详细介绍:https://blendermarket.com/products/bette…

基于python_CNN的人体姿态行为识别-含数据集+pyqt界面

代码下载地址: https://download.csdn.net/download/qq_34904125/89383060 本代码是基于python pytorch环境安装的。 下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。 或可直接参考下面博文…

【数据结构与算法】哈夫曼树与哈夫曼编码

文章目录 哈夫曼树(最优二叉树)定义举个🌰(WPL的计算) 哈夫曼树的构造(最优二叉树的构造)举个🌰 哈夫曼树的性质 哈夫曼编码定义构造 哈夫曼树(最优二叉树) …

SD3开源:AI绘画的新纪元,出图效果巨好,不容错过!(附教程)

大家好,我是画画的小强。 这两天,Stability AI 将史上最牛的AI绘画模型SD3开源了,真是有格局! 虽说只是中杯的20亿参数版本,但我已经很满足了,再高的版本,我这普通的16G 4070Ti Super 显卡也跑…

【Java】类与类的关系及其总结

类和类的关系 代码 总结: 【1】面向对象的思维:找参与者,找女孩类,找男孩类 【2】体会了什么叫方法的性擦,什么叫方法的实参: 具体传入的内容 实参: 【3】类和类可以产生关系: …

IIC通信总线

文章目录 1. IIC总线协议1. IIC简介2. IIC时序1. 数据有效性2. 起始信号和终止信号3. 数据格式4. 应答和非应答信号5. 时钟同步6. 写数据和读数据 2. AT24C023. AT24C02读写时序4. AT24C02配置步骤5. 代码部分1. IIC基本信号2. AT24C02驱动代码3. 实验结果分析 1. IIC总线协议 …