【AIGC半月报】AIGC大模型启元:2024.10(下)

【AIGC半月报】AIGC大模型启元:2024.10(下)

    • (1) Janus(两面神)(DeepSeek 1.3B多模态大模型)
    • (2) Stable Diffusion 3.5(StabilityAI文生图大模型)
    • (3) Mochi 1(Genmo视频生成大模型)

(1) Janus(两面神)(DeepSeek 1.3B多模态大模型)

2024.10.21 DeepSeek开源了一个仅1.3B大小的多模态大模型:Janus(两面神),统一了多模态理解和生成。通过将视觉编码解耦成独立的pathway,同时仅使用一个统一的transformer架构进行处理。Janus在多模态理解和生成基准测试中超越了以往的统一模型,作为一个多模态“小”模型具有显著的优势。
  Janus 是一个统一的多模态理解和生成的大型语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建,该模型训练时使用了大约5000亿个文本token的语料库。在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持384 x 384像素的图像输入。在图像生成方面,Janus 使用了LlamaGen的tokenizer,并且具有16倍的下采样率。
在这里插入图片描述

推荐文章: 仅1.3B!Janus 统一多模态理解和生成
开源地址:
Paper: https://arxiv.org/abs/2410.13848
Github: https://github.com/deepseek-ai/Janus
Model: https://huggingface.co/deepseek-ai/Janus-1.3B

(2) Stable Diffusion 3.5(StabilityAI文生图大模型)

2024.10.22 StabilityAI最新发布了Stable Diffusion 3.5,这次公开发布包括多个模型,包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium将于10月29日发布。这些模型因其大小而具有高度的可定制性,可以在消费级硬件上运行,并且根据宽容的Stable AI社区许可证,可以免费用于商业和非商业用途。目前已经可以Hugging Face下载模型,同时推理代码也已经开源
  Stable Diffusion 3.5是Stable Diffusion 3的升级版,主要有三个版本:

  • Stable Diffusion 3.5 Large:8B参数大小,具有卓越的出图质量和提示词遵循能力,是Stable Diffusion家族中最强大的模型。这个模型非常适合专业使用案例,尤其是在1百万像素分辨率下。
  • Stable Diffusion 3.5 Large Turbo:作为Stable Diffusion 3.5 Large的蒸馏版本,它在仅4步内就能生成高质量图像,并且具有出色的提示词遵循能力,使其比Stable Diffusion 3.5 Large快得多。
  • Stable Diffusion 3.5 Medium(将于10月29日发布):2.5B参数大小,通过改进的MMDiT-X架构和训练方法,旨在在消费级硬件上“即开即用”,在质量和定制便捷性之间取得平衡。它能够生成分辨率在0.25到2百万像素之间的图像。

推荐文章: Flux危,SD 3.5王者归来!个人可以免费商用!
开源地址:
Hugging Face:https://huggingface.co/stabilityai
GitHub:https://github.com/Stability-AI/sd3.5

(3) Mochi 1(Genmo视频生成大模型)

2024.10.23 新的视频生成模型Mochi 1发布并开源,Mochi 1在动作质量上展现了显著的改进,同时也具有极强的提示词遵循能力,而且从评测上超过可灵和Gen-3。在Apache 2.0许可证下,目前放出的Mochi 1的预览版可以免费用于个人和商业用途。
  Mochi 1的背后是创业公司Genmo,其团队成员包括DDPM、DreamFusion和Emu Video等项目的核心技术成员。而且Genmo已经完成了由NEA领投的2840万美元A轮融资。
  动作质量和提示词遵循能力是视频生成模型两个最关键的能力。Mochi 1作为一个开源模型,它与领先的封闭商业模型相比也具有非常强的竞争力。具体来说,我们Mochi 1的预览版在以下方面表现出色:

  • 提示词遵循能力:与文本提示词保持一致性,确保生成的视频准确地反映给定的指令。这使用户能够对角色、设定和动作进行详细控制。这里使用视觉语言模型作为评判,遵循OpenAI DALL-E 3的协议,通过自动化指标来评估提示词遵循。这里具体使用Gemini-1.5-Pro-002评估生成的视频。
  • 动作质量:Mochi 1以每秒30帧的流畅度生成长达5.4秒的视频,具有高时间连贯性和逼真的动作动态。Mochi模拟了流体动力学、毛发和头发模拟等物理现象,并表达出一致、流畅的人类动作,开始跨越恐怖谷。评分者被指示专注于动作而非帧级美学(标准包括动作的有趣性、物理上的合理性和流畅性)。Elo分数是按照LMSYS Chatbot Arena协议计算的。

推荐文章: 超过可灵和Gen-3,10B视频生成模型Mochi 1开源!
开源地址:
模型权重:https://huggingface.co/genmo/mochi-1-preview
在线体验:https://genmo.ai/play
代码:https://github.com/genmo/models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/898896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python文件操作(读取、写入、修改和删除)

目录 一、文件的读取 二、文件的写入 三、文件的修改 四、文件的删除 Python是一种功能强大的编程语言,文件操作是编程中常见的需求。本文将详细介绍Python中的文件操作,包括文件的读取、写入、修改和删除,帮助读者掌握Python文件操作的基…

分布式系统之异步与消息队列(MQ)(原理+代码实战一文讲清!)

异步 什么是异步 异步编程是一种编程范式,它允许程序在等待操作完成(如等待网络响应、文件读写等)时继续执行其他任务。这种编程方式对于提高程序的性能和响应性至关重要,尤其是在处理耗时操作或在资源受限的环境中。下面我将更…

山东以“八策并举”确保人民满意学前教育“普惠落地”

10月19日-22日,2024年中国学前教育研究会学术年会在山东国际会展中心召开。年会围绕“优质普惠可持续——加强学前教育高质量发展的法治保障”主题,通过5场主旨报告、28个园所观摩、10个分论坛交流研讨,为2200余名嘉宾提供智慧盛宴。成为近年…

URP学习四

一.Bilt To RTHandle feature代码: 二.DistortTunnel 只有个飞机却有很多太空场景。因为设置了其他pass来渲染背景 队列添加3个Pass: 第一个Pass把颜色图进行输出 第二个Pass:创建了个纹理 加了个扰动,把纹理进行输出 第三个pas…

Postman使用-基础篇

前言 本教程将结合业界广为推崇和使用的RestAPI设计典范Github API,详细介绍Postman接口测试工具的使用方法和实战技巧。 在开始这个教程之前,先聊一下为什么接口测试在现软件行业如此重要? 为什么我们要学习Postman? 现代软件…

电子木鱼小游戏小程序源码系统 带完整的安装代码包以及搭建部署教程

系统概述 在快节奏的生活中,人们越来越注重内心的平静与放松。电子木鱼小游戏小程序正是基于这一需求而诞生的,它将传统的木鱼文化与现代科技相结合,为用户提供了一个简单、方便、有趣的冥想与放松工具。通过敲击屏幕上的虚拟木鱼&#xff0…

Windows 下 golang 多版本管理

三年前的旧文,最新要切版本,翻了出来,现在依然有用,分享出来~ 当前 golang 的各个版本还有些不兼容的问题,最近遇到 go-micro 框架只能运行在 go1.13~1.14 的版本情况,而我本地 windows 环境安装的 Golang …

C++ [项目] 愤怒的小鸟

现在才发现C游戏的支持率这么高,那就发几篇吧 零、前情提要 此篇为 制作,由于他没有CSDN,于是由我代发 一、基本介绍 支持Dev-C5.11版本(务必调为英文输入法),基本操作看游戏里的介绍,怎么做的……懒得说,能看懂就看注释,没有的自己猜,如果你很固执……私我吧 …

蘑菇书(EasyRL)学习笔记(1)

1、强化学习概述 强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环 境(environment)里面去最大化它能获得的奖励。如下图所示,强化学习…

huggingface的数据集下载(linux下clone)

1. 安装lfs sudo apt-get install git-lfs 或者 apt-get install git-lfs 2. git lfs install git lfs install 3. git clone dataset包 第2,3步骤的截图如下:

Kubernetes学习笔记

Kubernetes学习笔记 API格式前缀API组API版本 Pod概念优势局限性创建Pod ReplicationController概念配置Pod模板 Kubernetes架构概述节点定义管理节点名称唯一性节点自注册手动节点管理节点状态节点心跳节点控制器逐出速率限制资源容量跟踪 API Kubernetes把其管理的资源均视为…

现代数字信号处理I-P4 CRLB+LMMSE 学习笔记

目录 学习资料视频链接: 1. 估计参数的CRLB回顾 2. 参数变换下的CRLB拓展 3. 矢量参数下的CRLB扩展 3.1 矢量参数下的CRLB公式 3.2 两个矩阵不等式关系的意义说明 3.3 矢量参数下CRLB公式的证明过程 4. 线性估计 重点注意事项:此处的线性估计&am…

零磁通电流探头的原理

在电力电子和自动化控制领域,电流测量的准确性至关重要。传统的开环式电流探头,尽管在交流电流测量中表现出色,但在直流或大电流测量时,常面临磁芯饱和、剩磁及温度变化带来的测量误差问题。为此,零磁通电流探头&#…

​​Spring6梳理17——基于XML的自动装配

以上笔记来源: 尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解)https://www.bilibili.com/video/BV1kR4y1b7Qc 目录 ①引入 ②场景模拟 2.1 创建UserController类文件 2.2 创建UserService接口文件 2…

同济大学计算机考研

文章目录 一、初试1.院校情况1.复试名单2.报录比3.学硕人数 二、复试(一) 数据库2016复试题一、选择题 (Multiple Choices)二、简答题 2018复试题一、选择题(一)数据库:1-10(二)C语言&#xff1…

植物大战僵尸杂交版游戏分享

植物大战僵尸杂交版游戏下载:夸克网盘分享 无捆绑之类的隐形消费,下载即玩

【软件工程】过程和生命周期的建模

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必练内功_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 过…

springboot整合xxl-job实现定时任务

搭建调度中心xxl-job-admin 下载调度中心项目 gitee github 注: 下载项目的版本应与集成项目pom引用xxl-job版本号对应上。 执行初始化数据库SQL sql路径: doc/db/tables_xxl_job.sql XXL-JOB调度模块基于自研调度组件并支持集群部署,调…

flv格式如何转换mp4?将flv转换成MP4格式的9种转换方法

flv格式如何转换mp4?在进行flv转MP4的转换之前,了解两种格式的基本特点和差异也是至关重要的。flv格式以其流媒体传输的高效性和对Flash Player的依赖而闻名,而MP4则以其广泛的兼容性、高质量的音视频同步以及灵活的编码选项而著称。通过对比…

vue mixins使用示例

混入 (mixins): 是一种分发 Vue 组件中可以复用功能灵活的方式。混入对象可以包含任意组件的选项。当组件使用混入对象的时候,所有混入对象的选项将被混入该组件本身的选项。 使用示例: 定义使用的mixins对象 export const HelloWorldMixin {data() {r…