Talk|北京大学PKU-DAIR余昭辰:从多模态理解到生成 - 从LLM到Diffusion Model

本期为TechBeat人工智能社区第603期线上Talk。

北京时间6月26日(周三)20:00,北京大学PKU-DAIR实习生—余昭辰的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “从多模态理解到生成 - 从LLM到Diffusion Model”,在本次Talk中,他向大家介绍了PKU-DAIR课题组在大语言模型和扩散模型两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

Talk·信息

主题: 从多模态理解到生成 - 从LLM到Diffusion Model

嘉宾:北京大学PKU-DAIR实习生 余昭辰

时间:北京时间 6月26日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=882

Talk·介绍

大语言模型(Large Language Models, LLMs)与扩散模型(Diffusion Models)都是生成模型,可以根据输入条件生成新的数据样本。大语言模型主要生成文本,扩散模型生成图像或其他形式的数据。两者都是当前人工智能研究的热点领域,LLM/MLLM更侧重于多模态数据的理解与推理,而Diffusion Model更侧重于生成多模态数据,建模其分布。本次talk将介绍本课题组在两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

Talk大纲

1. 增强大语言模型推理的思维缓存方法——Buffer of Thought

2. 将扩散模型用于不同数据建模生成:

(1)文生视频——ContextDiff;

(2)文生3D——IPDreamer;

(3)3D小分子药物设计——IRDiff

3. 将LLM与Diffusion Model进行结合,用于复杂多模态数据生成:

(1)组合式/长文本文生图——RPG;

(2)组合式/复杂文生视频——VideoTetris;

(3)拥有世界知识的图形编辑器——EditWorld

Talk·预习资料

图片

论文链接:

https://arxiv.org/abs/2406.04271

项目名称:

Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

项目链接:

https://github.com/YangLing0818/buffer-of-thought-llm

图片

论文链接:

https://openreview.net/forum?id=nFMS6wF2xq

项目名称:

Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing - ICLR 2024

项目链接:

https://github.com/YangLing0818/ContextDiff

图片

论文链接:

https://arxiv.org/2310.05375

项目名称:

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

项目链接:

https://github.com/YangLing0818/IPDreamer

图片

论文链接:

https://openreview.net/forum?id=eejhD9FCP3

项目名称:

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation (ICML 2024)

项目链接:

https://github.com/YangLing0818/IRDiff

图片

论文链接:

https://arxiv.org/2401.11708

项目名称:

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs - ICML 2024

项目链接:

https://github.com/YangLing0818/RPG-DiffusionMaster

图片

论文链接:

https://arxiv.org/2406.04277

项目名称:

VideoTetris: Towards Compositional Text-To-Video Generation

项目链接:

https://github.com/YangLing0818/VideoTetris

图片

论文链接:

https://arxiv.org/2405.14785

项目名称:

EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

项目链接:

https://github.com/YangLing0818/EditWorld

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

 

余昭辰

北京大学PKU-DAIR · 实习生

余昭辰,北京大学数据与智能实验室(PKU-DAIR)本科实习生,研究方向为扩散模型与大模型,已在ICLR、ICML等顶会上一作发表两篇论文,担任NeurIPS等顶会审稿人。

个人主页: 

https://www.techbeat.net/grzytrkj?id=38118


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/748931.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

.Net WebApi启动 Swagger异常报错: Failed to load API definition

问题描述: 基于.Net6.0的WebApi 启动Swagger报错:Failed to load API definition。即无法加载API定义。 解决方法: 分析程序输出日志: 错误信息: ERROR Microsoft.AspNetCore.Diagnostics.DeveloperExceptionPageMid…

无线领夹麦克风品牌排名,揭秘哪种领夹麦性价比高!

在直播电商和Vlog的热潮推动下,自媒体内容创作迎来了前所未有的繁荣。麦克风行业也因应这一趋势,迎来了快速的增长期。特别是无线领夹麦克风,以其便携性和高效的录音能力,迅速成为视频制作者的新宠。它不仅在直播带货和短视频制作…

[JS]DOM事件

事件监听 让程序检测是否有事件产生, 一旦事件触发, 就调用函数做出响应 事件三要素: 事件源(谁的事件) 事件类型(如何触发) 事件处理程序(做什么) function fn() {} // 绑定事件 btn.addEventListener(click, fnction() { })// 绑定事件 btn.addEventListener(click, fn)//…

openlayer 图层点击事件 鼠标单击

背景: 接上一篇博客,如何渲染图层,渲染不同颜色的图层? 一个图层创建好了,接下来我们要做的是,如何通过鼠标点击打开点击对象的详情弹框?鼠标点击的是layer图层里的featrue要素,这…

数字AI化银行数字化转型实战手册银行数字化转型大客户营销销售讲师培训师唐兴通谈存量客户理财金融科技与场景化

推动银行数字化转型的五个关键因素 推动银行数字化转型的五个关键因素: 客户体验。为客户提供便利和个性化是数字化转型的关键因素。银行应开发和实施创新的数字渠道,例如移动应用程序、网上银行、聊天机器人等,以方便获取金融服务并提高客户…

使用微信开发者工具创建运行项目全流程

小程序基础知识 1. 认识什么是小程序 什么是微信小程序 微信小程序是一种运行在微信内部的 轻量级 应用程序。 在使用小程序时 不需要下载安装,用户 扫一扫 或 搜一下 即可打开应用。它也体现了 “用完即走” 的理念,用户不用关心安装太多应用的问题…

LangChain让LLM带上记忆

最近两年,我们见识了“百模大战”,领略到了大型语言模型(LLM)的风采,但它们也存在一个显著的缺陷:没有记忆。 在对话中,无法记住上下文的 LLM 常常会让用户感到困扰。本文探讨如何利用 LangCha…

2024-6-27 石群电路-31

2024-6-27,星期四,12:52,天气:雨,心情:晴。今天没有什么事情发生,继续学习,加油!!!!! 今日观看了石群老师电路课程的视频…

从此以后,将硬件接入大语言模型(LLM)将变得如此简单~

一、前言 本文中将使用ESP-AI开源库来实现将硬件接入AI,整个过程将非常的轻松~ 什么是ESP-AI? 为你的开发板提供全套的AI对话方案,包括但不限于 ESP32 系列开发板的 IATLLMTTS 集成方案。 交流群 QQ 交流群: 854445223 技术栈 ESP-AI 分为了服务端和…

Databend 怎么看 OpenAI 收购实时数仓 Rockset?

6月21日(上周五),OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,一时引起数据库圈和 AI 圈热议,很多朋友也来询问 Databend 如何看待这个事件。这次收购表明了市场对实时数据分析和数据处理解决方案的高度重视,数据是 AI 发…

Win10扩充C盘(把其他盘存储空间分给C盘)

C盘虽然没有安装任何软件,但无奈安装某些软件(例如VS,QuarC等)总会占用C盘容量,且C盘内存很小(只有60G左右),看着D盘的三四十空闲内存,决定把D盘内存分给C盘30G&#xff…

C++入门 list的模拟实现

目录 list的节点类 list的迭代器类 list的模拟实现 要模拟实现list,必须要熟悉list的底层结构以及其接口的含义,通过之前学习,这些内容已基本掌握,现在我们来模拟实现list。 参照带头双向循环链表的结构,我们可以建…

ConvMixer 论文与代码解析

paper:Patches Are All You Need? official implementation:https://github.com/locuslab/convmixer 精度上去了,推理速度只有卷积和ViTs的四分之一! 出发点 文章讨论了卷积神经网络(CNN)在视觉任务中…

#### 广告投放 ####

以巨量引擎为例: 计费模式 eCPM(expected Cost Per Mile,估计千次展示收入) 概括: ecpm为千次展示的预估收益,是广告平台用来给广告排序的指标。 注意是展示而不是千次点击收益,展示了可能不…

从0到1:亮数据浏览器,为数据采集工作注入全新动力

亮数据浏览器提升数据采集效率 一、 导言1.1 引入亮数据浏览器的重要性1.2 简要介绍本文将涉及的主题和内容 二、 亮数据浏览器简介2.1. 什么是亮数据浏览器2.2. 亮数据浏览器的特点和优势 三、优化数据采集的核心功能3.1 自动化数据采集3.1.1 通过亮数据浏览器实现自动化数据采…

LangChain入门之 GPT 和小范大人不太熟?

前言 嗨,大家好!我是海鸽。 《庆余年2》刚刚完结,热度不减,我忍不住好奇:我们的AI伙伴GPT,是否也对剧中那位机智过人的小范大人有所耳闻? 不仅如此,最近我们还尝试了LangChain的调…

Xcode安装Simulator失败问题解决方法

Xcode安装Simulator_Runtime失败,安装包离线安装保姆级教程 Xcode更新之后有时候会提示要安装模拟器运行时环境,但是用Xcode更新会因为网络原因,我觉得基本上就是因为苹果服务器的连接不稳定导致的,更可气的是不支持断点续…

介绍几种 MySQL 官方高可用方案

前言: MySQL 官方提供了多种高可用部署方案,从最基础的主从复制到组复制再到 InnoDB Cluster 等等。本篇文章以 MySQL 8.0 版本为准,介绍下不同高可用方案架构原理及使用场景。 1.MySQL Replication MySQL Replication 是官方提供的主从同…

记录dinky0.6.7+flink1.14.5集成问题

先说一句mmp,这个jar包冲突搞吐我。如果有遇到math3问题需要注意少个包 看相关issue 以下为flink的lib目录 一、yarn-application和perjob模式 yarn session模式不依赖dlink-app-1.14-0.6.7-jar-with-dependencies.jar这个包,。但是yarn-application…

新能源行业知识体系-------蒙西电网需求侧响应

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/139946830 目录 一、背景介绍二、需求响应电能量收益介绍三、超额回收需求响应减免收益介绍四、参与需求侧响应五、蒙西电力现货特点六、交易中…