Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁

本期为TechBeat人工智能社区557线上Talk。

北京时间12月20(周三)20:00,约翰霍普金斯大学博士生魏晨的Talk已准时在TechBeat人工智能社区开播!

她与大家分享的主题是: “De-Diffusion-文本是不同模态的沟通桥梁题,介绍了她的团队在如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)上所做的研究。

Talk·信息

主题:De-Diffusion-文本是不同模的沟通桥梁

嘉宾:约翰霍普金斯大学博士生 魏晨

时间:北京时间 12月20日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=836

Talk·介绍

我们探讨了如何通过文本(text) 构建一种强大的跨模态沟通桥梁 (cross-modal interface)。

长期以来,人们只使用deep embeddings来连接来自不同的模态模型,如图像模型和语言模型。我们提出,如果将图像表示为文本(text)而不是deep embeddings,那么我们不仅将享受到自然语言固有的可解释性,还能构建起另一种跨模态沟通桥梁。在经典的自动编码器 (autoencoder) 结构中,我们使用一个预训练好的文生图扩散模型 (text-to-image diffusion model) 作为解码器 (decoder),从而得到输入图像的文字表征。这个文字表征全面地描述了输入图像的语义信息,从而将图像与其他模态的大模型模块化地连接起来。比如,通过与语言大模型PaLM2的有机连接,在没有任何微调和训练的情况下,我们利用一个ViT-L级别的视觉模型(600M)得到了比有着80B参数的Flamingo模型更好的小样本开放VQA能力。

Talk大纲

1、从牛油果扶手椅 (avocado armchair) 一窥图像生成式模型的泛化能力;

2、逆转文生图模型 -- 图生文的新方法;

3、文字作为不同模态的沟通桥梁:一种常被忽视的我们人类的“超”能力;

4、文字作为不同模态的沟通桥梁:用文字连接不同的文生图模型 -- 自动化的prompt engineering;

5、文字作为不同模态的沟通桥梁:用文字连接图像与语言大模型 -- 模块化设计同时带来更好的训练灵活度与更好的VQA能力

Talk·预习资料

Image

论文链接:

https://arxiv.org/abs/2311.0061

代码链接:

https://dediffusion.github.io/

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

Image

魏晨

约翰霍普金斯大学博士生

约翰霍普金斯大学计算机系在读博士生,师从Alan Yuille教授。本科毕业于北京大学计算机科学专业。研究方向为计算机视觉的自监督学习、表征学习与生成式模型。工作发表于CVPR, ICCV, ECCV, ICLR, ICML等计算机视觉与机器学习顶级会议。曾获EECS Rising Star 2023。

个人主页: 

https://www.techbeat.net/grzytrkj?id=36456


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/260610.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式--结构型--代理模式】

设计模式--结构型--代理模式 代理模式概述结构静态代理案例:卖车票jdk动态代理cglib代理三种代理对比优缺点使用场景 代理模式 概述 由于某些原因需要给某对象提供一个代理以控制该对象的访问。这时,访问对象不适合或者不能直接引用目标对象&#xff0…

Postgresql中PL/pgSQL的游标、自定义函数、存储过程的使用

场景 Postgresql中PL/pgSQL代码块的语法与使用-声明与赋值、IF语句、CASE语句、循环语句: Postgresql中PL/pgSQL代码块的语法与使用-声明与赋值、IF语句、CASE语句、循环语句-CSDN博客 上面讲了基本语法,下面记录游标、自定义函数、存储过程的使用。 …

智能化物联网(IoT):发展、问题与未来前景

导言 智能化物联网(IoT)作为信息技术领域的一项核心技术,正在深刻改变人们的生活和工作方式。本文将深入研究IoT的发展过程、遇到的问题及解决过程、未来的可用范围,以及在各国的应用和未来的研究趋势。探讨在哪些方面能够取得胜利…

基于CTF探讨Web漏洞的利用与防范

写在前面 Copyright © [2023] [Myon⁶]. All rights reserved. 基于自己之前在CTF中Web方向的学习,总结出与Web相关的漏洞利用方法,主要包括:密码爆破、文件上传、SQL注入、PHP伪协议、反序列化漏洞、命令执行漏洞、文件包含漏洞、Vim…

数字孪生开发技术分析

数字孪生的开发涉及多个技术领域,包括计算机科学、数据科学、人工智能和工程等。以下是数字孪生开发中常用的一些关键技术,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.建模和仿真&am…

centos(linux)安装jenkins

官网:https://pkg.jenkins.io/redhat/ 安装官网进行操作: sudo wget -O /etc/yum.repos.d/jenkins.repo https://pkg.jenkins.io/redhat/jenkins.reposudo rpm --import https://pkg.jenkins.io/redhat/jenkins.io-2023.key若出现如下错误: …

智能优化算法应用:基于人工水母算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于人工水母算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于人工水母算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.人工水母算法4.实验参数设定5.算法结果6.…

Axure

目录 一. 交互 1.2 交互事件 二. 情形 2.1 应用场景 三. 案例 3.1 ERP登录 3.2 ERP页面跳转 一. 交互 交互事件是指在用户界面中发生某些操作或行为时,触发相应的响应或动作。在设计网页、应用程序或其他用户界面时,交互事件通常用于实现交互式功…

R语言【cli】——通过cli_abort用 cli 格式的内容显示错误、警告或信息,内部调用cli_bullets和inline-makeup

cli_abort(message,...,call .envir,.envir parent.frame(),.frame .envir ) 我先从那些不需要下大力气理解的参数入手: 参数【.envir】:进行万能表达式编译的环境。 参数【.frame】:抛出上下文。默认用于 .trace_bottom,当 .…

WordCloud—— 词云

【说明】文章内容来自《机器学习入门——基于sklearn》,用于学习记录。若有争议联系删除。 wordcloud 是python的第三方库,称为词云,也成文字云,可以根据文本中的词频以直观和艺术化的形式展示文本中词语的重要性。 依赖于pillow …

Instruct-NeRF2NeRF:通过用户指令编辑 NeRF 三维场景

Haque A, Tancik M, Efros A A, et al. Instruct-nerf2nerf: Editing 3d scenes with instructions[J]. arXiv preprint arXiv:2303.12789, 2023. Instruct-NeRF2NeRF 是 ICCV 2023 Oral 论文,首次将图像编辑任务从二维提升到三维。 Instruct-NeRF2NeRF 所做的任务…

b站高可用架构 笔记

b站高可用架构 关键点:主机房,多活和多活机房 参考文章:bilibili技术总监毛剑:B站高可用架构实践 1. 前端和数据中心负载均衡 前端负载均衡(动态CDN):最近节点、带宽策略、可用服务容量 数据中心负载均衡:均衡流量、识别异常节…

微软近日推出了Phi-2,这是一款小型语言模型,但其性能却十分强大

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

数据的个人视角:数据可视化的意义

当谈论到数据可视化对个人用户的实用价值时,很多人可能会想到它仅适用于企业或专业领域。然而,数据可视化对个人用户同样具有重要的实用价值。本文将从可视化从业者的角度出发,简单说说数据可视化对个人用户的实用价值。 首先,数…

【大数据存储与处理】第四次作业

一. 简答题(共8题) 1. (简答题)此题为mongodb操作题,使用在线平台或分享的虚拟机平台软件,写出命令,并把结果截图一起提交。对testdb数据库items集合进行聚合分组,然后在统计卖出的平均数量(“…

云存储在 AIOps、数字人以及训练推理场景的最佳实践

云布道师 在以 AIGC 大模型为代表的技术新浪潮中,存储作为数据基础设施,将在数据采集、训练与推理、应用部署、内容审核与协同等多个关键环节发挥重要作用,助力 AI 创新加速。据 IDC 调研显示,67% 的中国企业已经开始探索 AIGC 在…

【PIE-Engine 数据资源】全球2.5分分辨率累积降水量数据集

文章目录 一、 简介二、描述三、波段四、示例代码参考资料 一、 简介 数据名称全球2.5分分辨率累积降水量数据集时间范围1961年- 2018年空间范围全球数据来源worldclim代码片段var images pie.lmageCollection(WORLDCLIME/GLOBAL_PREC_MONTH") 二、描述 全球2.5分分率果…

Linux笔记---用户和权限管理基本命令介绍

🍎个人博客:个人主页 🏆个人专栏:Linux学习 ⛳️ 功不唐捐,玉汝于成 目录 ​编辑 前言: 命令: whoami: passwd: useradd: userdel: chm…

直升机产权共享,让飞行成为触手可及的梦想!

你曾想过能开直升机?甚至想拥有一架直升机?那种飞跃人生的心境,翱翔蓝天白云。可面临居多疑问,比如:学开直升机需要怎样的条件(年龄、学历、费用、学习内容及周期等)?到哪里学/买直升机比较安全…

【C语言】自定义类型之联合和枚举

目录 1. 前言2. 联合体2.1 联合体类型的声明2.2 联合体的特点2.3 相同成员的结构体和联合体对比2.4 联合体大小的计算2.4 判断当前机器的大小端 3. 枚举3.1 枚举类型的声明3.2 枚举类型的优点3.3 枚举类型的使用 1. 前言 在之前的博客中介绍了自定义类型中的结构体,…