OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场,它能根据文字指令创造逼真且富有想象力的场景

文章目录

  • 一、前言
  • 二、主要内容
  • 三、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

此页面上的所有视频均由 Sora 直接生成,未经修改。

OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.

在这里插入图片描述

2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要变天?


二、主要内容

能力

OpenAI 正在教授 AI 理解和模拟运动中的物理世界,目标是训练出能帮助人们解决需要与现实世界互动的问题的模型。目前的成果是 Sora,OpenAI 最新发布的从文本生成视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉品质和对用户提示的遵循。

2024 年 2 月 26 日,Sora 即将向红队人员开放,以评估关键领域的潜在危害或风险。OpenAI 还允许一些视觉艺术家、设计师和电影制作人使用,以便获得反馈,进一步优化模型,使其对创意专业人士更有帮助。OpenAI 提早分享他们的研究进展,以便开始与 OpenAI 之外的人们合作并从他们那里获取反馈,同时让公众对即将到来的 AI 能力有所了解。

Sora 能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。该模型对语言有着深刻的理解,使其能够准确解读提示并生成表情丰富的引人入胜的角色。Sora 还能在单个生成的视频中创造出多个画面,准确地保持角色和视觉风格的一致性。

当前模型有缺陷。它可能在准确模拟复杂场景的物理现象方面遇到困难,也可能无法理解特定的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能不会留下咬痕。该模型也可能会混淆提示的空间细节,例如,将左和右搞混,而且可能难以准确描述随时间发生的事件,比如遵循特定的摄像机轨迹。

安全

在将 Sora 应用于 OpenAI 产品之前,OpenAI 将采取几个重要的安全措施。OpenAI 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。OpenAI 还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。如果在 OpenAI 产品中部署该模型,OpenAI 计划在未来加入 C2PA 元数据。

除了开发新技术为部署做准备外,OpenAI 还在利用现有的安全方法,这些方法是 OpenAI 为使用 DALL-E 3 的产品建立的,也适用于 Sora。例如,一旦进入 OpenAI 产品,OpenAI 的文本分类器就会检查并拒绝违反 OpenAI 使用政策的文本输入提示,例如要求输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。OpenAI 还开发了强大的图像分类器,用于审查生成的每段视频的帧数,以帮助确保视频在播放给用户之前符合使用政策。

OpenAI 将与世界各地的政策制定者、教育工作者和艺术家接触,以了解他们的担忧,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但 OpenAI 无法预测人们使用这项技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。

研究技术

Sora 是一种扩散模型,它从一个看起来像静态噪音的视频开始生成视频,然后通过多个步骤去除噪音,逐渐转换视频。Sora 能够一次性生成整个视频,或延长生成的视频,使其更长。通过让模型一次预见多帧画面,OpenAI 解决了一个具有挑战性的问题,那就是即使主体暂时离开视线,也要确保主体保持不变

与 GPT 模型类似,Sora 也采用了 Transformer 架构,释放了卓越的扩展性能。OpenAI 将视频和图像表示为更小的数据单元集合,称为 “补丁”(patches),每个补丁类似于 GPT 中的令牌(token)。通过统一数据表示方式,我们可以在比以往更广泛的视觉数据上训练 diffusion transformers,包括不同的持续时间、分辨率和宽高比。

Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了 DALL-E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字说明。该模型不仅能根据文字说明生成视频,还能根据现有的静止图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。更多信息,请参阅 OpenAI 的技术报告。

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。


三、总结

OpenAI 发布其首个 AI 视频生成模型 Sora:这是一个能够根据文本指令生成逼真而富有想象力的视频的模型,它使用了扩散模型和 Transformer 架构,能够生成长达一分钟的超长视频,还能保持多镜头的一致性。

Sora 展现了对世界的理解和模拟:这个模型能够学习到关于 3D 几何、物理规律、语义理解和故事叙述的知识,它甚至能够创造出类似皮克斯作品的动画效果,有着世界模型的雏形。

Sora 颠覆了视频生成领域:这个模型的效果远超过了目前的 AI 视频工具,如 Runway Gen 2 和 Pika,它能够实现视频和现实的无缝对接,让普通人也能在社交媒体上制作出高质量的视频内容。

Sora 可能为实现 AGI 奠定了基础:这个模型是对真实世界和虚构世界的模拟,是通用人工智能的重要步骤,也是 OpenAI 的核心使命。


📚️ 参考链接:

  • OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.
  • 腾讯科技 - 眼见不再为实!OpenAI 发布最强文生视频模型 Sora【附 60s 演示视频】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/389537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于Build Your Own Botnet的尝试

这是一次失败的尝试、 原文地址:关于Build Your Own Botnet的尝试 - Pleasure的博客 下面是正文内容: 前言 我在上一篇关于DDOS的文章种提到过这个项目,而且说明了由于这个项目是在2020年发布并开源的,并且已经有两年没有进行跟…

react+ts【项目实战一】配置项目/路由/redux

文章目录 1、项目搭建1、创建项目1.2 配置项目1.2.1 更换icon1.2.2 更换项目名称1.2.1 配置项目别名 1.3 代码规范1.3.1 集成editorconfig配置1.3.2 使用prettier工具 1.4 项目结构1.5 对css进行重置1.6 注入router1.7 定义TS组件的规范1.8 创建代码片段1.9 二级路由和懒加载1.…

【JS逆向+Python模拟API请求】逆向某一个略微中等的混淆网站,并模拟调用api请求 仅供学习。注:不是源代码混淆,而是一个做代码混淆业务的网站,

逆向日期:2024.02.16 使用工具:Node.js 加密方法:RSA标准库 文章全程已做去敏处理!!! 【需要做的可联系我】 AES解密处理(直接解密即可)(crypto-js.js 标准算法&#xf…

Dynamo读取Revit警告

Hello大家好!我是九哥~ 之前看到群里小伙伴经常会问如何去掉Revit重复的图元,有推荐各种插件的,其实的,Revit本身就会提示你有哪些图元是重复的,就在管理选项卡下面的警告里,即查阅警告信息。 点击警告后…

【JAVA-Day81】 线程休眠: Java 中暂停线程执行的方法 ⏸️

线程休眠: Java 中暂停线程执行的方法 ⏸️💤 线程休眠: Java 中暂停线程执行的方法 ⏸️💤摘要 📝引言 🚀正文 📚一、什么是线程休眠 ⏸️二、线程什么情况下会休眠 ❓三、模拟线程休眠 &#…

OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定

本文原文来自DataLearnerAI官方网站: OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051708046782555 Open…

自动化机器学习(AutoML)入门简介

近期在学习研究一些关于自动化机器学习方面的论文,本文作为该系列的第一篇文章,就AutoML的一些基本概念和现状进行简单分享,权当抱砖引玉。 图片源自《Taking Human out of Learning Applications: A Survey on Automated Machine Learning》…

【JavaEE】spring boot快速上手

SpringBoot快速上手 文章目录 SpringBoot快速上手Maven会出现的一个官方bug创建完项目之后常用的的三个功能依赖管理Maven仓库中央仓库本地仓库国内源配置私服 springboot项目创建什么是springspring boot项目的创建Hello Worldweb服务器 SpringMVC什么是SpringWebMVC什么是MVC…

变分自编码器(VAE)PyTorch Lightning 实现

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

165基于matlab的各类滤波器

基于matlab的各类滤波器。汉宁窗设计Ⅰ型数字高通滤波器、切比雪夫一致逼近法设计FIR数字低通滤波器、模拟Butterworth滤波器设计数字低通滤波器、频域抽样法的FIR数字带阻滤波器设计、频域抽样法的FIR数字带通滤波器设计、汉宁窗的FIR数字高通滤波器设计、双线性法设计巴特沃斯…

关于java的网图下载

关于java的网图下载 我们在上篇文章中,学习到了用Thread类去创建多线程,我们本篇文章来向大家介绍一下网图下载功能,利用多线程同时下载多个图片😉 一、下载器 我们下载网络图片的时候,首先需要自己定义一个下载器&…

可变参数(c/c++)

目录 一、C语言版本 二、C的实现方法 2.1数据包 2.2sizeof...运算符 2.3可变参数模板的使用 2.4emplace_back() 有时候我们在编写函数时,可能不知道要传入的参数个数,类型 。比如我们要实现一个叠加函数,再比如c语言中的printf,c中的emp…

WebGPT与WebGLM

WebGPT paper: WebGPT:Browser-assisted question-answering with human feedbackDemo: https://openaipublic.blob.core.windows.net/webgpt-answer-viewer/index.html webgpt的论文发表最早,但论文本身写的比较"高山仰止",可能先…

汇报工作时,你的工作会让领导满意吗?

当前你正在做的事 众所周知,跟领导汇报,第一件事需着重汇报你正在做的事,否则领导会感觉你无所事事。 举个例子: 完成了某某项目,在这项目中我负责:协调不同科室之间的纠纷,并把问题集中上报给…

《春山》中的贝叶斯统计——白敬亭衣服合理概率及决策比重。

目录 1. 全身黑衣服合理概率2. 真的是导演组允许?3. 粉丝的证据是否站得住?4.总结 感谢up主链接: 【理工春山学】只谈事实 从统计角度深度剖析春山学,她使用贝叶斯统计合理分析了在舞台中白敬亭、双魏、导演组出错的概率。接下来我采用一个新…

Acwing---846. 树的重心

树的重心 1.题目2.基本思想3.代码实现 1.题目 给定一颗树,树中包含 n n n 个结点(编号 1 ∼ n 1∼n 1∼n)和 n − 1 n−1 n−1 条无向边。 请你找到树的重心,并输出将重心删除后,剩余各个连通块中点数的最大值。 …

百度云AI

百度云AI概述 Face腾讯优图科大讯飞 百度人脸识别基于深度学习的人脸识别方案,准确识别图片中的人脸信息,提供如下功能: 人脸检测:精准定位图中人脸,获得眼、口、鼻等72个关键点位置,分析性别、年龄、表…

【JAVA-Day89】Java字符串和XML数据结构的转换

Java字符串和XML数据结构的转换 Java字符串和XML数据结构的转换,高效灵活转变数据摘要引言一、什么是XML二、XML格式的应用场景三、XML字符串转对象3.1 使用 DOM 解析器实现 XML 字符串转对象3.2 使用 JAXB 实现 XML 字符串转对象 四、XML对象转字符串4.1 使用 DOM …

【实战】一、Jest 前端自动化测试框架基础入门(一) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(一)

文章目录 一、前端要学的测试课1.前端要学的测试2.前端工程化的一部分3.前端自动化测试的例子4.前端为什么需要自动化测试?5.课程涵盖内容6.前置技能7.学习收获 二、Jest 前端自动化测试框架基础入门1. 自动化测试背景及原理前端自动化测试产生的背景及原理 2.前端自…

Linux中sigaction函数和SIGCHLD信号的使用

sigaction函数: 函数说明:注册一个信号处理函数 函数原型:int sigaction(int signum, const struct sigaction *act, struct sigaction *oldact); 函数参数: signum:捕捉的信号act:传入参数,…