可灵开源视频生成数据集 学习笔记

目录

介绍

可灵团队提出了四个模块的改进:

video caption

新指标 vtss 动态质量 静态质量 视频自然性


介绍

在视频数据处理中,建立准确且细致的条件是关键,可灵团队认为,解决这一问题需要关注三个主要方面:

文本与视频语义对齐:视频生成需要与视觉内容直接相关的详细字幕,而不是像视频问答中的基于问题的描述。这要求字幕极为丰富详细,因为视觉信号具有无限细致之处。此外,原始视频数据常包含复杂的过渡,增加了确保字幕准确性的难度。
低质量数据的评价与过滤:低质量视频(如画质差或过多人工效果)会妨碍训练,但对其进行准确评估和过滤依然是挑战。现有方法多依赖于人工选择的质量指标和启发式阈值过滤,这些通常为其他任务设计,未必适合视频生成,因此可能无法有效保证所需的数据质量。
数据质量的异质性:即使有数据过滤,数据集中视频质量仍然参差不齐。在相同方式下训练这些异质数据可能导致模型学习的不确定性。

  • 使用线性分类器提升过渡检测精度,从而改善视频的时间一致性。
  • 为分割视频片段生成平均长度为200字的结构化字幕,提升文本与视频的对齐。
  • 训练网络预测Video Training Suitability Score(VTSS),避免误删高质量数据,由网络单一输出的分值进行数据过滤。
  • 在训练期间引入数据指标作为生成模型的额外条件,帮助模型区分不同质量的数据,提高条件与视频内容的一致性,进而提升模型性能和可控性。

Panda70M是目前最大规模的公开可访问视频文本数据集

Koala-36M 包含 3600 万个视频片段,平均时长 13.75 秒,分辨率为 720p,每个视频都配有平均长度为 202 字的文字描述

可灵团队提出了四个模块的改进:

1、更加准确的分镜detection

2、提出一个structured caption system,可以对每个分镜产生200words的描述

3、训练了一个video training suitability score(VTSS)筛选高质量数据

4、把多个子指标作为metric condition喂给生成模型生成更好的效果

video caption

可灵团队使用了6种不同的captioner(都是用的GPT-4V),然后merge在一起。

主题 (The subject)
主体的动作 (Actions of the subject)
主体所处的环境 (The environment in which the subject is located)
视觉语言,包括风格、构图、光线等 (The visual language including style, composition, lighting, etc.)
摄影语言,包括镜头运动、角度、焦距、镜头尺寸等 (The camera language including camera movement, angles, focal length, shot sizes, etc.)
世界知识 (World knowledge)

新指标 vtss 动态质量 静态质量 视频自然性

动态质量:高质量视频应展现良好的动态性,评估时关注主体运动的幅度和运动的时间稳定性。视频中运动区域应覆盖超过30%的画面,否则因动态不足会降低评分。时间稳定性考虑摄像机的运动;非专业拍摄的视频常有不规则明显的抖动,这些视频的评分会降低,以区分专业作品。
静态质量:高质量视频的每一帧应具备丰富的主体细节、合理的构图、美学吸引力、清晰的主体和饱和的色彩。尽管这项指标可能涉及一些主观性,但对整体视觉质量的评估至关重要。
视频自然性:可灵团队偏好自然、未处理的视频。特效、转场、字幕和标志可能会引入视频分布的偏差,使得生成模型更难学习。此外,可灵团队考虑视频内容的安全性,拒绝含有政治、恐怖、暴力、色情、血腥或其他令人不安内容的视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/909765.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot配置Rabbit中的MessageConverter对象

SpringAMQP默认使用SimpleMessageConverter组件对消息内容进行转换 SimpleMessageConverter: only supports String, byte[] and Serializable payloads仅仅支持String、Byte[]和Serializable对象Jackson2JsonMessageConverter:was expecting (JSON Str…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30目录1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning摘要研究背…

LabVIEW在Windows和Linux开发的差异

LabVIEW广泛应用于工程和科研领域的自动化和测量控制系统开发,其在Windows和Linux平台上的开发环境有所不同。这些差异主要体现在操作系统兼容性、硬件支持、软件库和驱动程序、实时系统开发以及部署选择上。以下从各个方面详细对比分析LabVIEW在Windows与Linux系统…

大模型日报|7 篇必读的大模型论文

大家好,今日必读的大模型论文来啦! 1.加州大学团队推出“罕见病”大模型 Zebra-Llama 罕见病为医疗保健带来了独特的挑战,通常会出现诊断延迟和信息分散的情况。这些疾病的可靠知识稀缺,给大语言模型(LLM&#xff09…

Docker篇(基础命令)

目录 一、启动与停止 二、镜像相关的命令 1. 查看镜像 2. 搜索镜像 3. 拉取镜像 4. 删除镜像 三、容器创建与启动容器 1. 查看容器 2. 创建容器 交互式方式创建容器 守护式方式创建容器 3. 容器启动与停止 四、容器操作命令 1. 文件拷贝 2. 目录(文件…

网络安全认证的证书有哪些?

在网络安全领域,专业认证不仅是个人技术能力的象征,也是职业发展的重要推动力。随着网络安全威胁的日益严峻,对网络安全专业人才的需求也在不断增长。本文将介绍一些网络安全认证的证书,帮助有志于从事网络安全行业的人士了解并选…

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution 1 背景2 创新点3 方法4 模块4.1 以往SR模型的刚性4.2 图构建4.2.1 度灵活性4.2.2 像素节点灵活性4.2.3 空间灵活性 4.3 图聚合4.4 多尺度图聚合模块MGB4.5 图聚合层GAL 5 效果5.1 和SOTA…

tomato靶机

下载tomato地址:https://vulnhub.com/entry/tomato-1,557/ 直接拖进虚拟机中 tomato靶机和kali虚拟机必须在同一网段所以使用nat模式 扫描主机 arp-scan -I eth0 -l 发现新主机ip 192.168.142.147 nmap扫描端口 namp -p- -A -T4 --min-rate10000 192.168.142.147 有用的信息…

集成旺店通旗舰版售后单至MySQL数据库

旺店通旗舰版-售后单集成到MySQL的技术实现 在数据驱动的业务环境中,如何高效、准确地将旺店通旗舰奇门的数据集成到MySQL数据库,是许多企业面临的重要挑战。本文将分享一个具体的系统对接案例:旺店通旗舰版-售后单-->BI泰海-售后订单表(…

随着FAB的发布,在FAB中使用Megascans的简单方法(适用于Unreal Engine 5)

UE5系列文章目录 文章目录 UE5系列文章目录前言一、如何在2024年12月31之前免费获取Quixel Megascans所有资源 前言 随着FAB的发布,Quixel Megascans的资源在2024年12月31号之后将不再免费,一个资源1美元 Fab是Epic Games推出的一个全新的数字内容平台,…

论文阅读:Computational Long Exposure Mobile Photography (二)

这篇文章是谷歌发表在 2023 ACM transaction on Graphic 上的一篇文章,介绍如何在手机摄影中实现长曝光的一些拍摄效果。 Abstract 长曝光摄影能拍出令人惊叹的影像,用运动模糊来呈现场景中的移动元素。它通常有两种模式,分别产生前景模糊或…

Linux云计算 |【第五阶段】PROJECT3-DAY1

主要内容: 跳板机(堡垒机)的概念、部署JumpeServer 一、跳板机(堡垒机)的概念 跳板机(Jump Server 或 Bastion Host)是一种网络安全设备或服务器,也称堡垒机,是一类可作…

一款根据图片内的文字,把图片分类的软件

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

文件操作:Xml转Excel

1 添加依赖 Spire.Xls.jar <dependency><groupId>e-iceblue</groupId><artifactId>spire.xls</artifactId><version>5.3.3</version></dependency>2 代码使用 package cctd.controller;import com.spire.xls.FileFormat; im…

从底层技术到实际应用:Claude与ChatGPT谁更适合学术写作?

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 使用大模型智能AI进行学术写作和科研已经成为学者、研究人员和高校学生的强大助手。Anthropic的Claude和OpenAI的ChatGPT作为该领域的两个主要参与者&#xff0c;正在不断发展和完善。随…

linux 磁盘配额 quota

增加一个facl的的知识点&#xff1a; linux中默认的文件系统支持facl&#xff0c;如果是新挂载的分区&#xff0c;则不支持facl应用。需要在挂载文件系统时使用-o acl选项来启用facl支持。如下图显示 在/etc/fstab添加defaults,acl 1.启用磁盘配额功能&#xff1a;修改/etc/f…

qt QMessageBox详解

1、概述 QMessageBox是Qt库中的一个类&#xff0c;它用于在图形用户界面&#xff08;GUI&#xff09;程序中显示消息框。消息框是一种用于向用户显示信息、警告、错误或询问用户确认的对话框。QMessageBox可以显示文本、图标和按钮&#xff0c;并允许自定义按钮的文本和功能。…

qt QResizeEvent详解

1、概述 QResizeEvent是Qt框架中用于处理窗口或控件大小变化事件的一个类。当用户调整窗口或控件的尺寸时&#xff0c;Qt会生成一个QResizeEvent事件&#xff0c;并将其发送到相应的窗口或控件。开发者可以通过重载窗口或控件的resizeEvent()方法来响应这个事件&#xff0c;并…

黑科技安利 | 超好用的背景去除软件

背景 如果一幅主图里存在其它颜色的背景色调&#xff0c;希望变成白色或者特定色彩/背景图片 推荐 1. Microsoft PowerPoint里自带的“清除背景”/设置透明色 这个功能超级好用&#xff0c;基本满足我日常涉及的90%的清除白色背景的需求 2. https://www.remove.bg/ 这个网…

PyCharm中pylint安装与使用

目录 1. 安装插件2. pycharm中使用该功能3. 命令行使用 1. 安装插件 然后重启 2. pycharm中使用该功能 3. 命令行使用 前提是先 pip install pylint pylint demo01.py下面红框内容的意思是&#xff0c;得到10分/ 满分10分&#xff0c;上次运行获得8.33分&#xff0c;经调整…