文生视频开源产品的一些调研(一)

笔者尝试AI视频生成的几个特点:

  • 玄学prompt,每个视频的prompt可能也需要微调很多次,需要找到使用模型的最佳prompt词组合,不恰当的比喻,骑自行车,座位高度等都是人与车彼此熟悉
  • 玄学生成,因为需要连贯,你可能需要生成无数个视频,99%可能都是一坨屎,各种垮脸的关键帧,需要失败很多次,才有那么个能看的,所以按照这个原理,买在线平台比较不划算,因为每次生成都是计费的

如果要生成比较合理的长视频:

  • 合理的拆解分镜
  • 每个分镜要有适配模型的prompt,包括背景描述

几个可以同时支持图+文共同输入的模型:

  • 即梦
  • lumalabs.AI

1 产品调研

AIGC产品列表可见:[AI视频生成]

1.1 快手:可灵

https://kling.kuaishou.com/

没有申请到测试账户,生成短视频一般5s左右,示例视频的动作还蛮丰富

在这里插入图片描述
号称可以支持长视频:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 lumalabs.AI

https://lumalabs.ai/dream-machine/creations

120 秒生成 120 帧,视频模型 Dream Machine

在这里插入图片描述

Dream Machine 可在 120 秒生成 120 帧,目前单个视频最长为 5 秒;生成的视频具有逼真的流畅运动、电影摄影和戏剧效果;还可以匹配摄像机运动,创造出“惊艳”的画面。
Luma AI 也提到了目前模型存在的问题,比如切换视角时汽车会变形,狗的运动没有用到爪子,显示文字会有问题(将 Luma 显示成 Lumma),北极熊在转身时出现了两个头(Janus 是罗马人的门神,具有前后两个面孔),官方表示他们仍将继续优化模型。

1.3 即梦 - 剪映旗下

https://jimeng.jianying.com/ai-tool/home
在这里插入图片描述

有一些比较视觉的功能,比如运镜控制,还有首帧,尾帧的图片的上传可以固定首尾情况
但是整体5S中,可以连贯的剧情可能比较简单,
笔者体验下来可能仅仅实现的是图像动起来

生成的内容也会有变形,所以需要生成很多次才可以。

在这里插入图片描述

1.4 科大讯飞-星火绘镜

https://typemovie.art/#/dashboard
在这里插入图片描述

笔者猜测底层可能是【Stable Video Diffusion】,使用的某个Lora都是高清现代人物,比较亮眼的长视频的分镜处理
第一步:给入主题大纲生成分幕剧情
在这里插入图片描述
在这里插入图片描述

第二步:根据每一个分镜描述,生成分镜首图,然后后续会根据这些首页图再次生成
咋说呢,首图看着确实很亮眼,但是后续生成的视频,简直不能看,胆小慎入…
反正不能人样…
在这里插入图片描述

1.5 魔搭MotionAgent

https://modelscope.cn/studios/iic/MotionAgent/summary

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

是一个比较完整的项目了,包括剧本,音乐生成,就是缺了一个分镜就更好了
比较适合自己搭服务器玩

在这里插入图片描述

1.6 CogVideo

https://segmentfault.com/a/1190000044809082
https://models.aminer.cn/cogvideo/
只有4s,可以免费试用的相对固定

在这里插入图片描述

1.7 runwayml

https://runwayml.com/?ref=magicspace.agency

在这里插入图片描述

1.8 Stable Video

Stable Video是由著名的Stability AI推出的在线AI视频生成工具,目前拥有最强大的AI绘画模型之一,Stable Diffusion。它提供文本生成视频和图像生成视频两种模式,每天还可获得积分,免费生成多达十几个视频。
网址 https://www.stablevideo.com/

测试下来,本质就是让图动起来,差了点意思,剧情感不强

在这里插入图片描述

1.9 Lumen5

Lumen5能够将长篇文章、博客等文本内容转化为视频,并提供丰富的视频模板供选择。用户可以对制作过程进行微调,添加素材等,享有高度自由度。
网址https://lumen5.com/

在这里插入图片描述

1.10 腾讯智影 - 数字人创作

腾讯智影是一款集成了AI数字人物、AI文字转语音(TTS)、文章转视频等功能的智能创作工具。用户可以选择多种AI数字人物,并进行细节控制,如动作、服装等。
网址 https://zenvideo.qq.com/

1.11 即创 - 电商商品生成

即创是字节跳动专为抖音生态而推出的AI创作平台,能够通过AI快速生成文案、带货视频、直播以及商品宣传图等内容。同时也提供AI数字人功能。
用户可以通过抖音精选联盟的商品ID,在即创中一键生成爆款内容,非常适合从事抖音带货的用户。
官网 https://aic.oceanengine.com

1.12 一帧秒创

https://aigc.yizhentv.com/product/aiVideo

拆分剧本,但是视频都是哪个影视剧的小片段裁剪的,不是合成的

在这里插入图片描述

1.13 domoAI - 视频转动漫

官方 Discord 链接: https://discord.gg/domoai

DomoAI 的服务目前托管 Discord 上的,可以将真人视频转化为动漫、3D、像素、彩色插画、中国水墨画等多种风格。下面是官方展示的真人视频转动漫视频的效果,非常稳定丝滑。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/718730.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java | Leetcode Java题解之第162题寻找峰值

题目&#xff1a; 题解&#xff1a; class Solution {public int findPeakElement(int[] nums) {int n nums.length;int left 0, right n - 1, ans -1;while (left < right) {int mid (left right) / 2;if (compare(nums, mid - 1, mid) < 0 && compare(n…

vue:对三种获取更新后的dom的方式进行分析

一、问题分析 由于vue的异步更新机制&#xff0c;我们在同步代码中是无法获取到更新后的dom的信息的 针对这个问题&#xff0c;我们有三种解决方案获取更新后的dom: 1.nextTick() 2.setTimeout() 3.在微任务中获取 因为更新是在同步任务结束后&#xff0c;执行微任务之前…

【网络安全】网络安全威胁及途径

1、网络安全威胁的种类及途径 &#xff08;1&#xff09;网络安全威胁的主要类型 网络安全面临的威胁和隐患种类繁多&#xff0c;主要包括人为因素、网络系统及数据资源和运行环境等影响。网络安全威胁主要表现为&#xff1a;黑客入侵、非授权访问、窃听、假冒合法用户、病毒…

C++日志库spdlog使用方法

对于线上服务&#xff0c;打日志至关重要&#xff0c;通过日志可以进行事件定位、debug&#xff0c;有时也会通过收集日志实现追溯、监控、特征采集等工作。 1. spdlog简介 spdlog github 一个开源的C日志库&#xff0c;快速便捷&#xff0c;使用了fmt作为格式化工具。 2. s…

02 - matlab m_map地学绘图工具基础函数 - m_proj

02 - matlab m_map地学绘图工具基础函数 - m_proj 0. 引言1. 查看所有投影方式3. 各投影方式绘图示例3.1 极射赤面投影法&#xff08;Stereographic &#xff09;3.2 Orthographic 正射投影示例3.3 Azimuthal Equal-area 方位等面积投影3.4 Azimuthal Equidistant 等距方位投影…

函数模板的注意事项

1.可以为类的成员函数创建模板&#xff0c;但不可以是虚函数和析构函数。 #include <iostream> using namespace std;class CGirl {public:template <typename T>CGirl(T a) {//构造函数中cout << "a" << a << endl;}template <ty…

Mysqld数据库管理

一.Mysqld数据库类型 常用的数据类型 int 整型 无符号[0-4294967296&#xff08;2的32次方&#xff09;-1]&#xff0c;有符号[-2147483648&#xff08;2的31次方&#xff09;-2147483647]float单精度浮点 4字节32位double双精度浮点 8字节64位char固定长度的字符类型…

如何利用TikTok矩阵源码实现自动定时发布和高效多账号管理

在如今社交媒体的盛行下&#xff0c;TikTok已成为全球范围内最受欢迎的短视频平台之一。对于那些希望提高效率的内容创作者而言&#xff0c;手动发布和管理多个TikTok账号可能会是一项繁琐且耗时的任务。幸运的是&#xff0c;通过利用TikTok矩阵源码&#xff0c;我们可以实现自…

【vue3|第9期】Vue3中watch监视的深度解读

日期&#xff1a;2024年6月10日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xf…

element-plus的Tour 漫游式引导怎么去绑定Cascader 级联选择器

首先官方例子是用的button 官方.$el这个log出来是&#xff1a; 知道是以元素为准就拿对应的元素就行 级联选择器.$el是这样的&#xff1a; 你可以移入这个元素部分去看看是哪个要用的&#xff08;好像火狐直接放上去就可以看到元素表示&#xff0c;谷歌要双击或者右键选择去看…

英语恶补ing

ing的词组都有停下来做某事的感觉了。 second hand是形容词了。 wouldnt buy这里的would是情态动词&#xff0c;也是助动词 助动词不能单独使用&#xff0c;要搭配实义动词&#xff0c;这样才能构成谓语 情态动词&#xff08;modals&#xff09;在英语中有多种作用&#xff…

Fedora40的#!bash #!/bin/bash #!/bin/env bash #!/usr/bin/bash #!/usr/bin/env bash

bash脚本开头可写成 #!/bin/bash , #!/bin/env bash , #!/usr/bin/bash , #!/usr/bin/env bash #!/bin/bash , #!/usr/bin/bash#!/bin/env bash , #!/usr/bin/env bash Fedora40Workstation版的 /bin 是 /usr/bin 的软链接, /sbin 是 /usr/sbin 的软链接, rootfedora:~# ll …

java8实战1(让方法参数具备行为能力)

客户需求是查出颜色为green的苹果 客户需求变成查出颜色为red的苹果 假设现在客户需求又变了,找出黄色的呢?你想查什么颜色直接做为参数输入 让调用者输入颜色参数 问题是现在客户想把重量做为条件,来筛选苹果集合 这就为难了,客户需求随时会变 观察以上例子,发现有个共同…

Android Studio无法连接夜神模拟器的解决方案

一、AS检测不到夜神模拟器 1、问题描述 在按照教程【如何安装和使用Android夜神模拟器】进入夜神的bin目录&#xff0c;输入连接命令回车后&#xff0c;终端显示的already connected to 127.0.0.1:62001&#xff0c;但是AS的Running Devices并没有显示夜神模拟器。 2、解决方…

新能源汽车的能源动脉:中国星坤汽车电缆在新能源汽车电气化中的应用!

随着新能源汽车行业的蓬勃发展&#xff0c;汽车电缆组件作为汽车电气系统的核心组成部分&#xff0c;其重要性日益凸显。中国星坤汽车电缆组件以其卓越的性能和创新技术&#xff0c;为汽车的电能传输、信号传递和控制提供了坚实的保障。本文将深入解析星坤汽车电缆组件的特性、…

Objective-C 学习笔记 | KVO(key-value obsereving)

Objective-C 学习笔记 | KVO&#xff08;key-value obsereving&#xff09; Objective-C 学习笔记 | KVO&#xff08;key-value obsereving&#xff09;使用 KVOKVO 的工作原理 Objective-C 学习笔记 | KVO&#xff08;key-value obsereving&#xff09; KVO 是指当指定的对象…

GPT-4系列模型,在文档理解中的多维度评测

著名云数据平台Snowflake的研究人员发布了一篇论文&#xff0c;主要对OpenAI的GPT-4系列模型进行了研究&#xff0c;查看其文本生成、图像理解、文档摘要等能力。 在DocVQA、InfographicsVQA、SlideVQA和DUDE数据集上对GPT-4、GPT-4 V、GPT-4 Turbo V OCR等进行了多维度测试。…

【交易策略】#22-24 残差资金流强度因子

【交易策略】#22-24 残差资金流强度因子

太速科技-FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡

FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡 一、板卡概述 该板卡为了考虑兼容1.8V电平IO&#xff0c;适配Virtex7&#xff0c;Kintex Ultrascale&#xff0c;Virtex ultrasacle FPGA而特制&#xff0c;如果要兼容原来的3.3V 也可以修改硬件参数。板卡支持1路…

我的python-web基础(Flask前后端不分类)

1.HTML HTML是超文本标记语言 &#xff08; 英文 &#xff1a; HyperText Markup Language &#xff0c; HTML &#xff09;&#xff0c;它不是编程语言&#xff0c;而是一种标记语言 HTML标记标签通常被称为HTML标签&#xff0c;它的特点如下&#xff1a; HTML标签是由尖括…