Twelve Labs:专注视频理解,像人类一样理解视频内容

在当今数字化世界中,视频已成为人们获取信息和娱乐的主要方式之一。

AI视频生成领域的竞争也很激烈,Pika、Sora、Luma AI以及国内的可灵等,多模态、视频生成甚至也被视为大模型发展的某种必经之路。然而,与文本生成相比,视频生成模型与实际场景的距离似乎更为遥远,Sora在2月份的事件中引起了广泛关注,但至今还未对公众开放试用。

除了视频的生成,视频的理解速度实际上更快,并且在当前阶段也成为了吸引投资的热门领域。

今天要介绍的这家新兴公司Twelve Labs是其中的标志性企业,它成功获得了英伟达的资金支持,并且同时被CB Insights和Fast Company评为最具创新力的AI搜索公司之一。Twelve Labs凭借其先进的技术,致力于打造多模态视频搜索引擎,为用户提供更智能、更高效的视频搜索体验。

959c38bfd959279ba4a9b399f5fb8f27.jpeg

产品介绍

Twelve Labs的目标是,让视频的处理和搜索变得和文本一样容易。

主要观点:

场景式视频内容理解是主流:增加视频数据和高质量视频内容是未来 AIGC 在媒体和娱乐领域规模化采用的基础,场景式理解视频内容 (Context Understanding of Video) 将会成为技术主流。视频内容处理可以细化到每一个瞬间,大大提高了视频内容在不同社交平台的传播效率。AI原生产品的丝滑体验感:自动化视频数据标注和数据生成可以极大的降低成本,把劳动力从重复性的工作中解放出来。Twelve Labs 把标注,搜索和生成端到端的设计起来,创造了极优的产品体验。

产品简介:

Twelve Labs 是一个人工智能平台,帮助开发者创建视频搜索和生成能力。该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

产品功能

Twelve Labs的核心技术是开发多模态的AI大模型,能够像人类一样理解视频内容。它通过三个步骤自动搜索,分类和生成来简化用户的工作流程,但其中包括了几种主要的产品功能,只需通过对接 API 就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo 等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自 Youtube, Tiktok,Reels 等视频库的材料。传统的视频搜索主要都是基于标题和特定标签信息来完成的,而 Twelve Labs 的产品可以根据对视频包括音频内容的理解和用户输文字的语义来进行定位。

eceb40bb83a78c36d45466ab36b00975.jpeg

2、视频分类

如果你是一个视频内容平台如抖音,数据库里有海量的视频资源,你有很多的用户,但是每个用户可能只对其中一类或者几类视频感兴趣。那如何只推送用户喜欢的内容呢?传统的内容推荐大多都是根据用户的偏好设置和用户行为数据,根据视频的标题和标签进行匹配来进行的。这种推荐的结果一般初期效果比较差,并且带有很强的不确定性。这个基于AI大模型的分类功能除了能很好地完成个性化内容推荐任务,还可以做精准广告投放,公司内部视频资源的整理。它通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

0b3cd9f41b9d1e4d9f6336491d3c779b.jpeg

3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。还可以在生成的视频上自由修改和插入视频内容,有提供用户利用细分赛道数据的微调模型的功能,例如客户会需要微调「茄瓜沙律」为「鸡胸肉沙律」。

fbdcb5a49f4a658d7dbf2ac50b712808.jpeg

Twelve Labs商业模式主要做ToB的业务,比如视频内容提供商,媒体资产管理,执法部门的数字证据管理等,目前已经与Vidispine、EMAM、Blackbird等公司建立深度合作。

4、视频描述和摘要

这个模型能够生成自然语言的描述以及视频的简洁摘要,从而捕获关键的信息和重要的时刻。在此基础上,结合深度学习算法实现对语义内容进行理解分析,并以文本形式呈现给用户。特别是对于那些有视觉问题或时间受限的用户来说,这种方法增强了理解能力和参与度。同时,该系统提供一种基于语音识别技术的个性化视频分享平台。你还可以利用自定义的prompt工具来创建具有不同重点的长篇视频总结、故事或自媒体文章等内容。

52be68c4eb84ebbbd5d2908308ef6290.jpeg

产品优势

为了实现大规模莫场景式视频理解搜索和生成,Twelve Labs 建立了两个视频语言大模型,奠定了极大的技术优势:

Pegasus-1(800 亿参数)是 Twelve Labs 的视频语言模型(Video-to-Text),通过「视频优先」策略确保卓越的视频理解,具有高效的长视频处理、多模态理解、原生视频嵌入和深度视频语言对齐的优点。凭借 800 亿参数并在 3 亿视频-文本对的大型数据集上进行训练,它显著超越了之前的模型。在 MSR-VTT 数据集上显示出 61% 的提升,在视频描述数据集上提升了 47%。与 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1 的性能提升高达 188%,在视频转文本的准确性和效率上设立了新标准。

9adf8cb3a5dcdb4c02fe2bd2e2cab2e8.jpeg

Marengo-2.6 是一款最先进的多模态基础模型,擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务。它在 MSR-VTT 数据集上比 Google 的 VideoPrism-G 高出 10%,在 ActivityNet 数据集上高出 3%。具备先进的零样本检索能力,超越现有模型在理解和处理视觉内容上的表现。其多功能性还包括跨模态任务,如音频到视频和图像到视频。该模型通过重新排序模型实现了增强的时间定位,确保更精确的搜索结果,展示了在多种模态下令人印象深刻的感知推理能力。

519b45a9179c5c043757df0db4253b3b.jpeg

小结

除了Twelve Labs之外,谷歌以及微软和亚马逊也推出了能够提供 API 级、人工智能驱动的服务的产品,这些服务可以识别视频中的对象、位置和动作,并在帧级提取丰富的元数据。随着这些技术的不断进步,我们可以预见,未来在视频理解领域的竞争将变得异常激烈。我们正站在一个由 AI 技术引领的新时代的门槛上。在这个时代,视频不再仅仅是动态的视觉记录,而是智能理解与深度学习技术融合的前沿。总之,Twelve Labs凭借其多模态视频搜索引擎,正在改变我们处理和获取视频信息的方式,为数字世界带来更为便捷、智能的体验。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0712_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/797633.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么ISP?什么是IAP?

做单片机开发的工程师经常会听到两个词:ISP和IAP,但新手往往对这两个概念不是很清楚,今天就来和大家聊聊什么是ISP,什么是IAP? 一、ISP ISP的全称是:In System Programming,即在系统编程&…

【蓄势·致远】 同为科技(TOWE)2024年年中会议

2024年7月2日-8日,同为科技(TOWE)召开2024年年中工作会议。会议回顾上半年总体工作情况,分析研判发展形势,规划部署下半年工作。 为期一周的工作会议,由同为科技(TOWE)创始人、董事长…

MySQL的插入(DML)

1.给指定字段添加数据 这个就是,想插入所对应的字段,就插入所对应的数值。先把字段列出来,不一定是全部的字段, 然后插入想要的值,注意,只能插入一行。 INSERT INTO 表名 (字段1,字段2,.....) VALUES(值…

vue学习day08-v-model详解、sync修饰符、ref和$refs获取dom组件、Vue异步更新和$nextTick

25、v-model详解 (1)v-model原理 1)原理: v-model本质上是一个语法糖,比如:在应用于输入框时,就是value属性与input事件的合写。 2)作用 ①数据变,视图变 ②视图变&#xff0c…

网络协议 — Keepalived 高可用方案

目录 文章目录 目录Keepalived 是实现了 VRRP 协议的软件Keepalived 的软件架构VRRP StackCheckersKeepalived 的配置Global configurationvrrp_scriptVRRP Configurationvrrp synchroization groupvrrp instancevirtual ip addressesvirtual routesLVS Configurationvirtual_s…

Qt+MySQL实现社团管理系统

开发环境 ● Qt 5.14.1 ● Win10 ● Mysql 5.7.28 系统介绍 系统主要实现的功能如下图所示 社团管理系统主要包含了以下几个亮点功能 轮播图显示社团信息支持excel形式的导入导出学生信息权限控制(管理员、超级管理员、用户) 系统效果展示 登录界面…

Leetcode(经典题)day2

H指数 274. H 指数 - 力扣(LeetCode) 先对数组排序,然后从大的一头开始遍历,只要数组当前的数比现在的h指数大就给h指数1,直到数组当前的数比现在的h指数小的时候结束,这时h的值就是要返回的结果。 排序…

Python酷库之旅-第三方库Pandas(021)

目录 一、用法精讲 52、pandas.from_dummies函数 52-1、语法 52-2、参数 52-3、功能 52-4、返回值 52-5、说明 52-6、用法 52-6-1、数据准备 52-6-2、代码示例 52-6-3、结果输出 53、pandas.factorize函数 53-1、语法 53-2、参数 53-3、功能 53-4、返回值 53-…

用户登陆实现前后端JWT鉴权

目录 一、JWT介绍 二、前端配置 三、后端配置 四、实战 一、JWT介绍 1.1 什么是jwt JWT(JSON Web Token)是一种开放标准(RFC 7519),用于在各方之间以安全的方式传输信息。JWT 是一种紧凑、自包含的信息载体&…

UML/SysML建模工具更新情况(2024年7月)(1)

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 工具最新版本:Enterprise Architect 17.0 BETA 更新时间:2024年7月2日 工具简介 性价比很高,目前最流行的UML建模工具。还包含需求管理、项目估算…

【ZooKeeper学习笔记】

1. ZooKeeper基本概念 Zookeeper官网:https://zookeeper.apache.org/index.html Zookeeper是Apache Hadoop项目中的一个子项目,是一个树形目录服务Zookeeper翻译过来就是动物园管理员,用来管理Hadoop(大象)、Hive&…

数据恢复篇:适用于 Android 的恢复工具

正在摆弄 Android 设备。突然,您意外删除了一张或多张图片。不用担心,您总能找到一款价格实惠的照片恢复应用。这款先进的软件可帮助 Android 用户从硬盘、安全数字 (SD) 或存储卡以及数码相机中恢复已删除的图片。 Android 上文件被删除的主要原因 在获…

昇思学习打卡-13-LLM原理与实践/解码原理--以MindNLP为例

文章目录 搜索方法集束搜索(beam search)贪心搜索(greedy search) 采样池处理结果 一个文本序列的概率分布可以分解为每个词基于其上文的条件概率的乘积 搜索方法 集束搜索(beam search) Beam search通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出…

C++·多态

1. 多态的概念 多态通俗讲就是多种形态,就是指去完成某个行为,当不同对象去做时会产生不同的结果或状态。 比如买火车票这个行为,同样是买票的行为,普通成年人买到全价票,学生买到半价票,军人优先买票。这个…

NFT如何解决音乐版权的问题

音乐版权问题一直困扰着音乐产业。传统的音乐版权管理模式存在以下问题。需要注意的是,NFT在音乐版权领域仍处于早期发展阶段,存在一些需要解决的问题,例如技术标准不统一、应用场景有限、法律法规不明朗等。但随着技术的进步和市场的完善&am…

可重入锁深入学习(有码)

【摘要】 ​今天,梳理下java中的常用锁,但在搞清楚这些锁之前,先理解下 “临界区”。临界区在同步的程序设计中,临界区段活称为关键区块,指的是一个访问共享资源(例如:共享设备或是共享存储器&a…

路径规划 | 飞蛾扑火算法求解二维栅格路径规划(Matlab)

目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 路径规划 | 飞蛾扑火算法求解二维栅格路径规划(Matlab)。 飞蛾扑火算法(Firefly Algorithm)是一种基于自然界萤火虫行为的优化算法,在路径规划问题中也可以应…

Nginx入门到精通三(反向代理1)

下面内容整理自bilibili-尚硅谷-Nginx青铜到王者视频教程 Nginx相关文章 Nginx入门到精通一(基本概念介绍)-CSDN博客 Nginx入门到精通二(安装配置)-CSDN博客 Nginx入门到精通三(Nginx实例1:反向代理&a…

子进程继承父进程文件描述符导致父进程打开设备文件失败

开发过程中有时会遇到需要在程序中执行三方程序或者shell脚本,一般会通过system(), popen(), exec簇来完成该功能。我们知道以上方法会通过fork创建子进程后在子进程中执行相应指令。如图1为某个示例流程,具体的程序执行流程如图2所示,线程my…

使用Python和MediaPipe实现手势控制音量(Win/Mac)

1. 依赖库介绍 OpenCV OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。它包含了数百个计算机视觉算法。 MediaPipe MediaPipe是一个跨平台的机器学习解决方案库,可以用于实时人类姿势估计、手势识…