Meta FAIR研究新成果:图像到文本、文本到音乐的生成模型,多标记预测模型以及AI生成语音检测技术

Meta AI研究实验室(FAIR)公开发布了多项新研究成果,包括图像到文本和文本到音乐的生成模型,多词预测模型,以及检测AI生成语音的技术。发布的成果体现了开放性、协作、卓越和规模化等核心原则。公开早期研究工作旨在激发迭代,推动AI负责任发展。

  • Meta Chameleon系列模型可将文本和图像作为输入,输出任意文本和图像组合。已发布7B和34B模型的关键组件。

  • 发布多词预测预训练语言模型代码,可更高效训练语言模型。

  • 发布JASCO文本到音乐生成模型,可接受各种条件输入如音调、拍子等,改进对生成音乐的控制。

  • 发布AudioSeal,首个专为检测AI生成语音设计的音频水印技术,可实现对语音片段中的AI内容进行本地化检测。

  • 发布PRISM数据集,记录1500名参与者与21个LLM的交流及反馈,用于探索反馈过程的方法、领域和目标。

  • 发布GEO评估工具,用于评估文本到图像模型中的潜在地域差异;并探索了改进多样性的方法。

十多年来,Meta 的基础人工智能研究 (FAIR) 团队一直致力于通过开放研究推动人工智能的发展。随着该领域的创新继续快速发展,我们认为与全球人工智能社区的合作比以往任何时候都更加重要。保持开放的科学方法并与社区分享我们的工作有助于我们坚持我们的目标,即构建适合每个人并让世界更加紧密的人工智能系统。

今天,我们很高兴与全球社区分享一些最新的 FAIR 研究模型。我们公开发布了六项研究成果,重点关注我们工作的核心主题:创新、创造力、效率和责任。这些发布包括图像到文本和文本到音乐的生成模型、多标记预测模型以及用于检测 AI 生成的语音的技术。通过公开分享我们的早期研究工作,我们希望激发迭代并最终以负责任的方式帮助推动 AI 的发展。我们迫不及待地想看看社区使用这些最新版本构建了什么,并继续与开源社区进行重要的对话。

Meta Chameleon

Meta Chameleon 是一个模型系列,它可以将文本和图像组合为输入,并以单一统一的架构输出任意文本和图像组合,用于编码和解码。

虽然大多数当前的后期融合模型使用基于扩散的学习,但 Meta Chameleon 对文本和图像使用标记化。这可以实现更统一的方法,并使模型更易于设计、维护和扩展。可能性无穷无尽 - 想象一下为图像生成创意标题或使用文本提示和图像的混合来创建一个全新的场景。

Multi-Token Prediction

大多数LLM都有一个简单的训练目标:预测下一个单词。虽然这种方法简单且可扩展,但效率也很低。与孩子们学习同等程度的语言流利程度相比,它需要的文本要多几个数量级。

今年4月,我们提出了一种新的方法,通过使用多令牌预测来构建更好更快的llm。使用这种方法,我们训练语言模型一次预测多个将来单词,而不是旧的一次预测一个单词的方法。这提高了模型能力和训练效率,同时允许更快的速度。本着负责任的开放科学精神,我们在非商业/仅限研究的许可下发布了预训练的代码完成模型。我们希望这能使研究界独立地研究我们的方法和训练模型的行为。

AudioSeal

生成式 AI 工具正在激励人们在社交媒体上与朋友、家人和关注者分享自己的创作。与所有 AI 创新一样,我们必须尽自己的一份力量来帮助确保负责任地使用这些工具。今天,我们发布了 AudioSeal,我们认为这是第一种专门为局部检测 AI 生成的语音而设计的音频水印技术,可以精确定位较长音频片段中的 AI 生成的片段。AudioSeal 通过专注于检测 AI 生成的内容而不是隐写术来改进传统的音频水印。与依赖复杂解码算法的传统方法不同,AudioSeal 的局部检测方法可以实现更快、更高效的检测。与以前的方法相比,这种设计将检测速度提高了 485 倍,使其非常适合大规模和实时应用。我们的方法在音频水印的稳健性和不可感知性方面实现了最先进的性能。

AudioSeal 是根据商业许可发布的。这只是我们为防止滥用生成式 AI 工具而分享的几条负责任的研究路线之一。我们在基础文本和语音翻译模型SeamlessM4T v2和Audiobox生成的语音样本中加入了类似的水印。我们在最近的版本中进一步详细介绍了针对图像、语音和文本模型的水印方法。

JASCO:Text-to-Music

生成式人工智能使人们能够以新的方式探索创造力,例如将文本提示转换为音乐片段。虽然现有的文本转音乐模型(如MusicGen)主要依靠文本输入来生成音乐,但我们的新模型“用于时间控制文本转音乐生成的元联合音频和符号条件”(JASCO)能够接受各种条件输入,例如特定的和弦或节拍,以改善对生成的音乐输出的控制。具体来说,我们将信息瓶颈层与时间模糊结合使用,以提取与特定控制相关的信息。这允许在同一个文本转音乐生成模型中同时结合符号和基于音频的条件。

结果表明,JASCO 在生成质量方面与评估基线相当,同时允许对生成的音乐进行更好、更灵活的控制。

PRISM数据集

从多元化的人群中获取反馈对于提高 LLM 水平至关重要,但研究界对反馈过程的方法、领域和目标一直存在疑问。我们与外部合作伙伴合作解决这些问题,支持发布 PRISM 数据集,该数据集映射了来自 75 个国家/地区的 1,500 名多元化参与者的社会人口统计数据和偏好。该数据集将每个人的偏好和细粒度反馈映射到与 21 位不同 LLM 的 8,011 次实时对话中。

Meta 为我们的外部合作伙伴编制 PRISM 数据集提供了建议,重点关注以主观和多元文化观点为中心的对话,这些对话可能存在人际和跨文化分歧。我们的论文通过对话多样性、偏好多样性和福利结果三个案例研究证明了 PRISM 的实用性,表明哪些人设定了一致规范很重要。虽然我们希望这将成为社区资源,但我们也希望它能够激发人们更广泛地参与人工智能开发,并促进更具包容性的技术设计方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/727260.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 实人认证

首先Dcloud创建云服务空间,开启一键登录并充值 下一步 1. 右键项目 》 创建uniCloud云开发环境 》右键uniCloud》关联云服务空间 2. cloudfunctions右键 新建云函数,任意命名(例:veify),然后右键项目》管…

加密好的WPSword文档,忘记密码怎么办?

在日常办公和学习中,我们经常使用WPS Word等文档处理软件来创建和编辑重要文件。为了保护这些文件不被未经授权的人访问,我们通常会选择给文档设置密码。然而,有时我们可能会因为时间久远或其他原因而忘记自己设置的密码,这时该如…

IT运维全面数字化|芯片设计行业领跑打造运维流程闭环

在当今数字化转型的浪潮中,科技行业正经历着前所未有的变革。随着5G、人工智能、物联网等新兴技术的快速发展,企业对于高效、智能的运营模式的需求日益迫切。 芯片设计公司作为科技产业链中的关键一环,不仅要在技术创新上保持领先&#xff0…

javascript--类型检测 type of 和 instanceof

类型判断 1、typeof2、instanceof**instanceof 的原理** 3、constructor 1、typeof typeof在检测null、object、array、data的结果中都是object&#xff0c;所以无法用来区分这几个类型的区别。 <script>let a ["123",123,false,true,Symbol(1),new Date(),n…

双层循环和循环语句

echo 打印 echo -n 表示不换行输出 echo -e 表示输出转义字符 echo \b 相当于退格键&#xff08;backspace&#xff09; echo \n 换行&#xff0c;相当于回车 echo \f 换行&#xff0c;换行后的新行的开头连着上一行的行尾 echo \t 相当于tab健 &#xff08;…

Linux基础命令大全(详解版)

Linux基础命令&#xff08;详解版&#xff09; 文章目录 Linux基础命令&#xff08;详解版&#xff09;1.Linux的目录结构**2.Linux路径的描述方式**3.Linux命令基础格式4.ls命令 隐藏文件、文件夹5.pwd命令6.cd命令 特殊路径符7.mkdir命令 文件操作命令8.touch命令9.cat命令10…

DB9母头接口定义485

在通信技术中&#xff0c;DB9接口广泛应用于串行通信&#xff0c;尤其是在RS232和RS485标准中。虽然DB9接口最常见于RS232通信&#xff0c;但通过适当的引脚映射&#xff0c;它也可以用于RS485通信。本文将详细介绍如何定义和使用DB9母头接口进行RS485连接。 DB9母头接口简介 …

Ecahrts竖向柱状图实现自动滚动

效果如下&#xff1a; 1.首先声明一个timer定时器标识 let timer: NodeJS.Timer; // 定时器 2.再声明窗口展示的数量&#xff0c;yAxisIndex2用来记录当前index已经加了多少&#xff0c;方便再formatter中格式化标题的相关信息 const dataZoomEndValue 6; // 数据窗口范围的…

C语言程序设计-7 数组

在程序设计中&#xff0c;为了处理方便&#xff0c;把具有相同类型的若干变量按有序的形式组织起来。这些按序排列的同类数据元素的集合称为数组。在&#xff23;语言中&#xff0c;数组属于构造数据类型。一个数 组可以分解为多个数组元素&#xff0c;这些数组元素可以是基本数…

Hive笔记-3

3.2.2 查看表 1) 展示所有表 (1) 语法: 语法: SHOW TABLES [IN database_name] LIKE [identifier_with_wildcards]; In database_name 写的是查哪个数据库,一般不写默认是当前数据库 Like 后面跟通配符表达式 (2) 案例: 查看在 db_hive1 数据库里有没有以 stu 开头的表 …

DeviceNet总线粗缆和细缆连接器

DeviceNet总线粗缆和细缆连接器 DeviceNet的粗缆和细缆连接器是网络中不可或缺的部分&#xff0c;它们负责将不同的设备连接起来&#xff0c;实现数据的传输。粗缆通常用于主干线路&#xff0c;而细缆则用于分支线路。粗缆和细缆的芯位分布有所不同&#xff0c;粗缆通常有五个…

申办乙级资信证书,河南工程咨询单位流程详解

河南工程咨询单位申办乙级资信证书的流程详解如下&#xff1a; 一、前期准备阶段 研读政策文件&#xff1a; 研读《工程咨询行业管理办法》&#xff08;国家发展改革委2017年第9号令&#xff09;以及《国家发展改革委关于印发<工程咨询单位资信评价标准>的通知》&#x…

【嵌入式Linux】<总览> 文件IO(更新中)

文章目录 前言 一、常用函数 1. open函数 2. close函数 3. write函数 4. read函数 5. dup函数 6. dup2函数 二、文件读写细节 1. 换行符 2. 文件描述符 3. errno和perror 前言 在Linux系统中&#xff0c;一切皆文件。因此&#xff0c;掌握Linux下文件IO常用的函数…

高效电商数据分析:电商爬虫API与大数据技术的融合应用

一、引言 随着电子商务的迅猛发展和数据量的爆炸式增长&#xff0c;电商数据分析已成为企业决策的关键依据。在竞争激烈的电商市场中&#xff0c;如何高效、准确地获取并分析数据&#xff0c;以洞察市场趋势、优化运营策略、提升用户体验&#xff0c;成为电商企业面临的重要挑…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 连续字母长度(100分) - 三语言AC题解(Python/Java/Cpp)

&#x1f36d; 大家好这里是清隆学长 &#xff0c;一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 &#x1f4bb; ACM银牌&#x1f948;| 多次AK大厂笔试 &#xff5c; 编程一对一辅导 &#x1f44f; 感谢大家的订阅➕ 和 喜欢&#x1f497; &#x1f…

3D Web轻量化引擎HOOPS Commuicator是如何创建AEC查看器的?

在当今数字化时代&#xff0c;建筑、工程和施工&#xff08;AEC&#xff09;行业正经历着一场技术革命。HOOPS Communicator&#xff0c;一款基于HOOPS Web平台的3D Web轻量化引擎&#xff0c;正是这场革命的先锋之一。本文将探讨HOOPS Communicator是如何创建AEC查看器的&…

[论文笔记]Are Large Language Models All You Need for Task-Oriented Dialogue?

引言 今天带来论文Are Large Language Models All You Need for Task-Oriented Dialogue?的笔记。 主要评估了LLM在完成多轮对话任务以及同外部数据库进行交互的能力。在明确的信念状态跟踪方面&#xff0c;LLMs的表现不及专门的任务特定模型。然而&#xff0c;如果为它们提…

【Codesys】-计算开机通电运行时间,累计正常使用时间,故障停机时间

应客户要求&#xff0c;在程序添加了这个用来计算开机运行时间&#xff0c;原理就是取当前时间减去一开始记录的时间&#xff0c;没什么特别要求&#xff0c;记录一下使用的变量类型和数据写法&#xff0c;防止忘记了。 下文只写了一个开机通电运行时间的写法&#xff0c;累计…

解决navicat连接oracle19c数据库缺少oci.dll

下载oci.dll文件 搜索Oracle Instant Client Downloads Oracle Instant Client Downloads点击 Oracle Instant Client Downloads 超链接 根据自己的操作系统按需选择 以windows64位为例&#xff0c;下载 Version 19.23.0.0.0的OCI压缩包 解压到Navicat的安装根路径下&#xff…

红黑树(数据结构篇)

数据结构之红黑树 红黑树(RB-tree) 概念&#xff1a; 红黑树是AVL树的变种&#xff0c;它是每一个节点或者着成红色&#xff0c;或者着成黑色的一棵二叉查找树。对红黑树的操作在最坏情形下花费O(logN)时间&#xff0c;它的插入操作使用的是非递归形式实现红黑树的高度最多是…