【MetaAI】2023年MetaAI发布的开源模型和工具

MetaAI开源模型和工具

  • MetaAI
    • Llama
    • Segment Anything
    • DINOv2
    • ImageBind
    • MMS
    • Lima
    • Voicebox
    • MusicGen
    • Llama 2
    • AudioCraft
    • SeamlessM4T

MetaAI

Meta 首席执行官扎克伯格表示,与其他研究者分享 Meta 公司开发的模型可以帮助该公司促进创新、发现安全漏洞和降低成本。他今年 4 月对投资者说:「对我们来说,如果行业对我们正在使用的基本工具进行标准化,那么我们就可以从他人的改进中受益。」

Llama

2023.02.24
LLaMA:开放高效的基础语言模型
这是一个基础语言模型的集合,参数范围从 7B 到 65B。我们在数万亿个代币上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可以与最好的模型 Chinchilla-70B 和 PaLM-540B 竞争。
Meta开源的LLaMa到底好不好用?最全测评结果来了-夕小瑶科技说
开源MMS模型可识别1100+语言-新智元

Segment Anything

2023.04.05
Segment Anything (SAM) 是一种通用分割模型
https://arxiv.org/abs/2304.02643
【segment-anything】- Meta 开源万物可分割 AI 模型,之前写的一篇博客
在这里插入图片描述

DINOv2

2023.04.18
具有自我监督学习功能的最先进的计算机视觉模型

  • Meta AI 构建了 DINOv2,这是一种训练高性能计算机视觉模型的新方法。
  • DINOv2 提供强大的性能并且不需要微调。这使得它适合用作许多不同计算机视觉任务的backbone。
  • 因为它使用自我监督,DINOv2 可以从任何图像集合中学习。它还可以学习当前标准方法无法学习的特征,例如深度估计。
  • 我们正在开源我们的模型并分享交互式演示。
    在这里插入图片描述

ImageBind

2023.05.09
文章地址
GitHub仓库
可让模型跨 6 种不同的模态(图像、文本、音频、深度、热能和 IMU 数据)进行交流! 基于该项目,开发者可以「开箱即用」实现包括跨模态检索、使用算术合成模态、跨模态检测和生成等各类新兴应用。
ImageBind是一种多模态AI模型,能够将文本、音频、视觉、热量(红外),还有IMU数据,嵌入到一个向量空间中。
从演示看,可以做到图片转音频、音频转图像、文本转图像和音频、图像和音频转图像、音频配合其他模型生成图像。
在这里插入图片描述

在这里插入图片描述

MMS

2023.05.23
Github仓库地址
开源MMS模型可识别1100+语言-新智元
Massively Multilingual Speech:大规模多语言语音
使用wav2vec 2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。

  • 从文本到语音
  • 以及语音到文本的互转
  • 可以讲 1100 种语言,听懂 4000 种语言
    在这之前最流行的模型应该是 Whisper
    Meta 在文档中提到比 Whisper 的错误率低了 50%

Lima

2023.05.23
论文地址
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA-机器之心

Lima是llama的一个改进。感觉LIMA的思路就是够强的预训练,加几个你任务的例子SFT,就可以激活你任务上的效果

LIMA是Meta的新型大型语言模型(LLM),它基于65B的LLAMA,只在1000个样本上进行了训练,它的表现和当前最先进的LLM一样好。LLM不需要太多的示例,大型模型也不需要真的"很大"。

LLaMa的微调大模型LIMA,号称只用了1000个精心策划的提示和反馈进行微调,就达到了非常好的效果。

我们通过训练LIMA,一个参数为650亿的LLaMa语言模型,仅使用标准的监督学习损失对1000个精心策划的提示和反馈进行微调,无需任何强化学习或人类偏好模型,来衡量这两个阶段的相对重要性。

LIMA表现出了极强的性能,能从训练数据中只有少量的样本学习特定的响应格式,包括从规划旅行行程到推测历史替代情景的复杂查询。

此外,该模型往往能很好地推广到未出现在训练数据中的新任务。在一个受控的人类研究中,
43%的情况下,LIMA的反馈与GPT-4相当或被严格优先选择
与Bard比较时,这个比例高达58%,与接受人类反馈训练的DaVinci003比较时,这个比例达到65%。

综合来看,这些结果强烈表明,大型语言模型中几乎所有的知识都是在预训练阶段学习的,只需要有限的指令调整数据就可以教授模型产生高质量的输出。

Voicebox

2023.06.16
文章地址

Meta AI开发出一种各方面都表现非常先进的语音生成AI模型:Voicebox
与别的生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练不同。
Voicebox使用一种新方法来仅从原始音频和随附的转录中学习。这种方法提高了模型的灵活性,使其能够更好地适应各种任务

MusicGen

2023.06.19
官方网站
体验地址
演示地址

简单可控的音乐生成模型

MusicGen是一个单阶自回归Transformer模型,它是通过一个在32kHz EnCodec tokenizer上进行训练,具有4个以50Hz采样的码本。

  • 用于条件音乐生成的单语言模型 (LM)
  • 使用压缩音乐令牌运行,无需多个模型
  • 在文本或旋律的引导下生成高质量的样本
  • 广泛的评估表明 MusicGen 优于基线模型
  • 研究强调了 MusicGen 中每个组件的重要性

Llama 2

2023.07.18
文章地址

Meta 发布免费可商用版本 Llama 2,大模型格局再次发生巨变

  1. 包含3个规模:LLAMB 700亿参数、LLAMM 130亿参数、LLAMS 70亿参数。采用Transformer架构。
  2. 相比Llama 1,训练数据增加40%,模型上下文长度加倍。性能显著提升,几乎可与专有模型GPT-3.5匹敌。
  3. Llama 2-Chat是对话优化版本,通过监督微调和RLHF方法,在单轮和多轮对话的自然性、连贯性上胜过其他开源模型,可媲美ChatGPT。
  4. 强化了模型安全性,使用各种技术减少有害输出,安全性评估结果优于其他开源模型

AudioCraft

2023.08.02
文章地址

AudioCraft 是一个简单框架,在对原始音频信号(而不是 MIDI 或钢琴卷轴)进行训练后,根据基于文本的用户输入生成高质量、逼真的音频和音乐。

AudioCraft 包含三个模型:MusicGen、AudioGen和EnCodec。MusicGen 使用 Meta 拥有且专门授权的音乐进行训练,根据基于文本的用户输入生成音乐,而 AudioGen 使用公共音效进行训练,根据基于文本的用户输入生成音频。今天,我们很高兴发布 EnCodec 解码器的改进版本,它可以用更少的音损生成更高质量的音乐;我们预先训练的 AudioGen 模型,可让您生成环境声音和声音效果,例如狗叫声、汽车喇叭声或木地板上的脚步声;以及所有 AudioCraft 模型权重和代码。这些模型可用于研究目的并加深人们对该技术的理解。
在这里插入图片描述

SeamlessM4T

2023.08.22
文章地址

这是一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本。SeamlessM4T 支持:

  • 自动语音识别近百种语言
  • 近 100 种输入和输出语言的语音到文本翻译
  • 语音翻译,支持近100种输入语言和35种(+英语)输出语言
  • 近 100 种语言的文本到文本翻译
  • 文本转语音翻译,支持近100种输入语言和35种(+英语)输出语言
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/102852.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第 361 场 LeetCode 周赛题解

A 统计对称整数的数目 枚举 x x x class Solution { public:int countSymmetricIntegers(int low, int high) {int res 0;for (int i low; i < high; i) {string s to_string(i);if (s.size() & 1)continue;int s1 0, s2 0;for (int k 0; k < s.size(); k)if …

读余华小说《兄弟》

上部读完的一些笔记和思考&#xff0c;下部 TODO 时间&#xff1a;上世纪6、70年代 地点&#xff1a;刘镇 人物&#xff1a;故事中的兄弟指的是&#xff1a;宋钢(兄)&#xff0c;李光头&#xff08;弟&#xff09;&#xff0c;如下为简单的人物和命运图 一些故事&#xff1a;…

Debezium的三种部署方式

Debezium如何部署 debezium 有下面三种部署方式,其中最常用的就是 kafka connect。 kafka connect 一般情况下,我们通过 kafka connect 来部署 debezium,kafka connect 是一个框架和运行时: source connectors:像 debezium 这样将记录发送到 kafka 的source connectors…

centos安装nginx实操记录(加安全配置)

1.下载与安装 yum -y install nginx2.启动命令 /usr/sbin/nginx -c /etc/nginx/nginx.conf3.新建配置文件 cd /etc/nginx/conf.d vim index.conf配了一个负责均衡&#xff0c;如不需要&#xff0c;可将 server localhost: 多余的去掉 upstream web_server{server localhost…

Ansible学习笔记11

Command和Shell模块&#xff1a; 两个模块都是用于执行Linux命令的&#xff0c;这个对于命令熟悉的工程师来说&#xff0c;用起来非常high。 Shell模块跟Command模块差不多&#xff08;Command模块不能执行一类$HOME、> 、<、| 等符号&#xff0c;但是Shell是可以的。&…

【sgTransfer】自定义组件:带有翻页、页码、分页器的穿梭框组件,支持大批量数据的穿梭显示。

特性&#xff1a; 表格宽度可以自定义翻页器显示控件可以自定义列配置项可以设置显示字段列名称、宽度、字段名可以配置搜索框提示文本&#xff0c;支持搜索过滤穿梭框顶部标题可以自定义左右箭头按钮文本可以设置 sgTransfer源码 <template><div :class"$opti…

AMEYA360代理 | 佰维eMMC、LPDDR存储芯片赋能电视终端流畅体验

5G、AI、VR、AR等技术的发展&#xff0c;助推智能电视、机顶盒等电视终端成为智能家居领域不可忽视的重要设备。随着4K超高清(UHD)技术、虚拟现实技术(VR)和增强现实技术(AR)的普及&#xff0c;并向8K超高清技术不断渗透&#xff0c;电视终端将可以为消费者提供更清晰的视觉体验…

mapboxGL3新特性介绍

概述 8月7日&#xff0c;mapboxGL发布了3版本的更新&#xff0c;本文带大家一起来看看mapboxGL3有哪些新的特性。 新特新 如上图所示&#xff0c;是mapboxGL官网关于新版的介绍&#xff0c;大致翻译如下&#xff1a; 增强了web渲染的质量、便捷程度以及开发人员体验&#xff…

前端面试中Vue的有经典面试题一

1. 谈谈你对MVVM开发模式的理解 MVVM分为Model、View、ViewModel三者。 Model&#xff1a;代表数据模型&#xff0c;数据和业务逻辑都在Model层中定义&#xff1b; View&#xff1a;代表UI视图&#xff0c;负责数据的展示&#xff1b; ViewModel&#xff1a;负责监听Model中…

Matlab(画图初阶)

目录 1.plot()函数 2. hold(添加新绘图是否保留旧绘图) 3. Plot Style 3.1 线型 3.2 标记 3.3 颜色 ​编辑 4. legend() 5.X 、Y and Title&#xff1f; 6. Text()和annotation() 7.line(创建基本线条) 7.1 基本语法 7.2 指定线条属性 7.3 更改线条属性 8.图像属性 8.1 …

HttPClient简介及示例:学习如何与Web服务器进行通信

文章目录 前言一、引入依赖二、使用步骤1.创建被调用者2.创建调用者三、结果被调用者服务&#xff1a;调用者服务&#xff1a; 总结 前言 欢迎来到本篇博客&#xff0c;这是一个关于HttPClient的入门案例的指南。&#x1f389; 在今天的网络世界中&#xff0c;与服务器进行数据…

精品基于SpringCloud实现的电影院购票系统设计-微服务-分布式

《[含文档PPT源码等]精品基于SpringCloud实现的电影院购票系统设计的设计与实现-微服务-分布式》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程等 软件开发环境及开发工具&#xff1a; 开发语言&#xff1a;Java 框架&#xff1a;springcloud JDK版…

JavaScript运行机制与实践应用

一、JavsScript运行机制 1、JavaScript 是一种解释型语言&#xff0c;它的执行机制主要包括以下几个步骤&#xff1a; 2、事件循环 3、JavaScript运行模型 4、JavaScript任务 5、JavaScript宏任务和微任务 6、案例分析 console.log(script start) setTimeout(function () {co…

同步与互斥

硬件指令 实现互斥&#xff1a;硬件指令&#xff0c;硬件实现的原子操作&#xff0c;不会被打断 tsl指令和xchg指令 当前指令执行完&#xff0c;才会检测中断 If the signal comes while an instruction is being executed, it is held until the execution of the instructi…

Mac 多版本jdk安装与切换

macOS上可以安装多个版本的jdk&#xff0c;方法如下&#xff1a; 1.下载jdk 在Oracle官网上下载不同版本的jdk&#xff1a; https://www.oracle.com/java/technologies/downloads/#java17 方案一 1.查看本机所有的jdk /usr/libexec/java_home -V3. 配置环境变量 打开bash_…

面经:安卓学习笔记

文章目录 1. Android系统架构2. Activity2.0 定义2.1 生命周期2.2 生命状态2.3 启动模式 3. Service3.1 定义3.2 两种启动方式3.3 生命周期3.4 跨进程service3.5 IntentService 4. BroadCastReceiver4.1 概念4.2 组成4.3 广播接收器的分类4.4 生命周期4.5 静态注册和动态注册 5…

游戏发行商能够提供什么服务?

游戏发行商可以为游戏开发者提供广泛的服务&#xff0c;以帮助他们将游戏成功地引入市场并取得更好的业绩。以下是游戏发行商可能提供的一些服务&#xff1a; 市场营销和宣传&#xff1a;发行商通常具有丰富的市场营销经验&#xff0c;可以制定并执行有效的宣传和营销策略。他们…

深度学习推荐系统(五)DeepCrossing模型及其在Criteo数据集上的应用

深度学习推荐系统(五)Deep&Crossing模型及其在Criteo数据集上的应用 在2016年&#xff0c; 随着微软的Deep Crossing&#xff0c; 谷歌的Wide&Deep以及FNN、PNN等一大批优秀的深度学习模型被提出&#xff0c; 推荐系统全面进入了深度学习时代&#xff0c; 时至今日&am…

githubPage部署Vue项目

github中新建项目 my-web &#xff08;编写vue项目代码&#xff09; myWebOnline(存放Vue打包后的dist包里面的文件) 发布流程 &#xff08;假设my-web项目已经编写完成&#xff09;Vue-cli my-web vue.config.js文件中 const { defineConfig } require(vue/cli-service)…

常用的msvcp140.dll丢失的解决方法,msvcp140.dll丢失的原因

自从电脑出现故障&#xff0c;我的生活变得一团糟。他每天都需要使用电脑处理工作&#xff0c;可是突然有一天&#xff0c;他发现许多软件和游戏都无法正常运行。错误提示显示“找不到msvcp140.dll”&#xff0c;这让他感到非常困扰。今天想和大家分享一个在计算机使用过程中经…