Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文

前言

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。

  • Huggingface模型下载:https://huggingface.co/CohereForAI/aya-23-8B

  • AI快站模型免费加速下载:https://aifasthub.com/models/CohereForAI

技术特点

Aya-23 基于 Cohere 自研的 Command 模型系列,并结合了 Aya 多语言指令风格数据集,旨在为 23 种语言提供强大的多语言理解和生成能力。

基于 Command 模型,拥有强大的性能基础

Aya 23 模型家族基于 Cohere Command 系列模型,该系列模型使用包含 23 种语言的混合数据进行预训练,并采用了一系列先进的技术,例如:

  • 并行注意力和 FFN 层: 类似于 PALM-2 模型,Aya 23 采用了并行块架构,在保持模型质量的同时,显著提高了训练效率,尤其是在张量并行设置下。

  • SwiGLU 激活函数: 与其他激活函数相比,SwiGLU 能够在保证参数量级基本一致的情况下,提升模型的下游任务性能。

  • 无偏置: 类似于 PALM2 模型,Aya 23 模型的密集层中去除了所有偏置项,提升了训练的稳定性。

  • 旋转位置编码: 使用旋转位置编码 (RoPE) 技术,能够更好地进行长文本外推,同时在短文本长度的情况下,也比其他相对位置编码方法,例如 ALiBi,取得更好的下游任务性能。

  • 分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力,每个 KV 头共享多个 Q 头,从而降低了推理时间的内存占用。

多语言指令风格数据集,提升模型的指令理解能力

为了提升模型对指令的理解能力,Aya 23 使用了多语言指令风格数据集,该数据集包含了来自 xP3x、Aya 和 Data Provenance 等多个数据集的样本,涵盖 23 种语言和 161 个不同的数据集。该数据集还包含了由母语使用者撰写的 204K 人工标注的提示词-响应对,以及通过机器翻译获得的多种语言指令数据集的翻译版本。

支持 23 种语言,涵盖更广泛的应用场景

Aya-23 模型家族支持 23 种语言,包括阿拉伯语、简体中文、繁体中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语,覆盖了全球约一半的人口。

性能表现

Aya-23 模型家族在各种语言、推理、编码和数学基准测试中均取得了优异的成绩,超越了同等大小甚至更大的模型,展现出了强大的多语言能力。

多语言任务评估

研究团队采用了 Üstün 等人提出的多语言评估框架,对 Aya 23 模型进行了全面评估,涵盖了 23 种语言,包括:

  • 未见过的识别任务: 在 XWinograd、XCOPA 和 XStoryCloze 等完全未见过的任务中,Aya-23-35B 模型取得了最佳表现,其平均准确率为 70.8%,超越了其他模型。

  • 通用语言理解: 在多语言 MMLU 测试中,Aya-23-8B 模型在 14 种语言中取得了最佳表现,其平均准确率为 48.2%,在大部分语言上超过了其他模型。

  • 多语言数学推理: 在 MGSM 测试中,Aya-23-8B 模型也取得了领先优势,其平均准确率为 36.6%,是同类模型中表现最优秀的,并且比 Aya-101-13B 提升了 4.5 倍。

  • 生成任务: 在机器翻译和多语言摘要任务中,Aya 23 模型也取得了显著的性能提升。

人类偏好评估

为了评估模型的开放式生成能力,研究团队进行了人类偏好评估,结果显示:

  • LLM 评估: 使用 GPT-4 作为评价模型,Aya 23 模型在 10 种语言中,针对不同规模的模型均表现出色,其平均获胜率均高于同类模型。

  • 人类评估: 人类评估人员在 5 种语言中,对 Aya 23 模型的生成结果给予了更高的评价,其平均获胜率高于 Aya-101-13B 模型。

开源发布

为了促进多语言模型技术的发展,Cohere 团队公开发布了 Aya-23 的 8B 和 35B 模型,为研究人员和开发者提供了更多选择,加速多语言模型技术的发展和应用。

应用场景

Aya-23 模型家族拥有广泛的应用场景,例如:

  • 机器翻译: 可以用于将一种语言的文本翻译成其他语言。

  • 文本摘要: 可以用于将长篇文本压缩成简短的摘要。

  • 问答系统: 可以用于回答用户的各种问题。

  • 内容创作: 可以用于生成各种类型的文本内容,例如新闻报道、故事、诗歌等。

总结

Aya-23 的发布,标志着多语言模型技术取得了新的突破,其卓越的性能和广泛的语言支持能力,为多语言模型的发展开辟了新的方向。随着技术的不断进步,相信 Aya-23 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多的便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/CohereForAI/aya-23-8B

AI快站模型免费加速下载

https://aifasthub.com/models/CohereForAI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/647901.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

cpolar内网穿透工具—无需部署,远程访问网址

文章目录 cpolar介绍安装教程隧道管理VIP客户cpolar介绍 cpolar是一种安全的内网穿透服务,它将局域网下面的本地服务器通过加密隧道暴露至公网,使得公网用户可以正常访问内网服务。 只需一行命令,就可以将内网站点发布至公网,方便给客户演示。高效调试微信公众号、小程序…

设计模式:适配器模式(Adapter)

设计模式:适配器模式(Adapter) 设计模式:适配器模式(Adapter)模式动机模式定义模式结构时序图模式实现在单线程环境下的测试在多线程环境下的测试模式分析优缺点适用场景应用场景应用实例适配器模式和代理模…

JAVA实现图书管理系统(初阶)

一.抽象出对象: 1.要有书架,图书,用户(包括普通用户,管理员用户)。根据这些我们可以建立几个包,来把繁杂的代码分开,再通过一个类来把这些,对象整合起来实现系统。说到整合&#xf…

Day04:CSS 进阶

目标:掌握复合选择器作用和写法;使用background属性添加背景效果 一、复合选择器 定义:由两个或多个基础选择器,通过不同的方式组合而成。 作用:更准确、更高效的选择目标元素(标签)。 1、后…

ros 学习记录(四)仿真环境中键盘控制turtlebot3运动

仿真环境中键盘控制turtlebot3运动 准备工作1. 监听键盘敲击:key_publisher.py2. 控制turtlebot3运动:keys_to_twist_using_rate.py3. 测试4. 数据监视 准备工作 名称版本ROSNoeticGazebo11.11.0python3.8.10 turtlebot3的安装与仿真环境搭建请看上一篇…

视频播放器-Kodi

一、前言 Kodi 是一款开源免费的多媒体播放软件。Kodi 是由非营利性技术联盟 Kodi 基金会开发的免费开源媒体播放器应用程序。 Kodi是一款免费和开源(遵循GPL协议)的多媒体播放器和娱乐中心软件,由XBMC基金会开发。Kodi的主要功能是管理和播…

three.js判断物体在人的前面,还是后面

three.js判断物体在人的前面,还是后面 const player new THREE.Vectors(10, 0, 5); const mesh new THREE.Vectors(15, 0, 6);上面,两个变量分别表示,玩家的位置,物体的位置。 从这发现,当玩家和物体的角度关系 小…

报错:c2665 ”loadimage“没有重载函数可以转换所有参数类型

解决方法: 右键项目选择属性-》高级-》字符集-》使用多字节字符集-》确定

SparkStreaming概述

Spark概述 SparkStreaming概述 Spark Streaming 是 Apache Spark 生态系统中的一个组件,用于实时流数据处理。它允许用户通过流式计算引擎处理实时数据流,并以低延迟的方式对数据进行分析、处理和存储。 背景 在大数据领域,传统的批处理系统…

什么是云渗透测试?

推荐阅读: 什么是安全态势? 什么是人肉搜索 什么是恶意软件? 什么是数字取证? 什么是语音网络钓鱼? 什么是网络安全中的社会工程? 什么是网络安全中的威胁情报? 什么是端点检测和响应 (…

Java进阶:详解与实战Java Stream API

Java进阶:详解与实战Java Stream API 🌟 Java进阶:详解与实战Java Stream API 🌟摘要引言一、Java Stream API介绍📚1. 什么是Java Stream API?2. Java Stream API支持的功能3. 使用Java Stream API的优势…

【vue3+elementuiplus】el-select下拉框会自动触发校验规则

场景:编辑弹框省份字段下拉框必填,触发方式change,有值第一次打开不会触发校验提示,关闭弹框再次打开触发必填校验提示,但是该字段有值 问题的原因是:在关闭弹层事件中,我做了resetfileds&…

react-d3-tree:React组件创建交互式D3树形图

在这里插入代码片import React from "react"; import ReactDOM from "react-dom"; import Tree from "react-d3-tree";import "./styles.css";const myTreeData [{name: "Gaurang Torvekar",attributes: {keyA: "val …

如何使用KNN

导入文件和库 加载数据集、拆分数据集 训练模型 预测 打印结果

自定义Linux命令,显示docker镜像、容器信息

1、修改环境变量(仅对当前用户有效) vim ~/.bashrc2、给命令取别名 alias dpsdocker ps --format "table{{.ID}}\t{{.Names}}\t{{.Status}}\t{{.Ports}}" alias disdocker images#保存并退出 :wq3、让配置重新生效 source ~/.bashrc4、测试&…

STM32F1之OV7725摄像头·SCCB总线代码编写附带源码详解

STM32F1之OV7725摄像头-CSDN博客 STM32F1之OV7725摄像头像素数据输出时序、FIFO 读写时序以及摄像头的驱动原理详解-CSDN博客 目录 1. 硬件设计 1.1 SCCB 控制相关 1.2 VGA 时序相关 1.3 FIFO 相关 1.4 XCLK 信号 2. 代码设计 2.1 SCCB总线软件实现 2.1.1 宏定…

【GUI开发基础】

GUI开发基础 🌟项目文件组成✨浅析Pro文件配置 🌟Qt设计师🌟剖析UI文件运行机制🌟UI设计方式✨可视化UI设计✨代码化UI设计 🌟项目文件组成 创建一个QtGUI项目: open QtCreator —> select Creator Pr…

Nvidia 如何成为 AI 训练的超级强国

周三,英伟达公布了第一季度的财务业绩,再次超出了分析师的预期。在截至 4 月 28 日的季度中,该公司的利润同比飙升 262%,股价一度创下 1000 美元以上的新高。 目前,英伟达的市值超过 2.3 万亿美元,是全球第…

从0开始学统计-什么是相关?

1.什么是统计学相关? 在统计学中,“相关”(Correlation)是指两个变量之间的线性关系程度。相关关系可以表明两个变量在某种程度上共同变化的趋势,但不意味着因果关系。相关的主要衡量方法是相关系数(Correlation Coe…

【Linux-INPUT输入的子系统】

Linux-INPUT输入的子系统 ■ input 子系统简介■ input 驱动编写流程■ ■ input 子系统简介 input 子系统就是管理输入的子系统, input 子系统分为 input 驱动层、 input 核心层、 input 事件处理层,最终给用户空间提供可访问的设备节点 ■ input 驱…