Nous Hermes 2:超越Mixtral 8x7B的MOE模型新高度

引言

随着人工智能技术的迅猛发展,开源大模型在近几年成为了AI领域的热点。最近,Nous Research公司发布了其基于Mixtral 8x7B开发的新型大模型——Nous Hermes 2,这一模型在多项基准测试中超越了Mixtral 8x7B Instruct,标志着MOE(Mixture of Experts,专家混合模型)技术的新突破。

  • Huggingface模型下载:https://huggingface.co/NousResearch

  • AI快站模型免费加速下载:https://aifasthub.com/models/NousResearch

MOE模型的技术优势

MOE模型,即“专家混合模型”,是一种将多个不同的模型组合在一起,使它们在处理特定任务时能够相互补充并提高整体性能的方法。这种方法的优势在于它能有效地整合不同模型的专业知识,从而提高处理复杂任务的能力。Nous Hermes 2正是基于此技术构建,通过融合多个“专家”模型,使得整体性能得到显著提升。

Nous Hermes 2的核心特性

Nous Hermes 2是在Mixtral 8x7B的基础上通过进一步微调而成。这个模型通过SFT(Supervised Fine-Tuning,有监督微调)和DPO(Distributed Pseudo Output,分布式伪输出)两种方法得到优化,分别发布了两个版本:Nous Hermes 2 Mixtral 8x7B SFT和Nous Hermes 2 Mixtral 8x7B DPO。这两个版本都展示了在多个基准测试中的卓越性能。

Nous Hermes 2的性能评测

Nous Hermes 2在多个评测标准上均展示出了其卓越的性能。在GPT4All、AGI-Eval以及BigBench推理测试中,Nous Hermes 2均取得了高于Mixtral Instruct的成绩。特别是在GPT4All测试中,Nous Hermes 2的平均成绩达到了75.7%,在AGI-Eval的平均成绩为46.05%,而在BigBench的平均成绩为49.7%。

  • 在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。

  • 在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。

  • 此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。

Nous Hermes 2与其他主流模型的比较

Nous Hermes 2与其他主流的大模型如GPT-3.5 Turbo、Claude-2.1、Gemini Pro等相比,在多个方面展现了更为出色的性能。尤其在处理语言理解、推理以及代码编写等任务时,Nous Hermes 2的性能更是领先。

  • 为数据可视化编写代码

  • 写赛博朋克迷幻诗

  • 根据输入文本创建提示

结论

Nous Hermes 2的发布,不仅标志着MOE模型技术的一次重大进步,也展现了开源大模型在人工智能领域的潜力。这一成就的取得,为未来AI技术的发展提供了新的方向,并为广大研究者和开发者提供了更多的可能性。

模型下载

Huggingface模型下载

https://huggingface.co/NousResearch

AI快站模型免费加速下载

https://aifasthub.com/models/NousResearch

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/361792.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

docker-学习-2

docker学习第二天 docker学习第二天1.docker和虚拟机的区别2.docker的底层隔离机制2.1 Namespaces(命名空间)2.1.1 什么是命名空间 2.2 Cgroups2.3 Union file systems2.4 Container format2.5 docker在底层如何做隔离的,如何进行资源限制的? 3. docker命…

【数据分享】1929-2023年全球站点的逐日最高气温数据(Shp\Excel\免费获取)

气象数据是在各项研究中都经常使用的数据,气象指标包括气温、风速、降水、湿度等指标,其中又以气温指标最为常用!说到气温数据,最详细的气温数据是具体到气象监测站点的气温数据! 之前我们分享过1929-2023年全球气象站…

rabbitmq基础-java-2、work模型

1、简介 工作队列模式(Work Queue Mode):在这个模型中,生产者同样将消息发送到队列,但多个消费者可以从队列中获取消息并发处理。这意味着不同的消费者可以独立地处理各自的任务,从而提高效率。 2、消息发送…

大华智能物联综合管理平台 任意文件读取漏洞复现(QVD-2023-45063)

0x01 产品简介 大华ICC智能物联综合管理平台对技术组件进行模块化和松耦合,将解决方案分层分级,提高面向智慧物联的数据接入与生态合作能力。 0x02 漏洞概述 大华ICC智能物联综合管理平台 readpic接口处存在任意文件读取漏洞,未经身份验证…

JSON巨匠:FastJSON的序列化解析

Fastjson 简介 Fastjson 是一个 Java 库,可以将 Java 对象转换为 JSON 格式,当然它也可以将 JSON 字符串转换为 Java 对象。 Fastjson 可以操作任何 Java 对象,即使是一些预先存在的没有源码的对象。 Fastjson 源码地址:https://…

Advanced CNN

文章目录 回顾Google NetInception1*1卷积Inception模块的实现网络构建完整代码 ResNet残差模块 Resedual Block残差网络的简单应用残差实现的代码 练习 回顾 这是一个简单的线性的卷积神经网络 然而有很多更为复杂的卷积神经网络。 Google Net Google Net 也叫Inception V…

轻量式RPC调用日志链路设计方案

导语: 调用链跟踪系统,又称为tracing,是微服务设计架构中,从系统层面对整体的monitoring和profiling的一种技术手 背景说明 由于我们的项目是微服务方向,中后台服务调用链路过深,追踪路径过长,其中某个服务报错或者异…

探索设计模式的魅力:精准解读桥接模式-用桥接模式构建可扩展的软件系统

设计模式专栏:http://t.csdnimg.cn/nolNS 目录 一、了解桥接模式:探索抽象和实现的分离 1.1 开-闭原则 1.2 组合/聚合复用原则 1.3 定义 1.4 用意 1.5 基本思想 1.6 组成部分 1.7 桥梁模式的示意性系统的结构图 二、桥接模式的优势&#xff1a…

torchvision.models._utils.IntermediateLayerGetter()使用

torchvision.models._utils.IntermediateLayerGetter()使用 源码如下: from collections import OrderedDictimport torch from torch import nnclass IntermediateLayerGetter(nn.ModuleDict):"""Module wrapper that ret…

【Tomcat与网络6】 Tomcat是如何扩展Java线程池的?

目录 1.Java 的线程池 2.Tomcat 的线程池 学习Tomcat的时候,有很多绚丽的技术值得我们学习,但是个人认为Tomcat的线程池扩展是最值得研究的一个部分,线程池的应用太广了,也重要了,Java原生线程池的特征我相信很多人都…

matlab中的图窗属性和坐标轴的属性

图窗的Position和Outerposition Position 指定窗口的尺寸和窗口在屏幕中的位置。 Outerposition 指定窗口外轮廓的大小和位置。 两者都是用一个4维向量来定义,格式为[左 底 宽 高]。 可通过set函数修改Position和Outerposition,如下:在屏幕左…

adb 无线连接 操作Android设备

最近集五福活动比较热门 可以用这个工具 用自己擅长的语言写一个循环程序 运行起来就可以 自动帮我们 看视频得福卡了 很方便 while (true) {sleep(mt_rand(15, 25));system(adb shell input swipe 500 2000 500 1000 100); } 1. 首先下载 安卓开发工具 adb adb网盘链接 链接…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Gauge组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Gauge组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Gauge组件 数据量规图表组件,用于将数据展示为环形图表。 子组件 无…

解决H5中IOS手机底部被弹出键盘遮挡问题

在开发移动端的H5应用时,我们经常会遇到一个问题,就是在iOS手机上,当输入框获取焦点并弹出键盘时,键盘会遮挡住页面底部的内容,给用户带来不便。本文将介绍一种很巧妙的解决方案,通过滚动页面的方式&#x…

AI智能分析+明厨亮灶智慧管理平台助力“舌尖上的安全”

春节是中国最重要的传统节日之一,在春节期间,人们聚餐需求激增,餐饮业也迎来了高峰期。在这个时期,餐饮企业需要更加注重食品安全和卫生质量,以保证消费者的健康和权益,明厨亮灶智慧管理成为了餐饮业中备受…

【spring】springcloud中的组件有那些?

🍎个人博客:个人主页 🏆个人专栏:spring ⛳️ 功不唐捐,玉汝于成 目录 正文 我的其他博客 正文 说出主要的组件: Spring Cloud Eureka,服务注册中心,特性有失效剔除、服务保护Spring Cloud Zuul,API服…

【python】使用GtkPaned的程序

一、GTK小部件(widgets) GTK(GIMP Toolkit)是一种广泛使用的图形用户界面工具包,用于创建跨平台的GUI应用程序。它提供了许多构建用户界面的控件,称为"小部件"(widgets)。…

ArrayList集合初始化长度是多少,初始化的时候分配内存空间吗

ArrayList一旦初始化,在内存中就会分配空间吗 是的,当ArrayList在Java中初始化时,即使它没有添加任何元素,也会立即分配内存空间。具体来说,对于默认构造函数创建的ArrayList(即不指定初始容量&#xff09…

idea/webstorm 创建Vue实例 Unresolved type Vue 处理方法

1.电脑本地安装node.js 官网下载 2. 其他: 未排除变量,前期试错(以下步骤配置了,但不确定对解决问题是否有帮助)

EasyExcel根据对应的实体类模板完成多个sheet的写入与读取

1.展示模板一的实体类 import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentRowHeight; import com.alibaba.excel.annotation.write.style.HeadRowH…