Python 猎户星空Orion-14B,截止到目前为止,各评测指标均名列前茅,综合指标最强;Orion-14B表现强大,LLMs大模型

1.简介

        Orion-14B-Base是一个具有140亿参数的多语种大模型,该模型在一个包含2.5万亿token的多样化数据集上进行了训练,涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-14B系列模型表现优异,多项指标显著超越同等参数基本的其他模型。

2.训练过程

1).其预训练数据构成

2)数据的Tokenizer长度

3)模型结构对比

4)训练过程

5)损失下降情况

         进入指令微调阶段:总共用85w训练对进行有监督微调

6)模型评估阶段:应用大模型常用的评估数据集进行评估,包括以下数据集

 

7)评估结果

         模型数据主要为中文和英语,但是也添加了其它语言来增强多语言方面的表现,像日语和韩语,但是评估结果这里略过,有兴趣的朋友去阅读原文。

8)其他工作

  • Orion-14B-Base: 基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
  • Orion-14B-Chat: 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
  • Orion-14B-LongChat: 在200k token长度上效果优异,最长可支持可达320k,在长文本评估集上性能比肩专有模型。
  • Orion-14B-Chat-RAG: 在一个定制的检索增强生成数据集上进行微调的聊天模型,在检索增强生成任务中取得了卓越的性能。
  • Orion-14B-Chat-Plugin: 专门针对插件和函数调用任务定制的聊天模型,非常适用于使用代理的相关场景,其中大语言模型充当插件和函数调用系统。
  • Orion-14B-Base-Int4: 一个使用int4进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
  • Orion-14B-Chat-Int4: 一个使用int4进行量化的对话模型。

9)模型特点

  • Orion-14B系列大模型有以下几个特点:

    • 基座20B参数级别大模型综合评测效果表现优异
    • 多语言能力强,在日语、韩语测试集上显著领先
    • 微调模型适应性强,在人类标注盲测中,表现突出
    • 长上下文版本支持超长文本,在200k token长度上效果优异,最长可支持可达320k
    • 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%

3.下载路径

发布模型和下载链接见下表:

模型名称HuggingFace下载链接ModelScope下载链接
⚾ 基座模型Orion-14B-BaseOrion-14B-Base
😛 对话模型Orion-14B-ChatOrion-14B-Chat
📃 长上下文模型Orion-14B-LongChatOrion-14B-LongChat
🔎 检索增强模型Orion-14B-Chat-RAGOrion-14B-Chat-RAG
🔌 插件模型Orion-14B-Chat-PluginOrion-14B-Chat-Plugin
💼 基座Int4量化模型Orion-14B-Base-Int4Orion-14B-Base-Int4
📦 对话Int4量化模型Orion-14B-Chat-Int4Orion-14B-Chat-Int4

4.模型推理

推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从 Hugging Face 下载所需资源。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig

tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-14B", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-14B", device_map="auto",
                                             torch_dtype=torch.bfloat16, trust_remote_code=True)

model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-14B")
messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
response = model.chat(tokenizer, messages, streaming=Flase)
print(response)

在上述两段代码中,模型加载指定 device_map='auto' ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 export CUDA_VISIBLE_DEVICES=0,1(使用了0、1号显卡)的方式控制。

命令行工具方式

CUDA_VISIBLE_DEVICES=0 python cli_demo.py 

本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。 

脚本直接推理 

# base model
CUDA_VISIBLE_DEVICES=0 python demo/text_generation_base.py --model OrionStarAI/Orion-14B --tokenizer OrionStarAI/Orion-14B --prompt 你好,你叫什么名字

# chat model
CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-14B-Chat --tokenizer OrionStarAI/Orion-14B-Chat --prompt 你好,你叫什么名字

 示例输出:闲聊

用户:你好,你叫什么名字
Orion-14B:你好!我是一个人工智能助手,没有固定的名字。你可以随意称呼我。有什么我可以帮助你的吗?
用户:讲个故事
Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。

  有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。

  杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。

  经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。

  房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。

  格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。

  经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。

  杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。

  从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。

  这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。

 日韩 

 用户:自己を紹介してください
Orion-14B:こんにちは、私の名前はChatMaxで、OrionStarによって開発されたAIアシスタントです。私はユーザーに正確で、客観的で、有用な回答を提供し、彼らが問題を解決し、情報を取得するのを助けることができます。
用户:자기소개를 해주세요.
Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하고 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.

5.大模型链接

https://github.com/OrionStarAI/Orion/tree/master 

HuggingFace链接

https://huggingface.co/OrionStarAI 

         

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/342007.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt —— 自定义飞机仪表控件(附源码)

示例效果 部署环境 本人亲测版本Vs2017+Qt5.12.4,其他版本应该也可使用。 源码1 qfi_ADI::qfi_ADI( QWidget *parent ) :QGraphicsView ( parent ),m_scene ( nullptr )

英语连读技巧12

1. this thing – 这件事 连读听起来就像是:【the sing】 连读的音标为: 例句:i cannot get this thing off my mind. 发音指导:注意 “this” 和 “thing” 两个词在连读时,“s” 和 “th” 的音接近融合&#xf…

浏览器提示“此网站的安全证书有问题”

有时候在浏览一些网站的时候,点进去的时候不是直接显示内容,而是弹出来一个警告的界面,告诉你此网站的安全证书有问题,浏览器是建议你不要再继续访问了,当然你也可以选择继续访问。那么,你还敢继续访问一个…

2.1.2 关系模式

1. 什么是关系模式 2. 定义关系模式 3. 关系模式与关系 1.什么是关系模式 关系模式是型,关系是值 。 关系模式是对关系的描述: 描述关系元组集合的结构 , 属性构成 l,属性来自的域 l&#…

品牌营销:长期价值与潜在利益的共赢之路

在当今品牌营销面临着前所未有的挑战。品牌信息的传递不仅需要迅速,更要持久。而在这个过程中,产品的长期价值和潜在利益成为品牌营销的核心。本文迅腾文化将通过奥卡姆剃刀定律和霍夫曼编码的视角,探讨品牌营销如何实现长期价值和潜在利益的…

gitlab.rb主要配置

根据是否docker安装,进入挂载目录或安装目录 修改此文件,我一般是在可视化窗口中修改,有时候也在命令行手敲 将下面的配置复制到该文件中 external_url http://192.168.100.50 # nginx[listen_port] = 8000 (docker安装的这一行不需要,因为端口映射导致此处修改会导致访问…

助力公益事业,吉林长春市第二社会福利院与清雷科技达成合作

“通过部署清雷科技智慧康养大屏和毫米波雷达监测设备,可以实时查看全院入住人员的生命体征情况,包括呼吸、心率、在离床状态、睡眠报告等,对呼吸异常、跌倒风险异常的人员还会特别标注提醒,提高护理员工作效率的同时,…

SCT9430TVBR:3.8V-36V输入,3A同步降压DCDC转换器

• 通过开关节点无振铃降低 EMI • 400KHz固定开关频率,6% 抖频拓展频谱 • 轻载条件下的脉冲跳跃模式 PSM • 3.8V-36V 宽输入电压范围 • 最大连续3A输出负载 • 0.8V 1% 反馈参考电压 • 集成80mΩ (Rdson) 上端MOSFET 和 42mΩ (Rdson) 下端MOSFET • 1uA 关断电…

【机组】指令控制模块实验的解密与实战

​🌈个人主页:Sarapines Programmer🔥 系列专栏:《机组 | 模块单元实验》⏰诗赋清音:云生高巅梦远游, 星光点缀碧海愁。 山川深邃情难晤, 剑气凌云志自修。 ​ 目录 🌺一、 实验目…

Redis——RDB持久化

前言 Redis是一个键值对数据库服务器,服务器中通常包含任意个非空数据库,而每个非空数据库中又可以包含任意个键值对,为了方便起见,我们将服务器中的非空数据库以及它们的键值对统称为数据库状态。 因为Redis数据库是内存数据库&a…

如何在Docker上运行Redis

环境: 1.windows系统下的Docker deckstop 1.Pull Redis镜像 2.运行Redis镜像 此时,Redis已经启动,我们登录IDEA查看下是否连接上了 显示连接成功,证明已经连接上Docker上的Redis了

INTEWORK—PET 汽车软件持续集成平台

产品概述 INTEWORK-PET-CI是经纬恒润自主研发的汽车软件持续集成&持续交付平台,在传统的持续集成基础上深化了研运一体化(DevOps)的概念,将嵌入式软件中的拉取代码、检查、构建、测试、版本管理以及发布交付等环节串联起来&am…

大模型学习与实践笔记(十一)

一、使用OpenCompass 对模型进行测评 1.环境安装: git clone https://github.com/open-compass/opencompass cd opencompass pip install -e . 当github超时无法访问时,可以在原命令基础上加上地址: https://mirror.ghproxy.com git clon…

〔保姆级教学〕2024华数杯国际赛B题完整参考论文22页+四小问matlab代码+数据集+可视化高清图表

光伏发电 一、问题分析(完整资料在文末) 问题一: 首先题目要求得到电能行业与经济状况、居民消费水平、城市化率和市场化程度等因素的关系,并对供电量进行预测。其中,电能采用供电量数据、经济采用GDP数据&#xff…

JavaEE 网络原理

JavaEE 网络原理 文章目录 JavaEE 网络原理1. 网络互连1.1 局域网LAN1.2 广域网WAN 2. 网络通信基础2.1 IP地址2.2 端口号 3. 网络协议3.1 概念3.2 五元组3.3 协议分层3.4 TCP/IP 五层模型3.5 封装和分用 1. 网络互连 随着时代的发展,需要多个计算机协同工作来完成…

一款自动化提权工具

免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删除。…

Unity3D控制人物移动的多种方法

系列文章目录 unity知识点 文章目录 系列文章目录前言一、人物移动之键盘移动1-1、代码如下1-2、效果 二、人物移动之跟随鼠标点击移动2-1、代码如下2-2、效果 三、人物移动之刚体移动3-1、代码如下3-2、效果 四、人物移动之第一人称控制器移动4-1、代码如下4-2、效果 五、And…

Java缓存介绍

一、什么是缓存 1、Cache是高速缓冲存储器 一种特殊的存储器子系统,其中复制了频繁使用的数据以利于快速访问 2、凡是位于速度相差较大的两种硬件/软件之间的,用于协调两者数据传输速度差异的结构,均可称之为 Cache 二、缓存的分类 1、基于…

全文干货!信息化和数字化的本质区别是什么?

信息化和数字化都是行业的发展方向,但有一些区别。 简单来说就是,信息化侧重系统建设,用以管理生成的信息与数据,通常包括建立OA办公系统、业务系统、财务管理系统、客户关系管理系统和人力管理系统等。数字化侧重于将物理业务和…

CC工具箱使用指南:【用地用海代码和名称转换】

一、简介 在国土空间规划中,用地用海的名称和代码是一一对应的,手动修改用地代码后,还需要相应的修改名称,纯纯的重复工作,因此做了这个工具。 工具可以实现用地编码转名称、名称转编码,并且同时支持新旧…