大语言模型(LLM)框架及微调 (Fine Tuning)

        大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。

        LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。

        LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。

         LLM 技术应用类型分别为 大模型、AI编程、工具和平台、基础设施、算力等。

一、LLM技术背景

        Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。

        GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的方法为语言任务提供了前所未有的性能,以此为基础,多模态融合的应用使得 LLM 更全面地处理各种信息,支持更广泛的应用领域。

 图源:https://postgresml.org/docs/.gitbook/assets/ml_system.svg

二、LLM底座基础设施

2.1、向量数据库及向量支持

        向量数据库是专门用于存储和检索向量数据的数据库,它可以为 LLM 提供高效的存储和检索能力。通过数据向量化,实现了在向量数据库中进行高效的相似性计算和查询。 根据向量数据库的的实现方式,可以将向量数据库大致分为两类:

        向量数据库:原生的向量数据库专门为存储和检索向量而设计, 所管理的数据是基于对象或数据点的向量表示进行 组织和索引。 包括 Chroma、LanceDB、Margo、Milvus、Pinecone等均属于原生向量数据库。

        传统数据库支持向量:除了选择专业的向量数据库,对传统数据库添加“向量支持”也是主流方案。比如Redis、PostgreSQL、ClickHome、Elasticsearch等传统数据库均已支持向量检索。

向量数据库市场及融资情况

        ChatGPT 问世以来,大模型星火初始,向量数据 库不但获得了技术领域的关注,也逐渐吸引了市场和资本的注 意力。近两年来,向量数据库公司迎来了一波融资潮:

2.2、LLM大模型框架及微调

        大模型框架指专门设计用于构建、训练和部署大型机器 学习模型和深度学习模型的软件框架。这些框架提供了 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。

        微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、特定领域的数据集对模型进行后续训练,以使 其更好地适应特定的任务或应用场景。这一步骤使得通 用的大型模型能够在特定任务上表现出更高的精度和更 好的效果。

        大模型框架提供了 LLM 的基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节。两者相结合, 使得 LLM 在广泛的应用场景中都能发挥出色的性能。

 2.2、LLM大模型框架特点

        抽象和简化:大模型开发框架通过提供高 层次的 API 简化了复杂模型的构建过程。这 些 API 抽象掉了许多底层细节,使开发者能 够专注于模型的设计和训练策略

        性能优化:这些框架经过优化,以充分利用 GPU、TPU 等高性能计算硬件,以加速模型 的训练和推理过程。

        大型数据集:它们提供工具来有效地加 载、处理和迭代大型数据集,这对于训练大 型模型尤为重要。

        生态扩展:为了处理大型数据集和大规模参 数网络,这些框架通常设计得易于水平扩展, 支持在多个处理器或多个服务器上并行处理。

        国产深度学习框架 OneFlow 架构 (图源:https://www.oneflow.org/a/chanpin/oneflow/)

2.3、微调模型步骤

1.选择预训练模型:选取一个已经在大量数据上进 行过预训练的模型作为起点;

2.准备任务特定数据:收集与目标任务直接相关的 数据集,这些数据将用于微调模型;

3.微调训练:在任务特定数据上训练预训练的模型, 调整模型参数以适应特定任务;

4.评估:在验证集上评估模型性能,确保模型对新 数据有良好的泛化能力;

5.部署:将性能经验证的模型部署到实际应用中去。

 微调的过程也是分类模型训练的过程

(图源:https://medium.com/mlearning-ai/what-is-a-fine-tuned-llm-67bf0b5df081)

 原文:《LLM技术报告》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/279471.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

初识隧道代理HTTP:理解基础概念的重要性

嗨,小伙伴们!如果你对网络世界充满好奇,那么这篇文章就是为你准备的。我们将一起踏上一段奇妙的旅程,探索一个叫做“隧道代理HTTP”的新领域。但在这之前,我们需要先穿上“基础概念”的防护服,以免被这个复…

Ubuntu22.04 安装教程

系统下载 Ubuntu官网下载 清华源镜像 安装流程 1. 选择安装语言 2. 选择是否在安装时更新 为了系统安装速度一般选择安装时不更新,安装后自行更新 3. 选择系统语言和键盘布局 4. 选择安装模式 5. 配置网络信息 6. 设置静态IP 7. 配置代理信息 8. 配置Ubuntu镜像…

【c/c++】指针例图基础详解

文章目录 指针变量内存指针详解例1例2练习&答案解析 指针变量内存 int main(){// 各类型变量占字节数printf("char: %d\n",sizeof(char)); // 1printf("short: %d\n",sizeof(short)); // 2printf("int: %d\n",sizeof(int)); // 4pri…

【Linux系统化学习】进程终止的奥秘

个人主页点击直达:小白不是程序媛 Linux专栏:Liunx系统化学习 代码仓库:Gitee 目录 获取函数返回值 退出码 进程退出的场景 错误码 信号终止异常代码 进程的终止 main函数直接return exit函数 _exit函数 获取函数返回值 在C语言学…

用anaconda下载安装pytorch1.8.2+cudatoolkit11.1

用anaconda下载安装pytorch1.8.1cudatoolkit11.1 设置清华镜像下载: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda con…

【Linux】chage命令使用

chage命令 chage用来更改linux用户密码到期信息,包括密码修改间隔最短、最长日期、密码失效时间等。 语法 chage [参数] 用户名 chage命令 -Linux手册页 选项及作用 执行令 : chage --help 执行命令结果 参数 -d, --lastday 最近日期 …

Python圣诞树代码

Python圣诞树代码 # 小黄 2023/12/25import turtle as t # as就是取个别名,后续调用的t都是turtle from turtle import * import random as rn 100.0speed(20) # 定义速度 pensize(5) # 画笔宽度 screensize(800, 800, bgblack) # 定义背景颜色,可…

WPF 显示气泡提示框

气泡提示框应用举例 有时候在我们开发的软件经常会遇到需要提示用户的地方,为了让用户更直观,快速了解提示信息,使用简洁、好看又方便的气泡提示框显得更加方便,更具人性化。如下面例子:(当用户未输入账号时&#xff0…

Vue学习day_03

普通组件的注册 局部注册: 创建一个components的文件夹 在里面写上对应的.vue文件 在对应的vue里面写上对应的3部分 template写上对应的核心代码 盒子等 style 写上对应的css修饰 在App.vue里面进行引用 import 导包 格式是 import 起个名字 from 位置 在写一个component…

javaweb基础2.0 (持续更新中)

Day 10 : Responbody 将响应的实体类转为json发送给前端。RequestBody将request的json转为实体类给后端 修改未成功的可能是因为根据id 查询的时候,只查询了name字段,因为后面需要根据id 修改,所以还需查询id ,不然前端不知道id也…

回归预测 | Python实现OOA-LightGBM基于人工鱼鹰优化算法优化LightGBM的多输入单输出数据回归预测模型 (多指标,多图)

回归预测 | Python实现OOA-LightGBM基于人工鱼鹰优化算法优化LightGBM的多输入单输出数据回归预测模型 (多指标,多图) 目录 回归预测 | Python实现OOA-LightGBM基于人工鱼鹰优化算法优化LightGBM的多输入单输出数据回归预测模型 (…

STM32 ESP8266 物联网智能温室大棚 源码PCB原理图 设计文档

资料下载: https://download.csdn.net/download/vvoennvv/88680924 一、概述 本系统以STM32F103C8T6单片机为主控芯片,采用相关传感器构建系统硬件电路。其中使用DHT11温湿度传感器对温度和湿度的采集,MQ-7一氧化碳传感器检测CO浓度,GP2Y101…

nginx日志常见报错解决

目录 一:报错 二:php查看后台内容有的栏目出现502? 三:413 Request Entity Too Large? 四:Request Header Or Cookie Too Large 400 一:报错 upstream prematurely closed connection while reading r…

Java之程序、进程、线程、管程和并发、并行的概念

文章目录 1. 进程与线程1.1 程序1.2 进程1.3 线程1.4 管程 2.并行与并发2.1 并发2.2 并行 1. 进程与线程 1.1 程序 程序是指令和数据的有序集合,其本身没有任何运行的含义,是一个静态的概念。简单的说就是我们写的代码。 1.2 进程 (1&…

C# 使用ZXing.Net识别二维码和条码

目录 写在前面 代码实现 调用示例 写在前面 上一篇写了 C# 使用ZXing.Net生成二维码和条码-CSDN博客 使用ZXing.Net解码非常简单,事实上就只用一行代码就好了,这么简单那为什么还要贴在这里呢,原因是开始时,在网上看资料看到…

【项目管理】CMMI-项目总结报告模版

1、文档目录结构 2、计划与实际情况对比 3、开放工作评价

【每日一题】一周中的第几天

文章目录 Tag题目来源解题思路方法一:模拟 写在最后 Tag 【模拟】【数学】【2023-12-30】 题目来源 1185. 一周中的第几天 解题思路 方法一:模拟 思路 题目中的日期是在 1971 到 2100 年之间的有效日期,即 1971-01-01 到 2100-12-31 范围…

ssm基于web的志愿者管理系统的设计与实现+vue论文

摘 要 使用旧方法对志愿者管理系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在志愿者管理系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的志愿者…

GitHub 一周热点汇总 第3期 (2023/12/24-12/30)

GitHub一周热点汇总第三期 (2023/12/24-12/30),梳理每周热门的GitHub项目,了解热点技术趋势,掌握前沿科技方向,发掘更多商机。元旦就要到了,提前祝大家新年快乐。 #1 StreamDiffusion 项目名称:StreamDiff…

AIGC开发:调用openai的API接口实现简单机器人

简介 开始进行最简单的使用:通过API调用openai的模型能力 OpenAI的能力如下图: 文本生成模型 OpenAI 的文本生成模型(通常称为生成式预训练 Transformer 或大型语言模型)经过训练可以理解自然语言、代码和图像。这些模型提供文…