大语言模型垂直化训练技术与应用

在人工智能领域,大语言模型(Large Language Models, LLMs)已经成为推动技术进步的关键力量,垂直化训练技术逐渐成为研究的热点,它使得大模型能够更精准地服务于特定行业和应用场景。本文结合达观数据的分享,探讨大语言模型的垂直化训练技术及其在不同领域的应用实践。
在这里插入图片描述

大语言模型的垂直化训练:定义与重要性

垂直化训练技术指的是针对特定行业或应用场景,对大语言模型进行定制化训练,使其能够更好地理解和生成特定领域的内容。这种训练方式的重要性在于,它能够提高模型在特定任务上的表现,同时减少对通用数据的依赖。
垂直领域AIGC应用的关键点

对现有的GPT模型进一步挖掘潜力,生成更有性价比的垂直大模型方案
对优质训练数据的蒸馏加工,更好的体现垂直化、专业化的应用
为toB客户量身打造好的大模型方案,探索更好的效果和高价值应用场景
针对垂直应用场景,值得探索prompt等产品创新和功能增强

垂直化训练的难点

  • 数据专业性:需要获取和处理大量高质量的专业领域数据。
  • 模型泛化能力:在提升特定领域能力的同时,保持模型在通用任务上的表现。
  • 资源投入:相较于通用模型训练,垂直化训练可能需要更多的领域专家参与和更精细的数据处理。

大语言模型的垂直化训练技术

参数规模与数据规模的探索

  • Scaling Laws:研究表明,模型的效果与参数量、数据量、计算量呈幂次关系,即模型参数量和训练数据量的增加可以显著提升模型性能。
  • Compute-Optimal:研究提出,训练数据大小应与模型参数量等比放大,以达到最优的计算效率。
  • Open and Efficient:例如,Meta推出的LLaMA模型显示,即使在百亿参数规模,经过大量数据训练后,模型性能仍有显著提升。

在这里插入图片描述
研究给出了三种最优计算方式,并且比较了如GPT-3(175B)等千亿模型并没有达到该理论的计算最优点。意味着GPT-3仍未被充分训练(下图)
换言之,当下的干亿参数模型,可能只发挥到了百亿模型的理论效果,一些参数可能被浪费了。
在这里插入图片描述
同时可以看到在训练过程中,无论是65B、33B、17B,甚至7B的小模型,在训练数据接近和超过万亿Token之后,下游任务的效果仍在提升(下图)。故此可推测,百亿模型的潜力仍有待深入挖掘,尤其在算力资源受限的情况下存在性价比更高的优化空间
在这里插入图片描述

垂直领域预训练路线

垂直领域大模型预训练的三种思路
在这里插入图片描述

自适应预训练

路线1:先大规模通用语料预训练,再用小规模领域语料预训练。在大规模通用语料预训练的基础上,使用小规模领域语料进行二次训练,以提升模型在特定领域的表现。
代表模型 GPT3-Codex、Yuyuan-GPT2-3.5B、金融领域FinBERT、生物医学领域BiOBERT等
领域自适应预训练(Domain-Adaptive Pre-Training,DAPT):在模型预训练权重上喂领域语料继续预训练
任务自适应预训练(Task-Adaptive Pre-Traininq,TAPT):在领域任务数据集上继续预训练
在这里插入图片描述

OpenAI 探索:当涉及与Code领域无关的文本生成时,Codex的生成和GPT-3的生成差异不大,体现在两者有很多共现的词,区别在于GPT3表述的多样性。
在这里插入图片描述

有可能是小规模领域语料预训练后的大模型在自身领域内相比通用大模型增强,而在通用生成上表现与通用大模型相当

直接大规模领域语料预训练

路线2:直接进行大规模领域语料预训练
代表模型:医学领域PubMedGPT2.7B、金融领域BBT-FinT5
数据规模百亿~干亿tokens
模型规模1B~10B
在这里插入图片描述

垂直领域大模型在领域上的各任务上通用性 >>小模型
垂直领域大模型在领域任务上效果 >相同规模的通用大模型再finetune
垂直领域大模型所用资源<<通用大模型(数据规模和模型规模),就能达到和超大规模模型在领域上接近的效果

领域语料混合训练

路线3:通用语料比例混合领域语料同时预训练,尚无明确的此类模型。
在这里插入图片描述

微调技术探索

增量微调(Delta-tuning)

只更新模型中的少量参数,以降低微调成本,同时保持模型性能。
目标:降低大模型微调成本。由于模型规模的增大,传统微调的方法变得难以实现。更高效率的微调方式,因而称之为增量微调(Delta-tuning)的方法被提出。
方法:Delta tuning只更新少量参数,同时冻结其余占绝大多数的参数。这些年来的研究中,以下几种方法较有代表性:

  • Adapter tuning:在PLM的层之间插入适配器模块,并且只有这些插入的模块在微调期间得到更新。
  • Prefix tuning:通过更新预先插入的参数来调整PLM
  • Prompt tuning:更新任务特定的可训练参数
  • BitFit:只更新PLM中的偏差项,同时冻结PLM其余参数。
  • LORA:将注意力权重梯度分解为低秩矩阵,以减少可训练参数的数量。

在这里插入图片描述
结果显示,delta tuniq和fine tuning之间的差距并非不可逾越,这证明了参数有效自适应的大规模应用的潜力。

多任务提示/指令微调

目标:提升语言模型在多任务中的零样本推理能力。
方法:在多任务数据集上进行微调。微调后的语言模型具有很强的零任务概括能力。
在这里插入图片描述

多任务微调也是很多大模型的常用手段。

COT(Chain-of-Thought)微调

目标:使小语言模型获得思维链能力。
大模型的思维链能力,指的是一步一步地展示推理过程能力。但是,研究者发现,小语言模型(通常小于100B)几乎很难获得这种能力。
为了使小模型也拥有思维链的能力,多个研究使用大模型GPT3,PaIM作为教师模型进行训练,使学生模型T5和fanT5获得了一定的思维链能力。在这里插入图片描述
方法:
1.将文本(questions + prompt)输入给大模型
2.用大模型输出含有思维链且正确的文本作为label
3.用上述数据组成的数据对(右图Reasoning samples),直接对小模型进行微调

提示工程和垂直优化

提示工程( Prompt Engineering):在文本上附加额外的提示(Prompt)信息作为输入,将下游的预测等任务转化为语言模型(Language Model)任务,并将语言模型的预测结果转化为原本下游任务的预测结果,挖掘模型的潜力

垂直领域的提示工程:要让模型完成垂直领域的指定任务,必须能在提示中给模型提出明确的要求,垂直领域的专业任务往往有并把期望的表现阐述清楚,提示工程就是使得模型尽可能按照期望输出的过程

提示生成的产品化:复杂的垂直领域任务可能需要极为丰富的prompt信息,包括各类事实、数据、要求等,并存在层层递进的多步骤任务,因此值得探索产品化方案来生成prompt

产品化思路
基于垂直领域的人类专家,针对每项垂直任务,来设计用于生成prompt的产品

1.由垂直领域的人类专家编写大量不同的Prompt
2.评估并选择模型输出效果好的Prompt
3.将固定和变动的prompt片段进行区分,并形成prompt产品,用于后续使用
4.对多层递进的AIGC任务,形成若干prompt产品

自动化思路
通过借过外部工具,或通过自动化的流程方法和训练方式,对Prompt进行自动优化

1.Prompt优化工具、引擎
2.让LLM模型自己提问、优化
3. Automatic Prompt Engineer(APE)
4. Directional Stimulus Prompting (DSP)

在这里插入图片描述

模型训练加速思路

在这里插入图片描述

  • 分布式并行:通过数据并行、模型并行、流水线并行等技术提高模型训练速度。
    在这里插入图片描述

  • 显存优化:采用混合精度训练、Activation Checkpointing、ZeRO方案等技术降低显存占用。

在这里插入图片描述

结语

通过针对性的训练和优化,大模型能够在特定领域展现更强大的能力,重塑行业工作流程。如它们自动化生成专业文档,智能提取关键信息,优化搜索结果,并在日常办公任务中提供支持,显著提升效率和生产力等。大语言模型的垂直化训练技术是人工智能领域值得关注的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/787001.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一次零基础 自“信息收集“到“权限维持“的渗透测试全程详细记录

一、渗透总流程 1.确定目标&#xff1a; 在本靶场中&#xff0c;确定目标就是使用各种扫描工具进行ip扫描&#xff0c;确定目标ip。 2.信息收集&#xff1a; 比如平常挖洞使用fofa&#xff0c;天眼查&#xff0c;ip域名等进行查&#xff0c;在我们这个靶场中比如使用Wappalyz…

pdf容量大小怎么改,pdf容量太大怎么变小

在数字化时代&#xff0c;pdf文件因其稳定性和跨平台兼容性而成为工作、学习和生活中不可或缺的文件格式。然而&#xff0c;随着文件内容的丰富&#xff0c;pdf文件的体积也日益增大&#xff0c;给存储和传输带来了不少困扰。本文将为你详细介绍多种实用的pdf文件压缩方法&…

Java文件操作和IO的小案例

文章目录 案例1案例2案例3 案例1 要求&#xff1a; 扫描指定目录&#xff0c;并找到名称中包含指定字符的所有普通文件&#xff08;不包含目录&#xff09;&#xff0c;并且后续询问用户是否要删除该文件。 代码实现&#xff1a; package shixun;import java.io.File; import…

【python学习】快速了解python基本数据类型

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 前言1. 整数&#xff08;int&#xff09;2. 浮点数&#xff08;float&#xff09;3. 布尔值&#xff08;bool&#xf…

关于string的‘\0‘与string,vector构造特点加部分特别知识点的讨论

目录 前言&#xff1a; 问题一&#xff1a;关于string的\0问题讨论 问题二&#xff1a;C标准库中的string内存是分配在堆上面吗&#xff1f; 问题三&#xff1a;string与vector的capacity大小设计的特点 问题四&#xff1a;string的流提取问题 问题五&#xff1a;迭代器失…

运筹说 第118期|存储论奠基人——肯尼斯·约瑟夫·阿罗

1.导读 前面我们已经了解了存储论的相关内容&#xff0c;相信大家一定也有所收获&#xff0c;下面我们将带着大家继续了解存储论的相关内容&#xff0c;在本次文章中我们将一起走近存储论的奠基人之一——肯尼斯约瑟夫阿罗Kenneth J&#xff0e;Arrow&#xff0c;希望能给大家…

In Search of Lost Online Test-time Adaptation: A Survey--论文笔记

论文笔记 资料 1.代码地址 https://github.com/jo-wang/otta_vit_survey 2.论文地址 https://arxiv.org/abs/2310.20199 3.数据集地址 1论文摘要的翻译 本文介绍了在线测试时间适应(online test-time adaptation,OTTA)的全面调查&#xff0c;OTTA是一种专注于使机器学习…

科技创新引领水利行业升级:深入分析智慧水利解决方案的核心价值,展望其在未来水资源管理中的重要地位与作用

目录 引言 一、智慧水利的概念与内涵 二、智慧水利解决方案的核心价值 1. 精准监测与预警 2. 优化资源配置 3. 智能运维管理 4. 公众参与与决策支持 三、智慧水利在未来水资源管理中的重要地位与作用 1. 推动水利行业转型升级 2. 保障国家水安全 3. 促进生态文明建设…

顺序表--续(C语言详细版)

2.9 在指定位置之前插入数据 // 在指定位置之前插入数据 void SLInsert(SL* ps, int pos, SLDataType x); 步骤&#xff1a; ① 程序开始前&#xff0c;我们要断言一下&#xff0c;确保指针是有效的&#xff0c;不是NULL&#xff1b; ② 我们还要断言一下&#xff0c;指定的…

智慧灌区信息化系统完整解决方案

一、背景 随着科技的快速发展&#xff0c;智慧灌区信息化系统正逐渐成为提高农业灌溉效率、优化水资源配置的重要手段。本文将详细介绍智慧灌区信息化系统的完整解决方案&#xff0c;包括系统、功能、应用以及优势分析等方面&#xff0c;旨在为灌区的现代化和高效管理提供有力…

靶场练习 手把手教你通关DC系列 DC1

DC1靶场通关教程 文章目录 DC1靶场通关教程前言一、信息收集1.主机存活2.端口收集3.网页信息收集4.目录收集4.1 Nikto4.2 Dirb 信息收集总结 二、漏洞发现与利用1. 发现2. 利用 三、FlagFlag1Flag2Flag3Flag4Flag5(提权) 前言 本次使用的kali机的IP地址为192.168.243.131 DC1的…

倒计时 2 周!CommunityOverCode Asia 2024 IoT Community 专题部分

CommunityOverCode 是 Apache 软件基金会&#xff08;ASF&#xff09;的官方全球系列大会&#xff0c;其前身为 ApacheCon。自 1998 年以来&#xff0c;在 ASF 成立之前&#xff0c;ApacheCon 已经吸引了各个层次的参与者&#xff0c;在 300 多个 Apache 项目及其不同的社区中探…

给数组/对象添加一个(key-value)对象

需要将一个value值前面加上key值&#xff0c;放进数组/对象中 this.$set(res.data[0],type,1) this.$set( target, key, value ) target&#xff1a;要更改的数据源(可以是对象或者数组) key&#xff1a;要更改的具体数据 value &#xff1a;重新赋的值。 结果&#xff1a;…

05.C1W4.Machine Translation and Document Search

往期文章请点这里 目录 OverviewWhat you’ll be able to do!Learning Objectives Transforming word vectorsOverview of TranslationTransforming vectors Align word vectorsSolving for RFrobenius normFrobenius norm squaredGradient K nearest neighborsFinding the tr…

Open3D 点对面的ICP算法配准(精配准)

目录 一、概述 1.1核心思想 1.2实现步骤 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2配准后点云 3.3计算数据 一、概述 基于点对面的ICP&#xff08;Iterative Closest Point&#xff09;配准算法是ICP的一种变体&#xff0c;它通过最小化源…

骏网一卡通之类的游戏卡有什么用?

感觉现在打端游的人越来越少了 而且游戏充值卡显得就很鸡肋&#xff0c;在家里整理东西&#xff0c;翻出来好多骏网一卡通&#xff0c;但是我又不打游戏 想着把这卡送给有需要的朋友&#xff0c;不然也是浪费&#xff0c;问了一圈送不出去 还好最后在收卡云上卖掉了&#xf…

H桥驱动器芯片详解

H桥驱动器芯片详解 上一篇文章讲解了H桥驱动器的控制原理&#xff0c;本文以汽车行业广泛应用的DRV8245芯片为例&#xff0c;详细讲解基于集成电路的H桥驱动器芯片。 1.概述 DRV824x-Q1系列器件是德州仪器&#xff08;TI&#xff09;的一款专为汽车应用设计的全集成H桥驱动器…

【本地docker启动私有大模型】

一、最终效果 中英文对话 生成代码 二、资源配置 本文选择的模型运行内存需要 4G&#xff0c;因此宿主机建议内存大于8G&#xff0c;CPU建议 6 核以上&#xff1b; 参考博主该mac配置可以相对流畅运行。只需要 CPU资源&#xff0c;不需要 GPU。 三、搭建步骤 启动docker容…

羊大师:探索羊奶奥秘,解锁免疫力提升新篇章

在浩瀚的自然界中&#xff0c;羊奶以其独特的营养价值和健康益处&#xff0c;悄然成为提升免疫力的新宠。自古以来&#xff0c;羊奶就被视为珍贵的滋补佳品&#xff0c;而今&#xff0c;随着科学的深入探索&#xff0c;其提升免疫力的奥秘正逐渐揭开面纱。 羊奶中富含的免疫球蛋…

MQTT教程--服务器使用EMQX和客户端使用MQTTX

什么是MQTT MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级、基于发布-订阅模式的消息传输协议&#xff0c;适用于资源受限的设备和低带宽、高延迟或不稳定的网络环境。它在物联网应用中广受欢迎&#xff0c;能够实现传感器、执行器和其它设备…