底座(基座)模型是如何训练的?

  • 我们把LLM的基本训练步骤分为两步,预训练和对齐;预训练我们非常熟悉,是bert-finetuning时代的基本原理,只不过LLM一般遵循自回归的逻辑,因此使用GPT模型的预训练方式:CLM(具备因果关系的MLM);预训练帮助我们在海量语料下,通过自监督的方式确定了模型的基本参数,使得模型存储了大量世界知识和逻辑。
  • 而为了使预训练模型能够完成chat功能,我们还有第二步:对齐,这也是LLM“显示出智能”的重要一环,对齐又可以分为三步,分别是:SFT,RM和RLHF。

  • SFT:
  • SFT(有监督微调):它的操作方式和之前我们熟悉大模型微调一样,它的目的是为调整自监督学习过程中的知识偏差,对于我们更希望模型注重的领域能够输出更稳定和正确的结果。
  • RM:
  • 获取奖赏模型,这个名字是根据下一步强化学习中该模型的定位来取的,它的操作方式还是针对分类任务做微调,而目的是希望模型能够具有判别问答对是否符合人类问答标准的能力,这个标准更倾向于语言逻辑而非知识对错。
  • RLHF:
  • 人类反馈强化学习,它的训练模式遵循强化学习架构,即:由actor模型做出原始回复,通过之前的RM对该问答进行评估,再通过ppo算法(损失函数)将评估后的奖罚结果用于更新actor和RM参数;在此过程中,人类可以定期替代RM模型做出评估,以便确定训练完成或调整RM判断偏差。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/126516.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Java 进阶篇】Java Filter 过滤器拦截路径配置详解

过滤器(Filter)是 Java Web 应用中一种强大的组件,它可以用于在请求到达目标资源之前或响应返回客户端之前执行一些预处理或后处理操作。其中,过滤器的拦截路径配置是非常重要的,它决定了过滤器会拦截哪些请求。在本文…

Kotlin系列之注解详解

目录 注解:file:JvmName 注解:JvmField 注解:JvmOverloads 注解:JvmStatic 注解:JvmMultifileClass 注解:JvmSynthetic 注解:file:JvmName file:JvmName(“XXX”) 放在类的最顶层&#x…

浏览器添加油猴(tampermonkey)扩展

msedge浏览器为例 1.打开msedge浏览器 2.点击右上角省略号 3.点击扩展 4.点击管理扩展 5.点击获取 Microsoft Edge 扩展 6.搜索 tampermonkey 7.获取自己想要安装的油猴

kubernetes helm

目录 一、helm 二、部署helm 三、封装chart包 四、上传chart到OCI仓库 五、部署wordpress博客系统 六、helm部署storageclass 七、helm部署ingress-nginx 八、helm部署metrics-server 九、kubeapps 一、helm Helm是Kubernetes 应用的包管理工具,主要用来…

经销商管理怎么做?

有人说,谁占据了渠道,谁就拥有了销售的大半个江山。在渠道为王的时代,每个企业都想快速打开市场,以渠道铺设自己的销路,捞取一桶桶金。因此,占领渠道,将渠道管理好是企业,尤其是快消…

K8S概念与架构

K8S概念与架构 一、Kubernetes 概述1、K8S 是什么2、为什么要用 K8S3、k8s介绍二、Kubernetes 集群架构与组件2.1、Master核心组件 2.2、Node核心组件 三、Kubernetes 核心概念3.1、Pod 控制器 一、Kubernetes 概述 1、K8S 是什么 K8S 的全称为 Kubernetes (K12345678S)&…

如何用Excel软件制作最小二乘法①

一、用自带的选项(不推荐),因为感觉只是近似,虽然结果一样 1.在Excel中输入或打开要进行在excel中输入或打开要进行最小二乘法拟合的数据,如图所示。 2.按住“shift”键的同时,用鼠标左键单击以选择数据&a…

linux 显卡驱动 cuda 离线安装

1、 安装显卡驱动: Download NVIDIA, GeForce, Quadro, and Tesla Drivers (1)注意选择对应的cuda版本,和系统版本,并下载 (2)

element-Cascader级联选择器用法?

html <el-form-item label"行业选择" :label-width"formLabelWidth"><div class"m-4"><el-cascader v-model"form.tradeid" :options"options" :props"props" /></div></el-form-ite…

FPGA高端项目:图像缩放+GTX+UDP架构,高速接口以太网视频传输,提供2套工程源码加QT上位机源码和技术支持

目录 1、前言免责声明本项目特点 2、相关方案推荐我这里已有的 GT 高速接口解决方案我这里已有的以太网方案我这里已有的图像处理方案 3、设计思路框架设计框图视频源选择IT6802解码芯片配置及采集动态彩条跨时钟FIFO图像缩放模块详解设计框图代码框图2种插值算法的整合与选择 …

代码随想录算法训练营Day 47 || 198.打家劫舍、213.打家劫舍II、337.打家劫舍 III

198.打家劫舍 力扣题目链接(opens new window) 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被小偷闯入&#xff0c;系…

CocosCreator | 2.3.3及后续版本浏览器无法断点和控制台不显示错误代码路径的解决方案(cocos代码报错无法定位的问题)

在2.3.3正式版的官方介绍中有这么一项&#xff1a; 提升网页预览时的加载速度 为了进一步提升开发效率&#xff0c;我们优化了网页预览时的脚本加载速度。不论是对引擎还是项目中的代码&#xff0c;载入速度都获得了提升。特别是在开启自定义引擎&#xff0c;或者使用手机扫码…

AIGC视频生成/编辑技术调研报告

人物AIGC&#xff1a;FaceChain人物写真生成工业级开源项目&#xff0c;欢迎上github体验。 简介&#xff1a; 随着图像生成领域的研究飞速发展&#xff0c;基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天&#xff0c;视频生成/编辑技术也引起…

TDD、BDD、ATDD以及SBE的概念和区别

在软件开发或是软件测试中会遇到以下这些词&#xff1a;TDD 、BDD 、ATDD以及SBE&#xff0c;这些词代表什么意思呢&#xff1f; 它们之间有什么关系吗&#xff1f; TDD 、BDD 、ATDD以及SBE的基本概念 TDD&#xff1a;&#xff08;Test Driven Development&#xff09;是一种…

Docker容器 虚拟化技术

Docker容器 1、容器化技术的由来 虚拟化技术发展已经非常强大了&#xff0c;那为什么还需要容器化技术呢&#xff1f; 如今的虚拟机解决了基础设计计算&#xff0c;网络&#xff0c;存储着几个方面的弹性&#xff0c;可以非常方便的扩展出应用的资源&#xff0c;但是仍然存在…

ES6学习

let和const命名 let基本用法-块级作用域 在es6中可以使用let声明变量&#xff0c;用法类似于var ⚠️ let声明的变量&#xff0c;只在let命令所在的代码块内有效 {let a 10;var b 20; } console.log(a); //a is not defined console.log(b); //20不存在变量提升 var命令…

【VS2019 Qt5 VTK9.2】临时解决配置相关问题的简单方法

配置报错 编译报错提示&#xff08;LNK2019或LNK2001&#xff09; 严重性 代码 说明 项目 文件 行 禁止显示状态 错误 LNK2019 无法解析的外部符号 “__declspec(dllimport) public: __cdecl QVTKOpenGLNativeWidget::QVTKOpenGLNativeWidget(class QWidget *,class QFlags)(_i…

禅道研发项⽬管理系统未授权RCE漏洞复现

1、产品介绍 Zendao禅道是第一款国产的开源项目管理软件&#xff0c;他的核心管理思想基于敏捷方法scrum&#xff0c;内置了产品管理和项目管理&#xff0c;同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能。 2、漏洞描述 该系统在202…

晶振分频【FPGA】

所有数据对齐晶振。 6分频&#xff1a;【1】 module divider_six // 6分频 【0~2】 ( input wire sys_clk , //系统时钟 50MHz input wire sys_rst_n , //全局复位 output reg clk_out //对系统时钟 6 分频后的信号 );reg [1:0] cnt; //用于计数的寄存器 //cnt:计数器从 0 到…

2023网络钓鱼状况报告:ChatGPT等工具致网络钓鱼电子邮件数量激增1265%

近日&#xff0c;SlashNext发布了《2023年网络钓鱼状况报告》&#xff0c;报告显示&#xff1a;自ChatGPT于2022年11月推出以来&#xff0c;网络钓鱼电子邮件数量激增1265%&#xff0c;这标志着网络犯罪依托于人工智能进入了一个新的时代。 该报告深入分析了2022年第四季度至2…