大模型对齐方法笔记四:针对领域问答来进行知识对齐方法KnowPAT

KnowPAT

KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》,主要针对领域问答来进行知识对齐。

在领域问答有两个挑战:希望输出满足用户的要求、输出充分利用领域知识库。为了解决这些挑战,提出了如下图的三阶段的KnowPAT框架。

在这里插入图片描述

假设有一个QA数据集 D = ( q i , a i ) ∣ i = 1 , 2 , … , N \mathcal{D} = {(q_i, a_i) | i=1,2,\ldots,N} D=(qi,ai)i=1,2,,N q i q_i qi a i a_i ai是问答对,在论文中是对应的云端产品使用相关问答对,是由人工收集和标注的。

如果直接在数据集 D \mathcal{D} D上微调LLM M \mathcal{M} M(即通常所说的SFT),设prompt 模板为 I \mathcal{I} I,则优化目标如下(式中的 a i , j a_{i, j} ai,j a i a_i ai的第j个token, P M P_{\mathcal{M}} PM是模型 M \mathcal{M} M预测的token概率)。
L f t = − 1 ∣ a i ∣ ∑ j = 1 ∣ a i ∣ log ⁡ P M ( a i , j ∣ I , q i , a i , < j ) \mathcal{L}_{f t}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right) Lft=ai1j=1ailogPM(ai,jI,qi,ai,<j)

对于领域相关任务,一般会有一个领域知识库(domain KB) B \mathcal{B} B,现在流行的RAG就是领域领域知识库来让LLM在领域相关问题上回答更准确的一种解决方法。而KnowPAT采用的是如下三部分的框架来利用领域知识。

无监督知识检索

设有语义相似度检索器 H \mathcal{H} H,对于每个问题 q i q_i qi从KB B \mathcal{B} B中检索出top-k条最相似的知识并记为 K \mathcal{K} K​, 相似性以检索器编码后向量间的余弦相似度来衡量。

偏好数据集构建

偏好数据集分为风格偏好数据集(style preference set, SPS) P s \mathcal{P}_s Ps和知识偏好数据(knowledge preference set, KPS) P k \mathcal{P}_k Pk

风格偏好数据集 P s \mathcal{P}_s Ps构建过程

  1. 选择l-1个不同的LLM记为 M 1 , M 2 , … , M l − 1 \mathcal{M}_1,\mathcal{M}_2,\ldots,\mathcal{M}_{l-1} M1,M2,,Ml1,不同LLM的文本理解和表达能力不一样,所以可以生成不同风格的回答。
  2. 将上一步LLM生成的l-1个回答和金标准回答构成长度为l的风格偏好数据集 P s = { b 1 , b 2 , … , b l } \mathcal{P}_s = \{b_1, b_2,\ldots,b_l \} Ps={b1,b2,,bl}
  3. 为了与知识偏好数据集的长度一致,论文中取l为4,选了3个模型:ChatGPT、ChatGLM-6B、Vicuna-7B。
  4. 设金标准回答为 b 1 b_1 b1,ChatGPT生成的回答为 b 2 b_2 b2、ChatGLM-6B生成的回答为 b 3 b_3 b3、Vicuna-7B生成的回答为 b 4 b_4 b4,作者使用规则来确定这四个回答的偏好分数,认为三个模型的能力ChatGPT>ChatGLM>Vicuna,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4

知识偏好数据集 P k \mathcal{P}_k Pk构建过程

  1. 对于问题a从知识库KB中检索出3个知识组合 K 1 \mathcal{K_1} K1 K 2 \mathcal{K_2} K2 K 3 \mathcal{K_3} K3 K 1 \mathcal{K_1} K1是top-k最相似的知识, KaTeX parse error: Undefined control sequence: \O at position 16: \mathcal{K_2}= \̲O̲是空集表示不包括任何检索知识, K 3 \mathcal{K_3} K3​表示top-k+1至top 2k相似的知识。
  2. 将不同的知识组合与prompt模板 I \mathcal{I} I一起输入到LLM M \mathcal{M} M生成答案,生成的三个答案与金标准一起组成知识偏好数据 P k = { c 1 , c 2 , c 3 , c 4 } \mathcal{P}_k = \{c_1, c_2, c_3,c_4 \} Pk={c1,c2,c3,c4}
  3. 设金标准回答为 c 1 c_1 c1,使用 K 1 \mathcal{K_1} K1生成的回答为 c 2 c_2 c2、使用 K 2 \mathcal{K_2} K2生成的回答为 c 3 c_3 c3、使用 K 3 \mathcal{K_3} K3生成的回答为 c 4 c_4 c4,作者发现与问题不那么相似的知识很容易误导LLM,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4

微调和偏好对齐

前面构建的偏好数据集里偏好分数 r i r_i ri代表了偏好度,希望模型 M \mathcal{M} M能够对齐偏好。模型在给定prompt模板和问题 q i q_i qi后对每个回答token的平均对数似然如下式 S i S_i Si表示,分数越高表示模型认为回答有更高的概率:
S i = − 1 ∣ a i ∣ ∑ j = 1 ∣ a i ∣ log ⁡ P M ( a i , j ∣ I , q i , a i , < j ) \mathcal{S}_{i}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right) Si=ai1j=1ailogPM(ai,jI,qi,ai,<j)
KnowPAT先设计了如下的对齐目标,目的是为了对比偏好答案和非偏好答案,偏好分数只用来决定不同答案的顺序。式中的 σ \sigma σ是sigmoid函数。

L a l i g n = − ∑ i = 1 ∣ P ∣ − 1 ( log ⁡ σ ( S i ) + log ⁡ ∑ r j < r i σ ( − S j ) ) \mathcal{L}_{align}=- \sum_{i=1}^{|\mathcal{P}|-1} \left( \log \sigma (\mathcal{S}_i) + \log \sum_{r_j < r_i}\sigma (-\mathcal{S}_j) \right ) Lalign=i=1P1 logσ(Si)+logrj<riσ(Sj)

考虑到不同的回答的文本质量和偏好等级不一样,作者设计了如下式的自适应权重来控制每个偏好回答的影响,式中的 S m a x S_{max} Smax S m i n S_{min} Smin是偏好数据集里的最大和最小偏好分数。

μ i = S i − S m i n S m a x − S m i n \mu_i = \frac {S_i - S_{min}}{S_{max} - S_{min}} μi=SmaxSminSiSmin

使用自适应权重后,不同偏好分数的回答的影响可以动态调整,对齐目标相应地变为下式:
L a l i g n = ∑ i = 1 ∣ P ∣ − 1 μ i ( log ⁡ ( 1 + e − S i ) + log ⁡ ∑ r j < r i log ⁡ ( 1 + e S j ) ) \mathcal{L}_{align}= \sum_{i=1}^{|\mathcal{P}|-1} \mu_i \left( \log (1 + e^{-\mathcal{S}_i} )+ \log \sum_{r_j < r_i}\log ( 1 + e^{ \mathcal{S}_j}) \right ) Lalign=i=1P1μi log(1+eSi)+logrj<rilog(1+eSj)

KnowPAT的训练目标为对齐损失和微调目标之和,超参数 λ \lambda λ作为对齐损失的系数, P − 1 \mathcal{P}-1 P1用来归一化对齐损失。
L = L f t + λ ∣ P ∣ − 1 L a l i g n \mathcal{L} = \mathcal{L}_{ft} + \frac{\lambda} {|\mathcal{P}| -1} \mathcal{L}_{align} L=Lft+P1λLalign

注:1. 有一点疑问是前面构建了两个偏好数据集,微调里没有详细说明是一起训练还是分别训练,只写了一句看起来像是分别训练的话:For each preference set constructed in the previous section, the model is trained and optimized with such an objective. 2. 风格偏好数据集与RRHF的数据构建思路是一样的,论文代码也是基于RRHF的,不过对齐目标函数有所区别

参考资料

  1. KnowPAT: arxiv, github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668960.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

15-通过JS代码处理窗口滚动条

selenium并不是万能的&#xff0c;页面上有些操作无法实现时&#xff0c;就需要借助JS代码来完成了。selenium提供了一个方法&#xff1a;execute_script()&#xff0c;可以执行JS脚本代码。 比如&#xff1a;当页面上的元素超过一屏后&#xff0c;想操作屏幕下方的元素&#x…

git报错prohibited by Gerrit: not permitted: update

git push报错&#xff1a; Push to refs/for/[branch] to create a review, or get Push rights to update the branch. Contact an administrator to fix the permissions (prohibited by Gerrit: not permitted: update)原因&#xff1a; 使用Gerrit代码审核时&#xff0c;本…

IsoBench:多模态基础模型性能的基准测试与优化

随着多模态基础模型的快速发展&#xff0c;如何准确评估这些模型在不同输入模态下的性能成为了一个重要课题。本文提出了IsoBench&#xff0c;一个基准数据集&#xff0c;旨在通过提供多种同构&#xff08;isomorphic&#xff09;表示形式的问题&#xff0c;来测试和评估多模态…

React-表单受控绑定

概念&#xff1a;使用React组件的状态&#xff08;useState&#xff09;控制表单的状态 1.准备一个React状态值 2.通过value属性绑定状态&#xff0c;通过onChange属性绑定状态同步的函数

Web自动化测试-掌握selenium工具用法,使用WebDriver测试Chrome/FireFox网页(Java

目录 一、在Eclipse中构建Maven项目 1.全局配置Maven 2.配置JDK路径 3.创建Maven项目 4.引入selenium-java依赖 二、Chrome自动化脚本编写 1.创建一个ChromeTest类 2.测试ChromeDriver 3.下载chromedriver驱动 4.在脚本中通过System.setProperty方法指定chromedriver的…

《软件方法(下)》8.3.4.5和《设计模式》中用语的区别

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 8.3 建模步骤C-2 识别类的关系 8.3.4 识别关联关系 8.3.4.4 类关系再整理 有了前面的知识&#xff0c;我们需要再整理一下类的关系。用类图表示类的关系如图8-134。 图8-134 “类的…

NextJs 数据篇 - 数据获取 | 缓存 | Server Actions

NextJs 数据篇 - 数据获取 | 缓存 | Server Actions 前言一. 数据获取 fetch1.1 缓存 caching① 服务端组件使用fetch② 路由处理器 GET 请求使用fetch 1.2 重新验证 revalidating① 基于时间的重新验证② 按需重新验证revalidatePathrevalidateTag 1.3 缓存的退出方式 二. Ser…

录制gif 强推LICEcap

LICEcap 官网&#xff1a;https://www.cockos.com/licecap/ 即按即用&#xff0c;录制好的gif可直接插入博客&#xff0c;yyds~

算法练习第25天|491. 非递减子序列

491. 非递减子序列 491. 非递减子序列https://leetcode.cn/problems/non-decreasing-subsequences/ 题目描述&#xff1a; 给你一个整数数组 nums &#xff0c;找出并返回所有该数组中不同的递增子序列&#xff0c;递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案…

文件IO(三)

文件IO&#xff08;三&#xff09; 左移右移Linux的man 手册文件IO打开文件操作文件关闭文件 caps lock开灯关灯读取按键文件IO操作目录文件打开目录文件操作目录文件 库动态库和静态库的优缺点创建静态库创建动态库 按下右ctrl键 亮灭灯 左移右移 Linux的man 手册 文件IO 打开…

知网AI查重:AI工具如何助力通过检测?

论文降重一直是困扰各界毕业生的“拦路虎”&#xff0c;还不容易熬过修改的苦&#xff0c;又要迎来降重的痛。 其实想要给论文降重达标&#xff0c;我有一些独家秘诀。话不多说直接上干货&#xff01; 1、同义词改写&#xff08;针对整段整句重复&#xff09; 这是最靠谱也是…

旅游门票预订系统小程序源码购票源码

功能介绍&#xff1a; 景点项目 支持发布多个景点项目、景点门票等。 在线支付 支持整合微信支付功能 一款基于ThinkPHP Uniapp开发的旅游i ]票预订系 统 支持景点]票、导游产品便捷预订、美食打卡、景点分 享、旅游笔记分享等综合系统,提供前后台无加密源码&#xff0c;支…

JS脚本打包成一个 Chrome 扩展(CRX 插件)

受这篇博客 如何把CSDN的文章导出为PDF_csdn文章怎么导出-CSDN博客 启发&#xff0c;将 JavaScript 代码打包成一个 Chrome 扩展&#xff08;CRX 插件&#xff09;。 步骤&#xff1a; 1.创建必要的文件结构和文件&#xff1a; manifest.jsonbackground.jscontent.js 2.编写…

汇编:调用Win32 API

在32位汇编程序中使用 Win32 API 是很常见的&#xff0c;特别是在开发 Windows 应用程序时调用的频率很高&#xff0c;Win32 API 提供了访问 Windows 操作系统功能的接口&#xff0c;包括窗口、消息处理、文件操作、网络通信等等。以下是使用 Win32 API 的一般步骤&#xff1a;…

Controller类明明写了@CrossOrigin跨域注解,但还是有跨域问题

可能是写的过滤器干扰到了跨域处理。如&#xff1a; 此时&#xff0c;先注释掉过滤器注解&#xff0c;让其不生效&#xff0c;就可以避免干扰跨域处理了 不过&#xff0c;这只能暂时解决该问题&#xff0c;毕竟过滤器还是要用的&#xff0c;后续我再探索一下。。。。。。。

springboot实现文件上传功能,整合云服务

文章目录 这是springboot案例的,文件上传功能的拆分,本篇将带大家彻底了解文件上传功能,先从本地存储再到云存储,全网最详细版本,保证可以学会,可以了解文件上传功能的开发文件上传功能剖析进行书写一个小的文件上传文件上传的文件三要素首先表单提交的方式要是 post方式,第二个…

艾体宝洞察 | Redis Enterprise对比ElastiCache

选择缓存数据库时&#xff0c;如何在Amazon ElastiCache和Redis Enterprise之间做出选择&#xff0c;应当考虑哪些标准&#xff1f; ElastiCache 通常可以满足基本的缓存需求&#xff0c;因此是一种适合初始阶段的解决方案。但随着使用量的增加&#xff0c;ElastiCache很快会变…

FreeSWITCH 1.10.10 简单图形化界面21-录音相关

FreeSWITCH 1.10.10 简单图形化界面21-录音相关 FreeSWITCH GUI界面预览00、安装FreeSWITCH GUI先看使用手册1、录音相关的应用11、record用法&#xff1a;举例&#xff1a;注意&#xff1a; 12、record_session用法&#xff1a;举例&#xff1a; 2、录音相关的变量3、单腿录音…

ICPC训练赛补题集

ICPC训练赛补题集 文章目录 ICPC训练赛补题集D - Fast and Fat (负重越野)I-路径规划G. Inscryption(邪恶铭刻)NEW Houses雪中楼(西安交通大学)L.BracketGenerationE - Checksum D - Fast and Fat (负重越野) 原题链接&#xff1a;原题链接 题意&#xff1a;体重大的背体重小的…

图像处理ASIC设计方法 笔记26 非均匀性校正SOC如何设计

在红外成像技术领域,非均匀性校正是一个至关重要的环节,它直接影响到成像系统的性能和目标检测识别的准确性。非均匀性是指红外焦平面阵列(IRFPA)中各个像元对同一辐射强度的响应不一致的现象,这种不一致性可能是由于制造过程中的缺陷、材料的不均匀性或者像元间的热电特性…