KnowPAT
KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》,主要针对领域问答来进行知识对齐。
在领域问答有两个挑战:希望输出满足用户的要求、输出充分利用领域知识库。为了解决这些挑战,提出了如下图的三阶段的KnowPAT框架。
假设有一个QA数据集 D = ( q i , a i ) ∣ i = 1 , 2 , … , N \mathcal{D} = {(q_i, a_i) | i=1,2,\ldots,N} D=(qi,ai)∣i=1,2,…,N, q i q_i qi和 a i a_i ai是问答对,在论文中是对应的云端产品使用相关问答对,是由人工收集和标注的。
如果直接在数据集
D
\mathcal{D}
D上微调LLM
M
\mathcal{M}
M(即通常所说的SFT),设prompt 模板为
I
\mathcal{I}
I,则优化目标如下(式中的
a
i
,
j
a_{i, j}
ai,j是
a
i
a_i
ai的第j个token,
P
M
P_{\mathcal{M}}
PM是模型
M
\mathcal{M}
M预测的token概率)。
L
f
t
=
−
1
∣
a
i
∣
∑
j
=
1
∣
a
i
∣
log
P
M
(
a
i
,
j
∣
I
,
q
i
,
a
i
,
<
j
)
\mathcal{L}_{f t}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)
Lft=−∣ai∣1j=1∑∣ai∣logPM(ai,j∣I,qi,ai,<j)
对于领域相关任务,一般会有一个领域知识库(domain KB) B \mathcal{B} B,现在流行的RAG就是领域领域知识库来让LLM在领域相关问题上回答更准确的一种解决方法。而KnowPAT采用的是如下三部分的框架来利用领域知识。
无监督知识检索
设有语义相似度检索器 H \mathcal{H} H,对于每个问题 q i q_i qi从KB B \mathcal{B} B中检索出top-k条最相似的知识并记为 K \mathcal{K} K, 相似性以检索器编码后向量间的余弦相似度来衡量。
偏好数据集构建
偏好数据集分为风格偏好数据集(style preference set, SPS) P s \mathcal{P}_s Ps和知识偏好数据(knowledge preference set, KPS) P k \mathcal{P}_k Pk。
风格偏好数据集 P s \mathcal{P}_s Ps构建过程:
- 选择l-1个不同的LLM记为 M 1 , M 2 , … , M l − 1 \mathcal{M}_1,\mathcal{M}_2,\ldots,\mathcal{M}_{l-1} M1,M2,…,Ml−1,不同LLM的文本理解和表达能力不一样,所以可以生成不同风格的回答。
- 将上一步LLM生成的l-1个回答和金标准回答构成长度为l的风格偏好数据集 P s = { b 1 , b 2 , … , b l } \mathcal{P}_s = \{b_1, b_2,\ldots,b_l \} Ps={b1,b2,…,bl}。
- 为了与知识偏好数据集的长度一致,论文中取l为4,选了3个模型:ChatGPT、ChatGLM-6B、Vicuna-7B。
- 设金标准回答为 b 1 b_1 b1,ChatGPT生成的回答为 b 2 b_2 b2、ChatGLM-6B生成的回答为 b 3 b_3 b3、Vicuna-7B生成的回答为 b 4 b_4 b4,作者使用规则来确定这四个回答的偏好分数,认为三个模型的能力ChatGPT>ChatGLM>Vicuna,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4。
知识偏好数据集 P k \mathcal{P}_k Pk构建过程:
- 对于问题a从知识库KB中检索出3个知识组合 K 1 \mathcal{K_1} K1、 K 2 \mathcal{K_2} K2、 K 3 \mathcal{K_3} K3, K 1 \mathcal{K_1} K1是top-k最相似的知识, KaTeX parse error: Undefined control sequence: \O at position 16: \mathcal{K_2}= \̲O̲是空集表示不包括任何检索知识, K 3 \mathcal{K_3} K3表示top-k+1至top 2k相似的知识。
- 将不同的知识组合与prompt模板 I \mathcal{I} I一起输入到LLM M \mathcal{M} M生成答案,生成的三个答案与金标准一起组成知识偏好数据 P k = { c 1 , c 2 , c 3 , c 4 } \mathcal{P}_k = \{c_1, c_2, c_3,c_4 \} Pk={c1,c2,c3,c4}。
- 设金标准回答为 c 1 c_1 c1,使用 K 1 \mathcal{K_1} K1生成的回答为 c 2 c_2 c2、使用 K 2 \mathcal{K_2} K2生成的回答为 c 3 c_3 c3、使用 K 3 \mathcal{K_3} K3生成的回答为 c 4 c_4 c4,作者发现与问题不那么相似的知识很容易误导LLM,所以这四个回答的偏好分数顺序为 r 1 > r 2 > r 3 > r 4 r_1 > r_2 > r_3 > r_4 r1>r2>r3>r4。
微调和偏好对齐
前面构建的偏好数据集里偏好分数
r
i
r_i
ri代表了偏好度,希望模型
M
\mathcal{M}
M能够对齐偏好。模型在给定prompt模板和问题
q
i
q_i
qi后对每个回答token的平均对数似然如下式
S
i
S_i
Si表示,分数越高表示模型认为回答有更高的概率:
S
i
=
−
1
∣
a
i
∣
∑
j
=
1
∣
a
i
∣
log
P
M
(
a
i
,
j
∣
I
,
q
i
,
a
i
,
<
j
)
\mathcal{S}_{i}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)
Si=−∣ai∣1j=1∑∣ai∣logPM(ai,j∣I,qi,ai,<j)
KnowPAT先设计了如下的对齐目标,目的是为了对比偏好答案和非偏好答案,偏好分数只用来决定不同答案的顺序。式中的
σ
\sigma
σ是sigmoid函数。
L a l i g n = − ∑ i = 1 ∣ P ∣ − 1 ( log σ ( S i ) + log ∑ r j < r i σ ( − S j ) ) \mathcal{L}_{align}=- \sum_{i=1}^{|\mathcal{P}|-1} \left( \log \sigma (\mathcal{S}_i) + \log \sum_{r_j < r_i}\sigma (-\mathcal{S}_j) \right ) Lalign=−i=1∑∣P∣−1 logσ(Si)+logrj<ri∑σ(−Sj)
考虑到不同的回答的文本质量和偏好等级不一样,作者设计了如下式的自适应权重来控制每个偏好回答的影响,式中的 S m a x S_{max} Smax和 S m i n S_{min} Smin是偏好数据集里的最大和最小偏好分数。
μ i = S i − S m i n S m a x − S m i n \mu_i = \frac {S_i - S_{min}}{S_{max} - S_{min}} μi=Smax−SminSi−Smin
使用自适应权重后,不同偏好分数的回答的影响可以动态调整,对齐目标相应地变为下式:
L
a
l
i
g
n
=
∑
i
=
1
∣
P
∣
−
1
μ
i
(
log
(
1
+
e
−
S
i
)
+
log
∑
r
j
<
r
i
log
(
1
+
e
S
j
)
)
\mathcal{L}_{align}= \sum_{i=1}^{|\mathcal{P}|-1} \mu_i \left( \log (1 + e^{-\mathcal{S}_i} )+ \log \sum_{r_j < r_i}\log ( 1 + e^{ \mathcal{S}_j}) \right )
Lalign=i=1∑∣P∣−1μi
log(1+e−Si)+logrj<ri∑log(1+eSj)
KnowPAT的训练目标为对齐损失和微调目标之和,超参数
λ
\lambda
λ作为对齐损失的系数,
P
−
1
\mathcal{P}-1
P−1用来归一化对齐损失。
L
=
L
f
t
+
λ
∣
P
∣
−
1
L
a
l
i
g
n
\mathcal{L} = \mathcal{L}_{ft} + \frac{\lambda} {|\mathcal{P}| -1} \mathcal{L}_{align}
L=Lft+∣P∣−1λLalign
注:1. 有一点疑问是前面构建了两个偏好数据集,微调里没有详细说明是一起训练还是分别训练,只写了一句看起来像是分别训练的话:For each preference set constructed in the previous section, the model is trained and optimized with such an objective. 2. 风格偏好数据集与RRHF的数据构建思路是一样的,论文代码也是基于RRHF的,不过对齐目标函数有所区别
参考资料
- KnowPAT: arxiv, github