论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation
论文信息:
简介:
本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式性)和作者的情绪或态度(例如厌恶)。
随着大型语言模型(LLMs)的能力增强和受欢迎程度提高,对LLMs输出风格进行细粒度控制的需求日益增长。然而,如何在生成文本时将目标风格编织在一起,例如产生既负面又无毒的文本,是一个开放性问题。
本文提出使用多目标强化学习(RL)作为控制生成的一种方法,但如何最好地在奖励函数中结合多个目标是一个未解决的问题。
本文的动机在于实际文本中通常不仅包含单一风格,而是风格的组合。例如,在工作场合给同事提供反馈时,可能需要同时使用正式和积极的风格。
此外,为了响应用户偏好或应用需求,LLM可能需要同时控制其他属性,如幽默、正式性或比喻语言的使用。因此,需要一种可靠的多风格控制技术来实现这些目标。
论文方法:
本文提出了一种动态多奖励加权方法,用于多风格可控生成。该方法涉及以下几个关键步骤:
1)预训练语言模型:使用LLaMA2 7B作为基模型,针对情感、正式性、讽刺、情绪和毒性训练判别器。
2)强化学习(RL)框架:将生成语言模型视为一个策略网络,该策略网络是一个在给定状态下决定下一步行动的概率分布。
3)多奖励控制公式:提出了多种结合多个风格判别器输出的方法,包括对数几率(Logits)、softmax、二值化(Binarized)、校准对数几率(Calibrated Logit scores)和动态加权(Dynamic Weighting)。其中,动态加权方法通过考虑每个判别器的梯度大小来加权结果,以此作为奖励函数的一部分。
4)微调:使用PPO算法对语言模型进行微调,以最大化期望奖励值。
5)实验设置:包括基模型、判别器训练、RL训练和评估集的详细配置。
6)评估:基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估,包括自动评估和人类评估。
论文实验:
根据Table 3,我们可以了解到论文中的实验部分主要关注了不同奖励公式对于模型生成文本的风格控制和生成质量的影响。
实验比较了五种不同的奖励公式:Softmax、Calibrated Softmax、Logits、Binary 和 Dynamic Weighting。
这些奖励公式被用来训练模型以生成具有特定风格的文本,特别是结合了负面(Negative)和非正式(Informal)风格的文本。
Softmax在负面和非正式风格的控制上表现最差,尤其是在同时控制两种风格时。
Calibrated Softmax通过校准技术提高了风格判别器的置信度,但在风格控制上提升有限。
Logits在风格控制上表现较好,但以牺牲生成质量为代价,生成的文本困惑度高,不够流畅。
Binary在风格控制上表现不错,同时保持了较低的二元组重复率,表明生成的文本较为多样化。
Dynamic Weighting(动态加权)在所有指标上表现最佳,不仅在风格控制上优于其他方法,同时保持了较低的困惑度和二元组重复率,表明生成的文本既符合目标风格,又保持了较高的语言质量。
论文链接:
https://arxiv.org/abs/2402.14146