LLM自动化对齐技术

近年来，大语言模型（LLMs）的快速发展，极大地重塑了人工智能的格局。一致性是塑造与人类意图和价值观相对应的LLMs行为的核心，例如，教导LLMs遵循响应过程中“有帮助（Helpful）、无害(Harmless）和诚实 (Honest)”的原则（称为“3H原则”）。因此，为了满足人类的需求，LLMs必须“与人类对齐（Alignment）”，这也使得RLHF成为LLM的热点研究方向。

3H原则解释：

1. Helpful（有帮助的）：
○ 定义：模型的输出应该对用户有实际帮助，能够解决用户的问题或满足用户的需求。
○ 具体要求：模型应该提供准确、相关且有价值的信息，避免误导用户或提供无用的信息。
○ 示例：在回答用户的问题时，模型应该提供清晰、详细且正确的答案，而不是模棱两可或错误的信息。
2. Honest（诚实的）：
○ 定义：模型的输出应该真实可靠，不应捏造事实或误导用户。
○ 具体要求：模型应该基于事实和数据提供回答，避免虚假信息和不实陈述。
○ 示例：如果模型不知道答案，它应该诚实地表明，而不是编造一个可能错误的回答。
3. Harmless（无害的）：
○ 定义：模型的输出不应对用户或社会造成伤害。
○ 具体要求：模型应该避免生成有害、冒犯或不适当的内容，确保其行为符合道德和法律标准。
○ 示例：模型应避免生成暴力、歧视、仇恨言论或其他可能引起负面影响的内容。

一、人工对齐的困境

“对齐”在LLMs中指的是使机器的输出更符合人类的偏好和期望。以往的研究主要依赖于人工标注的对齐数据，这些数据包含了人类的偏好信息，用于在预训练模型上进行后训练（post-training）以实现对齐。

对齐数据的两种形式：

指令-响应对（instruction-response pairs）：通常包括一个query和一个人工写的标准答案。这种数据形式常用于监督式微调（supervised fine-tuning，SFT），将人类偏好信息注入模型中。
偏好数据（preference data）：通常包括一个query、几个可能的response以及人类对这些response的偏好。这种数据可以用于直接偏好优化，通过如DPO、IPO和PRO等算法。

偏好优化算法：

DPO（Direct Preference Optimization）：直接偏好优化算法，不使用强化学习，直接通过决策函数与奖励函数的关系进行优化。
IPO（Indirect Preference Optimization）：间接偏好优化算法，使用强化学习，通过奖励建模（Reward Model，RM）和环境交互来优化策略。
PRO（Preference-based Reward Optimization）：基于偏好的奖励优化算法，使用强化学习，基于人类反馈构建奖励函数并进行优化。

除了DPO外，偏好数据可以用于训练一个RM，该模型通过提供对模型响应的反馈，将目标策略的LLM与数据中的偏好信息对齐。然而，无论是指令-响应对还是偏好数据的构建过程，都需要非常昂贵且细致的人工标注，并且要求高标准的质量，这使得这些方法的扩展步骤非常昂贵。

尽管人工标注对齐方法成本高昂，但它们在可扩展性上仍然不可持续。随着LLMs的快速发展，它们在许多方面的能力已经接近甚至超过了人类。这使得人类为LLMs生成有意义的对齐数据变得越来越具有挑战性。许多研究表明，由LLMs生成的数据在许多方面已经超越了一般人工标注的数据质量。这意味着：

获得单个有意义的人工标注数据的成本显著提高，因为需要更高质量的标注者。
人工标注数据对LLMs的潜在好处大大降低。

随着LLMs的能力逐渐超越人类能力边界，人类越来越难以有效判断LLMs生成的响应的质量。这导致：

人类生成的偏好信号质量显著下降。
这些信号不再能准确反映人类需求。

基于人工标注的对齐方法越来越难以应对LLMs能力的快速提升，使得实现对LLMs的可扩展监督变得困难。

二、自动化对齐的兴起

为了应对依赖人工标注的对齐方法所面临的挑战，自动化对齐最近受到了极大的关注。与以往依赖人工标注来获取对齐信号的方法不同，自动化对齐的目标是构建可扩展且高质量的对齐系统，这些系统在人类干预最小化的情况下运行。自动化对齐有潜力解决由LLMs快速发展带来的核心挑战，即在人工标注不可行或极其昂贵的情况下，提供有效的对齐解决方案。对于自动化对齐来说，最关键的部分是找到一个可扩展的对齐信号，这种信号可以替代人工手动创建的偏好信号，并在LLMs快速发展的环境中保持有效性。

目前行业内已经探索了几种代表性的构建对齐信号的方法，以实现自动化对齐，具体包括：

通过归纳偏差对齐（Aligning through inductive bias）：这种方法通过引入适当的假设和约束，自动引导模型朝向期望的行为，而无需使用模型之外的额外训练信号。归纳偏差是一种内置于模型中的机制，用于指导学习过程，使其倾向于学习某些类型的模式或行为。
通过行为模仿对齐（Aligning through behavior imitation）：这种方法通过模仿另一个已经对齐的模型的行为来实现自动化对齐。例如，使用一个表现良好的对齐模型生成指令-响应对，然后通过模仿学习来训练目标模型。
通过模型反馈对齐（Aligning through model feedback）：这种方法通过从其他模型那里获得反馈来指导目标模型的对齐优化。这可能涉及到使用一个或多个辅助模型来评估和提供关于目标模型行为的反馈。
通过环境反馈对齐（Aligning through environment feedback）：这种方法通过与环境的交互自动获得对齐信号或反馈，以实现目标模型的自动化对齐。这可能涉及到在模拟环境或真实世界环境中测试模型的行为，并根据这些交互的结果来调整模型。

三、自动化对齐的范畴

自动化对齐是指开发一套方法论，旨在减少对人工干预的依赖，通过自动化的方式实现AI系统与人类价值观和期望的对齐。但是，自动化对齐并不意味着完全没有人类参与。相反，它的目标是在构建可扩展、高质量的系统的同时，最小化人类干预，并严格遵循期望的对齐结果。自动化对齐的核心在于其能够通过自动化流程动态调整和响应对齐标准，从而减少对人类持续监督的依赖。

自动化对齐旨在创建能够自我调整以符合人类价值观和期望的系统，同时减少对人工监督的需要。根据对齐信号的来源，当前的自动化对齐研究可以分为四个主要类别：

归纳偏差（Inductive Bias）：通过增强模型，引入假设性的概括或规则，使模型能够在没有明确外部指导的情况下产生更好的对齐响应。
行为模仿（Behavior Imitation）：通过模仿已经对齐的模型的输出来训练AI系统，利用模仿学习来传播期望的行为。
模型反馈（Model Feedback）：通过整合来自其他模型的反馈机制来支持自动化对齐，通过将其他模型的见解纳入目标模型，实现对齐。
环境反馈（Environment Feedback）：通过与操作环境的交互自动获取对齐目标，使模型能够根据实时数据和交互进行适应。

1、通过归纳偏差对齐

归纳偏差是通过引入额外的假设来增强模型，使其能够利用自生成的信号进行进一步改进。归纳偏差的两种类型：

第一类：从LLMs的固有特征中派生出的归纳偏差。例如，一些研究（Wei et al., 2022; Kojima et al., 2022; Wang et al., 2023e; Wang and Zhou, 2024）专注于利用模型输出概率中的模式来激发更好的结果。此外，其他研究（Bai et al., 2022b; Yao et al., 2023b; Saunders et al., 2022; Shinn et al., 2023）利用模型的能力进行自我批评、判断和改进其响应，从而提高安全性和质量。还有研究（Ganguli et al., 2022; Lin et al., 2024a）发现，仅在上下文中提供对齐的目标信号就允许LLMs利用它们强大的上下文学习能力进行自动化对齐。
第二类：从LLMs的组织结构中产生的归纳偏差。例如，基于因素化认知的假设，一些研究（Khot et al., 2023; Zhou et al., 2023b; Wang et al., 2023b）使用任务分解来使LLMs能够解决复杂任务。此外，受到AlphaGo Zero（Silver et al., 2018）成功的启发，一些研究提出通过让LLMs与自己进行迭代游戏来增强它们的能力（Fu et al., 2023a; Chen et al., 2024g）。

通过归纳偏差实现自动化对齐的方法，涉及到利用LLMs自身的特性和结构，以及通过自我生成的信号和上下文学习能力，来提高模型的对齐度和性能。

2、通过行为模仿对齐

通过行为模仿对齐的目的是通过模仿来调整目标模型的行为，使其与教师模型（Teacher Model）的行为一致。根据教师模型和目标模型的特性，行为模仿对齐的研究可以分为两个主要范式：

强到弱的蒸馏（Strong-to-Weak Distillation）：这种方法使用一个已经对齐且功能强大的LLM来生成训练数据（如GPT-4o），然后通过模仿教师模型的响应或偏好来调整目标模型的行为。这里的“强”指的是教师模型在对齐方面的能力，而“弱”指的是目标模型在初始状态下可能尚未达到相同的对齐水平。
弱到强的对齐（Weak-to-Strong Alignment）：与强到弱蒸馏相反，这种方法使用一个功能较弱的模型作为监督者，指导功能更强的目标模型进一步对齐。这里的“弱”模型可能在某些方面不如目标模型强大，但它可能在对齐方面有特定的优势或经验。

3、通过模型反馈对齐

通过模型反馈对齐的目的是利用来自其他模型的反馈来指导目标模型的对齐优化。反馈信号主要分为三类：

标量信号（Scalar Signals）：通常由基于偏好数据对训练的奖励模型提供。奖励模型的期望是学会从偏好数据中获取对齐信号，并将其推广到强化学习过程中获得的未见过的样本上。此外，奖励模型的反馈还可以指导指令调整数据的选择和模型解码。
二元信号（Binary Signals）：在数学推理任务中广泛使用，用于提供关于结果正确性的二元反馈。由于大多数数学任务需要多个推理步骤来解决，二元验证器可以分为结果验证器，它们估计最终结果的正确性，以及过程验证器，它们可以进一步提供中间步骤的反馈。
文本信号（Text Signals）：通常由LLMs生成，为人类提供更直观的反馈。

标量信号的应用包括指导指令调整数据的选择和模型解码，这有助于目标模型在强化学习过程中更好地学习对齐行为。

二元信号在数学推理任务中的应用，包括结果验证器和过程验证器，它们分别提供对最终结果和中间步骤的反馈，有助于目标模型在解决数学问题时保持正确的方向。

文本信号的应用为人类提供了更易于理解的反馈，有助于改进模型的输出质量和对齐度。

4、通过环境反馈对齐

通过环境反馈对齐的目的是从现有环境中自动获取对齐信号或反馈，而不是依赖于训练有素的模型。环境反馈可以来自多种不同的来源，包括：

社会互动：通过与人类或其他智能体的交互来获取反馈。
公众舆论：通过分析社交媒体、调查或反馈来了解公众对AI行为的看法。
外部工具：使用外部数据库、知识库或其他工具来提供反馈。
具身环境：在物理世界或模拟环境中与环境直接交互，以获取反馈。

环境反馈是对之前对齐信号来源的重要补充，它使AI系统能够更好地适应现实世界的应用场景。如何有效地利用环境反馈仍然是一个迫切需要进一步探索的研究方向，这涉及到如何收集、处理和整合来自不同环境的反馈，以及如何确保这些反馈对AI系统的对齐优化是有益的。通过环境反馈实现自动化对齐的方法强调了直接从现实世界中获取反馈的重要性，这有助于提高AI系统的适应性和鲁棒性，使其更加符合实际应用的需求。

【推广时间】

有做模型推理、微调、AI绘画出图，需要GPU资源的朋友们，可以试试UCloud云计算旗下的Compshare这家GPU算力云平台，4090性价比高，单卡按时2.6元，免费200G磁盘。单卡一个月价格在1250元，还是很香的。现在通过链接注册联系客服可以获得20元代金券，同时现在还有个内容激励活动，发布分享一些AI绘画。模型微调、推理，大模型相关的文章带上他们平台，还可以拿500元代金券，可以白嫖好久的算力了，大家可以试试。

高性价比4090算力租用，注册就送20元代金券，更有内容激励活动：GPU算力平台 | 面向AI场景的高性价比GPU租用平台

GPU云服务器租用，P40、4090、V100S多种显卡可选：GPU云服务器租用_GPU云主机限时特惠-UCloud中立云计算服务商