引入基于图的增强框架实现大模型的可控文本生成

尽管LLMs能够生成丰富多样的文本，但它们在生成特定属性文本时仍面临挑战。例如，如何确保生成的文本不仅语言流畅、语义准确，同时还具有所需的情感色彩或避免包含不当内容，是一个亟待解决的问题。传统的可控文本生成（CTG）方法通常通过小型语言模型来影响大型模型的解码过程，以实现对文本属性的控制。但这种方法存在局限性，它可能会损害大型模型的生成质量和文本的多样性。而且过度依赖小型模型进行控制可能会削弱大型模型在推理和解码阶段的原始性能，限制了其作为复杂生成模型的潜力。

在语义空间中，关键字如何影响句子的情感属性。通过改变句子中的几个词（如将 "masterpiece" 改为 "failure"），可以改变整个句子在情感维度上的位置，从而改变其情感倾向

针对这些问题，本论文提出了一种创新的解决方案——基于动态属性图的可控文本生成（DATG）框架。DATG通过引入属性评分器和动态属性图的概念，有效地对关键属性词和关键反属性词的出现频率进行调节，从而在不牺牲模型原有能力的前提下，实现对文本属性的精确控制。这种方法不仅提高了文本生成的控制精度，还显著提升了文本的流畅性，为可控文本生成领域带来了新的突破。

方法

研究者们对LLMs的生成能力进行了定义，将其描述为基于前文生成下一个词的概率分布。在此基础上，他们引入了控制条件C，旨在将这些条件无缝集成到生成过程中，以引导文本展现出特定的属性。这一步骤的关键在于如何在不损害LLMs固有生成质量的前提下，实现对文本属性的精确控制。

研究者还利用LLMs在预训练阶段已经积累了丰富的知识和能力的优势，通过特定提示生成与期望上下文紧密相关的文本序列，构建了一个上下文语料库。这一语料库不仅为后续的属性控制和文本生成提供了基础，而且确保了生成文本的相关性和一致性。

为了确保生成的文本符合特定的属性要求，研究者们开发了一个预训练的语言模型，并针对目标属性进行了微调。这个分类器能够对每个文本样本进行精确评分，量化其展现目标属性的程度。这一评分机制为研究者们提供了一个量化的指标，帮助他们评估和理解文本与控制条件的对齐情况。

在构建动态属性图的过程中，研究者们将文本序列转换为有向加权图，这些图基于分类器的评分来定义。他们创建了两个不同的图：正面属性图和负面属性图，分别代表了文本对目标属性的遵循和偏离。这些属性图在语义空间中为文本的属性控制提供了一个直观的表示。

DATG 方法的四个阶段：上下文语料库构建、属性分类器评分、动态属性图构建和动态边界控制下的重生成

上下文语料库构建 (Contextual Corpus Construction)：这个阶段是整个框架的起点，研究者使用大型语言模型（LLMs）根据给定的提示生成一系列文本序列。这些提示是精心设计的，旨在引导模型生成与特定上下文或主题相关的文本。生成的文本序列构成了后续处理的基础语料库，为属性控制提供了丰富的文本数据。

属性分类器评分 (Attribute Classifier Scoring)：在这个阶段，研究者利用预训练的语言模型，这些模型经过微调，能够对文本样本进行评分，反映出文本与目标属性（如毒性或情感）的一致性。分类器的评分帮助研究者量化文本的属性强度，为后续的属性图构建提供了必要的评分信息。

动态属性图构建 (Dynamic Attribute Graphs Construction)：这个阶段是DATG框架的核心，研究者将文本序列转换为动态属性图。每个句子被分解为单独的词汇（token），形成图中的节点。词汇之间的语义关系通过有向边连接，边的权重由属性分类器的评分决定。这个过程生成了两个图：正面属性图和负面属性图，分别代表文本与目标属性的一致性和偏离度。

动态边界控制下的重生成 (ReGeneration with Dynamic Boundary Controlling)：最后一个阶段涉及到使用图排名算法来识别图中的关键节点，这些节点对文本的属性有显著影响。通过调整这些关键节点（例如，增强正面属性词的生成概率，降低负面属性词的生成概率），研究者能够引导文本向期望的属性方向发展。这个阶段使用了两种策略：logits-boost 策略和前缀提示 (prefix-prompt) 策略。Logits-boost 策略通过调整词汇在模型生成算法中的logits值来影响词汇的生成概率；而前缀提示策略通过在生成提示中明确指出期望的正面词汇和应避免的负面词汇，来引导模型的生成方向。

论文最后介绍了如何使用动态属性图中的正面和负面节点来引导文本的语义轨迹，向特定属性方向移动。通过logits提升和前缀提示策略，他们精确地操纵了这些边界，控制了文本的语义方向，确保了与期望属性的一致性或与不期望属性的距离。这一步骤涉及到对关键属性相关词汇的增强或减少，以促进文本向期望属性方向移动。

实验

研究者们选择了两个主要任务来评估DATG框架的性能：毒性减轻任务和情感转换任务。这两个任务都涉及到对文本属性的精确控制，是可控文本生成领域中的关键挑战。

毒性减轻任务：使用RealToxicityPrompts数据集，研究者们创建了两个评估集，旨在评估模型在减少生成文本的毒性方面的能力。这包括广泛毒性减轻的RandomToxic和针对关键毒性减少的TopToxic。

情感转换任务：利用SST-5数据集，研究者们准备了两个评估集，NegToPos和PosToNeg，分别测试将负面情感转换为正面情感，以及反之的能力。这一任务的目的是生成在情感上与初始提示相反方向的文本，同时确保文本的连贯性和相关性。

实验使用了多种不同规模和来源的基础语言模型（LLMs），包括来自微软研究院的Phi-2 2.7B、Meta AI的OPT 6.7B、斯坦福大学的Alpaca 7B、技术创新研究所的Falcon 7B，以及Meta AI的LLaMA-2 13B。这些模型覆盖了从2.7亿到130亿参数的范围，为评估DATG方法的有效性提供了坚实的基础。

为了提高文本生成任务中的精确度和控制能力，研究者们将分类器模型与基础生成模型相结合。他们选择了BAAI/bge-large-en-v1.5模型作为分类器的基础，并针对每个任务的特定需求进行了微调。

毒性减轻分类器：使用Jigsaw Toxic Comment Classification Challenge数据集训练，以区分有害和无害的评论。

情感转换分类器：使用IMDB数据集训练，以指导文本生成朝向所需的正面或负面情感。

研究者们将DATG方法与几种基线方法进行了比较，包括无控制的文本生成（CONTINUATION）、注入特定提示以引导模型输出（INJECTION）、使用属性预测器调节文本生成（FUDGE），以及通过操纵提示的输出logits进行属性控制（PREADD）。

评估指标如下：