即插即用、简单有效的大语言模型推荐算法！港大联合百度推出RLMRec

论文链接：

https://arxiv.org/abs/2310.15950

论文代码：

https://github.com/HKUDS/RLMRec

实验室主页：

https://sites.google.com/view/chaoh/group-join-us?authuser=0

TLDR

本文从互信息最大化的理论角度出发，通过引入文本信号以优化推荐算法的表征学习中存在的噪音，并且设计一套高效且无偏的基于大语言模型的用户/商品画像生成流程以提供优质的文本信号，最终通过基于对比式学习和生成式学习两套范式实现了互信息最大化的目标，在不同的任务场景下体现出了优势。

从有噪的表征学习说起

推荐系统已经成为互联网的一种基本服务，其通过学习用户历史交互行为中的偏好，向用户推荐个性化的商品。目前，基于图神经网络（Graph Neural Networks）的协同过滤算法在推荐领域体现出了巨大的优势。

一般来说，在协同过滤（Collaborative Filtering, CF）的场景下，我们拥有用户集合 U 和商品集合 I，以及他们之间的交互，那么如果我们将每一个用户和商品分别视为节点，并且将他们之间的交互记录视为边，就能够构造一个用户商品交互图（User-Item Interaction Graph）。

接着基于图神经网络的层层信息传递和聚合，我们可以最终得到每一个用户和商品节点基于图结构所学习到的表征，由于该表征包含了协同过滤的信息，因此我们可以称之为协同过滤特征表示（CF-side Representation）。

然而不可避免地，在用户和商品的交互图中存在着许多噪音（例如用户的误点击行为，用户购买过某商品之后发现并不喜欢等等情况），因此图上的某些边（交互）并不一定是正向的，即不能体现用户真正的购物偏好。

但是在模型优化的过程中，这些交互边任然会被视为是正样本，通过 BPR 损失对模型的参数进行优化，从而相关有噪的信息就被嵌入到图网络模型所学习到的表征中，因此最终变成了有噪的表征学习过程。

引入文本信号从理论上优化表征

如果没有额外的信息，仅仅依靠于用户-商品的交互图，想要挖掘出这些噪音边并且去掉是比较困难的，因此，我们考虑引入别的信号，即文本信号。

在这里我们首先对协同过滤特征表示（CF-side Representation）进行剖析，既然它是有噪声影响的，同时又是有益于推荐的，那么其实在该特征中存在着两种成分：（i）一部分是有益的于推荐的成分，其蕴含了用户/商品的交互行为的偏好；（ii）另一部分是包含噪音的成分，这是我们想去除的。

那么接下来我们考虑，如果存在着另一种模态的特征表示，它其中同样也蕴含着有益于推荐的成分，接着我们极大化两种特征表示中共存的部分（即交集），就可以压缩原本存在的噪音的部分，从而实现对表征学习的优化。

什么样的模态能够直白的表示出用户和商品的交互偏好呢？很显然，我们可以直接通过文本的形式将其体现出来，例如我们可以以文本的形式直接描述某个用户喜欢什么类型的商品。

我们需要将自然语言的文本转换成嵌入的形式（Sentence-to-Embedding），我们称之为语义特征表示（Semantic Representation），在编码的过程中，其不可避免的也会将一些我们不想要的信息嵌入进去，例如语言本身的语法等等内容，因此我们考虑文本模态的特征也有包含一部分的噪音。因此，上述完整的流程，可以形象化的体现为如下形式：

我们通过一定的理论推导，假设所有文本模态的特征表示都是预先获得好且固定不变的，那么上述的优化过程等同于：最大化两种模态特征表示的互信息（Mutual Infomation）。

接着，由于特征都是通过神经网络编码而得，因此我们无法直接准确的计算互信息，转而进一步推导，我们获得了基于 InfoNCE 的互信息变分下届（Variational Lower Bound），并且通过最大化互信息变分下届的方式实现对互信息的优化。

在该优化公式中，存在一个我们称之为 critic function 的函数，其基于两种模态特征的输入，并且输出一个实数来体现其相似度。到此为止，我们已经获得了一个基本的蓝图，需要引入额外的模态，并且实现户信息的最大化优化。从实践的角度来说，存在有两个呆解决的挑战：（i）如何获得高质量的用户/商品文本表征？（ii）如何有效的实现 critic function 的计算？我们将继续进行讲解。

基于大语言模型的文本表征获取

首先我们想获得高质量的文本表征（Semantic Representation），我们先需要有高质量的文本，也就是用户和商品的画像，由于他们需要能够体现出其在推荐场景下的交互偏好，因此我们考虑该画像中应该要体现以下信息：（i）用户画像：体现出该用户喜欢什么类别的商品（ii）商品画像：体现出该商品会吸引什么样的用户群体。

然而，由于推荐数据的原始数据集中，并不一定直接拥有这样的文本描述，转而是大量原始的文本内容（例如用户反馈，商品标签等信息），同时也可能存在有许多噪音（例如用户反馈中存在有大量的噪音文本）。

因此，在这一步为了能够高效的获取上述画像，我们需要使用大语言模型（Large Language Models）的文本理解能力，同时也需要设计出一套合理的画像生成流程，以实现无偏的画像生成，描述出用户和商品真正的交互偏好。

基于此，我们设计了一套先商品后用户（Item-to-User）的生成流程以适配不同数据集所拥有的原始文本信息，从顺序上的角度来说，我们先生成所有商品的画像，然后再生成所有用户的画像。由于我们需要基于大语言模型进行画像的推理，因此这一步的核心要义就是如何去构建 Prompts，并且在其中包含足够的信息，以供语言模型准确的抓住用户和商品的交互行为，实现无偏的推理。

首先，对于商品画像的生成（Item Profile Generation），我们考虑两种情况，第一种是在数据集中存在有对该商品的描述，例如在 Amazon-book 数据集中，就存在有对书本的原始描述，如果是该情况，则直接将原始描述用于构建 Prompts。

第二种情况就是在数据集中存在有对商品的属性标签以及用户反馈，例如在 Yelp 数据集中就有用户反馈信息和 POI 的基本标签，那么基于此我们认为也足够用于语言模型进行无偏地推理商品画像。其次，对于用户画像的生成（User Profile Generation），我们考虑基于该用户购买过的商品以及其对该商品留下的反馈来构建 Prompts。

由于我们已经在之前生成了所以商品的画像，因此此处我们就可以配合商品画像以及用户对该商品的反馈以提供足够的信息，由于用户对商品的反馈中体现出了用户是否真的喜欢该商品，因此其蕴含的信息是十分充分且直接的。

值得指出的是，上述提供的流程在实现画像生成的时候每个用户和商品都是独立生成的，因此可以实现并行生成以提高效率，同时我们也使用了思维链的思想构建 Instruction，让语言模型在推理的过程中同时给出理由，以提高最终获得的画像质量。关于具体生成的 Instruction 的设计可以参考原文和开源代码中提供的例子。

完成了上述的画像生成过程，我们就实现了为用户-商品交互图上的每一个节点提供了高质量的文本描述（Text Description），这也同时实现了文本标注图（Text-attributed Graph, TAG）的构建。

接着，我们就可以利用文本编码器（Embedder）将一段文本转换成特征表示，我们通过实验发现，越优异的文本编码器对后续算法的性能帮助越大，因此此处我们使用了OpenAI 提供了 text-embedding-ada-002 作为编码器。

互信息最大化

通过上述的过程我们已经实现了第一个目标，即文本模态特征表示（Semantic Representation）的获取，接下来我们就要实现对于 critic function 的建模，以实现最终对互信息的优化。此处我们考虑了如下两种实现方式。

第一种是对比式对齐建模（Contrastive Alignment, RLMRec-Con），我们通过多层线性感知机将文本表征进行降纬，使其和协同过滤表征具有同一个维度，接着利用余弦相似度配合指数函数计算函数值。形象上来说，对比式对齐实现了两个模态特征的双向对齐。

第二种是生成式对齐建模（Generative Alignment, RLMRec-Gen），此处我们首先随机选择图上节点，将其初始特征替换成 [MASK] token，接着利用多层线性感知机将该节点的协同过滤表征进行放大至于文本模态一个维度，并且同样利用余弦相似度配合指数函数计算函数值。形象上来说，生成式对齐符合 Mask-autoencoding 的思想，实现了从协同过滤模态向文本模态的单向重构。

最后，由于我们的互信息最大化是一个额外的优化目标，因此我们所提出的算法是一个模型无关（model-agnostic）的框架，我们称之为 RLMRec，其可以无缝嵌入到任何以表征学习（Representation Learning）为基础的协同过滤推荐算法中。

实验效果

我们在协同过滤的数据集（Amazon-book，Yelp，Steam）上面进行了测试，并且将我们的框架和现有的最先进的基于图神经网络的推荐算法（GCCF, LightGCN, SGL, SimGCL, DCCF, AutoCF）进行了组合，均提升了现有推荐算法的性能，并且效果的提升具有显著性。

接着，我们对文本模态表征执行了消融试验，使用了不同的文本编码器构造了不同质量的模态表征，通过试验发现越好的表征对模型性能的提升越大，同时我们通过随机打乱（Shuffle）文本表征的顺序构造了一个错误对齐的绝对噪声情况，其性能下降最明显，由此进一步证明了越好的文本模态表征对模型性能的帮助越大，也与我们的理论结论相符合。

其次，我们执行了噪声试验，通过在原始数据上加入一定比例的随机噪声（加入随机交互边），然后验证对比式对齐（RLMRec-Con），生成式对齐（RLMRec-Gen）以及原始模型在上面的性能。

通过试验我们发现，RLMRec-Con 和 RLMRec-Gen 在任意噪声情况下都能过对原始模型有一定的性能提升，体现了其抵抗噪声的效果。同时，基于对比式对齐的方式在噪声比例越大时，性能下降的比例越小，因此其抵抗噪声的影响是最强的。

最后，我们探索了所提出的算法是否能为与预训练（Pre-training）任务提供帮助，我们将 Yelp 数据集按照年份划分成预训练数据和新数据，并且使用不同的方式（RLMRec-Con、RLMRec-Gen、Backbone）在预训练数据上进行表征学习，并且用于初始化在新数据集上面的 Backbone 算法的初始参数，通过 fine-tuning 之后验证结果。

通过结果我们发现：首先 RLMRec 对预训练性能有提升，其次，基于生成式对齐的方式获得的参数更好，由此可见生成式对齐可以有效避免对原始数据的过度拟合，更加适用于预训练任务。