CTR之行为序列建模用户兴趣：DIEN

前言

在上一篇文章中 CTR之行为序列建模用户兴趣：DIN，开启了用户行为序列建模用户兴趣的篇章。DIN引入了Attention机制，对于不同的候选item，可以根据用户的历史行为序列，动态地学习用户的兴趣表征向量。但是，DIN没有考虑用户历史行为序列之间的相关性，也没考虑序列的先后顺序，难以捕获用户兴趣的变化。

概要

论文：Deep Interest Evolution Network for Click-Through Rate Prediction

链接：https://arxiv.org/pdf/1809.03672.pdf

在CTR模型中，通过用户的行为数据捕获用户的潜在兴趣是非常重要的。另外，考虑到外在环境和内在认知的变化，用户的兴趣是随着时间在动态演变的。

而许多CTR预估模型直接把用户行为(item)的表征当做兴趣，而缺少具体的行为下潜在兴趣的特定建模；少部分研究也会考虑到兴趣的变化趋势。

因此，在这篇论文中，阿里提出了一种新的模型 Deep Interest Evolution Network (DIEN)：

设计了一种兴趣提取网络（interest extractor layer），从历史行为序列来捕获用户的时间性兴趣（temporal interests），并且针对GRU的隐状态（hidden state）在兴趣表征上能力不足的问题，加入了一种辅助loss，它使用连续的行为来激励每一步隐状态的学习，提升隐状态表征潜在的兴趣的能力；
另外，还设计了兴趣演变网络（interest evolving layer），使用引入注意力机制的更新门控网络（AUGRU），增强相关的兴趣对目标item的影响，并克服了推理时的兴趣漂移问题。

DIEN的整体网络结构如下图：

DIEN网络结构

对比DIN的优势

用户的行为序列信息是非常有价值的，即能够捕获用户的兴趣演变过程在许多推荐场景下是十分有用的，比如电商推荐场景，用户前段时间在挑选手机，那么这段时间的行为序列会集中在手机这个品类的商品，但在他完成手机的购买之后，近期的兴趣可能就会变成篮球。

而DIN没有考虑序列信息，无法学习到这种时间性的兴趣趋势演变，那么DIN就会变成基于所有历史行为进行综合推荐，而不是像DIEN这种“针对下一次购买动机的推荐”。

基础模型

CTR的深度学习基础模型结构基本都是一致的，包括特征表征（feature representation）、模型结构（model structure）、损失函数（loss function），而模型结构由Embedding和MLP组成。

特征表征

通常的在线推荐系统，主要包括四类特征：用户属性(User Profile)、用户行为(User Behavior)、广告Ad(target item)和上下文(Context)，每一类都有多个特征域fields：

用户属性的fields一般有性别、年龄等
用户行为的fields则是用户点击过的goods id列表，当然也可以有其他的field，比如用户点击过的的shop_id、cat_id等
广告的fields一般有ad_id，shop_id等
上下文的fields则有时间等

每一个field的特征值可以编码为one-hot向量，如性别=男编码为[1,0]，而性别=女则编码为[0,1]。四类特征对应的不同fields的编码向量拼接起来分别用 $x_p,x_b,x_a,x_c$ 来表示。

在序列CTR模型中，用户行为的每一种field是多个行为组成的列表，而每一个行为对应一个one-hot向量：

$x_b=[b_1;b_2;b_T] \in \mathbb{R}^{K \times T}，b_t \in \{0,1\}^K$

$b_t$ 是第t个行为的one-hot向量，T是用户历史行为的个数，K则是用户可能点击到的商品的总量。

Embedding&MLP

Embedding.

Embedding是一种很广泛使用的将大规模离散特征转化为低维的稠密特征。在embedding layer中，每一个field会有一个对应的embedding矩阵。例如用户点击过的商品的embedding矩阵可以表示为：

$E_{goods}=[m_1;m_2;m_K] \in \mathbb{R}^{n_E \times K}$ ， $m_j \in \mathbb{R}^{n_E}$ 代表一个维度为 $n_E$ 的embedding向量。

再具体一点，对于用户行为特征 $b_t$ ，当 $b_t[j_t]=1$ 时，它对应的embedding向量便是 $m_{j_t}$ ，因此一个用户的行为的有序的embedding向量列表可以表示为:

$e_b=[m_{j_1};m_{j_2};...;m_{j_T}]$

同理， $e_a$ 代表上述四类中的广告这类特征中所有fields的拼接embedding向量。

Multilayer Perceptron（MLP）.

首先，这四类特征的embedding向量会分别进行pooling操作（concat、mean pooling或sum pooling等），然后再拼接起来。最后，拼接后的向量再进入MLP，得到最后的预测值。

损失函数

深度学习CTR模型最常用的损失函数是负negative log-likelihood（负对数似然）函数，使用target item的标签来监督整体的预测：

$x=[x_p,x_b,x_a,x_b] \in \mathcal{D}，\mathcal{D}$ 是数量为N的训练样本集合。 $\in \{0,1\}$ 表示用户是否点击了target item。 $p (x)$ 是整个网络的输出，表示用户点击target item的预估概率。

DIEN结构

如下图所示，DIEN由以下几部分组成：

所有类别特征通过Embedding Layer转换为embedding向量；
DIEN通过两个步骤来捕获兴趣演变：interest extractor layer（兴趣提取层）会通过历史行为序列来提取兴趣序列；interest evolving layer（兴趣演变层）来建模与target item相关的兴趣演变过程；
最后的兴趣表征（final interest）和广告、用户属性、上下文的embedding向量进行拼接；
拼接的向量输入到MLP，得到最后的预测值。

DIEN网络结构

DIEN-兴趣提取层

在电商系统中，用户的行为是潜在兴趣的载体，用户的兴趣会在产生一个行为之后发生改变。在这个兴趣提取层中，将会从用户行为序列中提取一系列兴趣状态（interest states）。

兴趣提取层

GRU建模

用户的点击行为包含丰富的信息，即使在短期内，行为序列长度也可能是很长的，比如两周内。综合了效率和效果，论文使用GRU来建模不同行为之间的关系，输入是根据发生时间排序的行为。GRU解决了RNN的梯度消失问题，并且比LSTM更快。GRU的数学表达式如下：

$\sigma$ 是sigmoid函数， $\circ$ 是element-wise product， $W^u,W^r,W^h \in \mathbb{R}^{n_H \times n_I}$ ， $U^z,U^r,U^h \in n_H \times n_H$
$n_H$ 是隐藏层维度， $n_I$ 是输入的维度， $i_t$ 是GRU的输入， $i_t=e_b[t]$ 是第t个行为的表征， $h_t$ 是第t个隐状态（hidden states）。

辅助损失

然而，捕获行为之间的关系的隐状态 $h_t$ 并不能高效地表征兴趣。因为target item的点击行为的驱动是final interest，即标签 $L_{target}$ ，仅仅是对final interest的预测的监督的ground truth，然而历史状态 $h_t(t<T)$ 并不能得到正确的监督。

众所周知，每一步的兴趣状态会直接引导连续的行为。所以，论文提出一种辅助loss：

使用下一个行为 $b_{t+1}$ 来监督兴趣状态当前 $h_t$ 的学习
除了使用真实的下一个行为来作为正样例，还进行负采样，从所有item中采样一个未被点击过的item来作为负样例

因此，存在N对行为序列，其对应的embedding如下：

$\{e_b^i,\hat{e}_b^i\} \in \mathcal{D}_{\mathcal{B}},i \in 1,2,...,N$

$e_b^i \in \mathbb{R}^{T \times n_E}$ 对应用户点击过的序列，而 $\hat{e}_b^i \in \mathbb{R}^{T \times n_E}$ 则对应负采样的序列。
$n_E$ 是embedding的维度大小，T是历史行为item的数量。
$e_b^i[t] \in \mathcal{G}$ 代表用户i点击的第t个item的embedding。

辅助loss

辅助loss的表达式如下：

其中，论文提到 $\sigma(x_1,x_2)=\frac{1}{1+exp(-[x_1,x_2])}$ 是一个sigmoid激活函数，但看源码实现其实是一个激活函数为sigmoid的MLP。 $h_t^i$ 是用户i的第t个GRU隐状态。

加入辅助loss之后，全局的loss则变成了：

$L=L_{target}+\alpha\ *\ L_{aux}$

$\alpha$ 是一个平衡兴趣表征和CTR预估的超参数。

辅助loss带来的好处有以下几点：

在兴趣学习方面，提升GRU的隐状态对兴趣的表征能力
在GRU学习迭代方面，降低反向传播的难度，当对较长的历史行为序列进行建模时
为embedding层的学习提供更多的语义信息，能够得到一个更好的embedding矩阵

在辅助loss的作用下，每一个隐状态 $h_i$ 应有能够充分表征兴趣状态，在用户进行了行为 $i_t$ 之后。

T个兴趣状态 $h_1,h_2,...,h_T]$ 拼接之后，组成了用户的兴趣序列，会作为下一个网络层-兴趣演变层的输入，来建模兴趣演变趋势。

DIEN-兴趣演变层

兴趣演变

上述提到，在外在环境和内在认知的联合影响下，用户的不同兴趣类型是一直在变化的。拿服装来说，随着流行趋势和用户品类的变化，用户的服装偏好也在演变。这个兴趣的演变过程直接决定了CTR模型的服装候选集。

建模这个演变过程的好处有以下几点：

兴趣演变模块能够用更多的相关历史信息来补充final interest的表征
它更好地随着兴趣变化趋势来进行target item的预估

在演变过程中，兴趣尤其表现了两个特性：

由于兴趣的多样性，兴趣是会漂移的。比如用户可能在前一段时间比较关注书籍，但在下一段时间却更需要衣服。
即使兴趣会彼此影响，但每个兴趣都有着自己的演变过程。比如书籍和服装的演变过程是几乎完全独立，我们只需要关注与target item相关的演变。

注意力机制的GRU

兴趣演变模块

通过分析兴趣演变的特征，论文结合注意力机制的局部激活能力和GRU的序列化学习能力，来建模这个兴趣演变。GRU的每一步局部激活可以加强相关兴趣的相互作用，弱化兴趣漂移的困扰，这对建模与target item相关的演变过程是非常有帮助的。

与原始GRU的表达式一样，使用 $i'_t,h'_t$ 表示兴趣演变模块的输入和隐状态，第二个GRU的输入则对应兴趣提取层的兴趣状态： $i'_t=h_t$ ，最后一个隐状态 $h'_T$ 代表final interest state，具体的注意力函数如下式：

$e_a$ 是上述四类特征中的广告Ad（target item）的不同fields的embedding向量拼接。

$\in \mathbb{R}^{n_H \times n_A}$ ， $n_H$ 是隐状态的维度， $n_A$ 是广告embedding向量的维度。

注意力得分会影响广告 $e_a$ 和输入 $h_t$ 的相关关系，更高的得分则代表着更强的相关性。

下面是论文提出的GRU结合注意力机制的几种方式：

GRU with attentional input (AIGRU).

为了激活相关的兴趣，AIGRU是一种最直接的方法，使用注意力得分来影响输入兴趣状态，如下式：

$i'_t=h_t\ *\ \alpha_t$

$h_t$ 是兴趣提取层的第t个隐状态，而 $i'_t$ 是第二个GRU的的输入，即上图[兴趣演变模块]中的AUGRU的输入， $*$ 表示是向量点积。

对于AIGRU，不怎么相关的兴趣会降低注意力得分。理论上，得分可以降低直为0。然而AIGRU并不能很好起效，因为即使接近0的输入也可以改变GRU的隐状态，所以不怎么相关的兴趣会影响到兴趣演变的学习。

Attention based GRU(AGRU).

AGRU在QA问答领域中第一次被提出，通过来自注意力机制的embedding信息优化了GRU的结构之后，AGRU可以在复杂的查询中有效提取关键信息。

基于此，论文也使用AGRU这种有效机制，在兴趣演变过程中来捕获相关的兴趣。具体的，AGRU使用注意力得分来替代GRU中的更新门控，直接地改变隐状态：

$h'_t,h'_{t-1}, \tilde{h}'_t$ 都是隐状态。

**AGRU利用注意力得分来直接控制隐状态的更新，减弱在演变过程中不相关的兴趣。**进入的注意力embedding提升了注意力机制的影响，并且克服了AIGRU的缺点。

GRU with attentional update gate (AUGRU).

AGRU使用一个标量形式的注意力得分 $\alpha_t$ 来代替向量形式的更新门控 $u_t$ ，但这忽略了不同维度是有着不同重要性的。因此提出了注意力的更新门控（AUGRU）：

$u'_t$ 是原来的更新门控， $\tilde{u}'_t$ 是注意力的更新门控， $h'_t,h'_{t-1}, \tilde{h}'_t$ 都是隐状态。

AUGRU保留原来更新门控的维度信息，这可以来学习每个维度的重要性。在此基础上，使用注意力得分来缩放更新门控的所有维度，这可以减少不相关的兴趣对隐状态的影响。AUGRU有效避免了兴趣漂移的困扰，并且让相关的兴趣更顺滑地演变。

实验结果

公开数据集

真实的工业数据集

总结

DIEN相比DIN，引入用户历史行为序列的时间性信息，使用GRU来建模兴趣状态，并且引入辅助loss来提升对兴趣的表征能力；
接着第二个GRU再利用上一步的兴趣状态序列来建模用户兴趣演变过程，得到最终的兴趣状态，并且加入注意力机制，来减弱不相关的兴趣的影响，避免了兴趣漂移的问题；
其实整个DIEN结构还是比较好理解的，但是一些对行为序列和用户兴趣的分析还是值得仔细阅读的。

代码实现

git

推荐系统CTR建模系列文章：

CTR之行为序列建模用户兴趣：DIN

CTR特征重要性建模：FiBiNet&FiBiNet++模型

CTR预估之FMs系列模型:FM/FFM/FwFM/FEFM

CTR预估之DNN系列模型:FNN/PNN/DeepCrossing

CTR预估之Wide&Deep系列模型:DeepFM/DCN

CTR预估之Wide&Deep系列(下):NFM/xDeepFM

CTR特征建模：ContextNet & MaskNet(Twitter在用的排序模型)