推荐系统(十)用户行为序列建模-Pooling 路线

对推荐系统而言,准确捕捉用户兴趣是其面临的核心命题。不管是样本、特征还是模型结构等方面的优化,本质上做的事情都是在提高推荐系统对用户兴趣的捕捉能力,因此如何提高这种能力,对推荐效果的提升有重要作用,也是算法工程师日常工作的核心出发点。
用户历史行为是非常重要的信息。基于丰富、不同用户差异大、随时间不断变化的行为数据,如何有效利用这些信息,挖掘出用户隐藏在行为背后的真正兴趣,从而将其准确表达出来,既能体现出不同用户的差异性,又能捕捉到用户兴趣随着时间的变化,对推荐效果非常关键。

1.常用的特征

推荐本质是排序,而排序则是特征的艺术 。虽然特征工程看上去似乎没有深度模型那么“高大上”,但在实际业务中,基于特征工程优化,比基于模型更稳定可靠,且效果往往不比优化模型逊色。特征工程一定要结合业务理解,在具体业务场景上,想象自己就是一个实际用户,会有哪些特征对你是否点击、是否转化有比较大的影响。一般来说,可以枚举如下特征:

1.1 Context 特征

如星期、时间、网络类型、操作系统、客户端版本等。

1.2 User 特征

即常说的用户画像,可以共享其他 APP 或者同一 APP 不同场景内的、用户各个维度的特征(例如一些大型互联网企业,通常涉及多个电商、短视频、出行、支付等多个领域,因此可以很容易获得用户各个维度的特征,构建准确的用户画像),主要包括三部分 :

  • 静态特征:User ID、性别、年龄、城市、职业、收入水平、是否大学生、是否结婚、是否有小孩、注册时间、是否 VIP、是否新用户等。静态特征一般区分度还是挺大的,比如不同性别、年龄的人,兴趣会差异很大。再比如是否有小孩,会直接决定母婴类目商品是否有兴趣。
  • 统计特征:比如 User 近 30 天、14 天、7 天的 PV(Page View)、VV(Video View)、CTR(Click-Through-Rate)、完播率、单 VV 时长等,最好同时包括绝对值和相对值。毕竟 2 次曝光 1 次点击,和 200 次曝光 100 次点击,CTR 虽然相同,但其置信度天差地别。统计特征大多数都是后验特征,对模型预测帮助很大。统计特征一定要注意**【数据穿越】**问题,构造特征时千万不要把当天的统计数据也计算进去了。
  • 行为序列特征:是目前研究热度极高的方向,也是精排模型优化的关键。可以构建用户短期点击序列和长期购买序列,也可以构建用户正反馈点击购买序列和负反馈曝光未点击序列。序列长度目前是一个痛点,序列过长时,Transformer 等模型计算量可能很大,导致模型 RT 和 P99 等指标扛不住,出现大量超时。

数据穿越:即采用未来数据来进行训练。举个例子:当前时刻的样本的统计值只能是当前时刻之前的,而不能使用之后的数据统计。假设小时更新 CTR 的话,每个样本的 CTR 值使用当前小时的样本总数统计,21 点 01 分的样本的 CTR 其实不能采用 21 点整体的 CTR 计算的,应该使用 21 点 01 分之前的数据计算。不然就会出现数据穿越问题,21 点 01 分的样本实际使用了未来的点击数据。

1.3 Item 特征

与 User 特征不同,Item 特征通常无法与其他 APP 共享,不同 APP 的 Item ID 等重要特征不能对齐,导致无法领域迁移。主要有如下特征:

  • 静态特征:如 Item ID、作者 ID、类目 ID、上架时间、清晰度、物理时长、Item Tag等。这些特征一般由机器识别、人工打标、用户填写运营审核等方式产出,十分重要。
  • 统计特征:如 Item 近 14 天、7 天、3 天的 PV、VV(Video View)、CTR、完播率、单 VV 时长等,最好同时包括绝对值和相对值。跟 User 侧统计特征一样,要注意数据穿越问题。

1.4 交叉特征

Item 与 User 交叉特征,比如 Item 在不同性别年龄用户上的统计特征。虽然模型可以实现自动特征交叉,但是否交叉得好就要另说了。手工构造关键的交叉特征,还是很有意义的。

2.如何处理特征

特征的处理主要有如下几种情况:

2.1 离散值

直接 embedding,注意高维稀疏 ID 特征,比如 Item ID 和 User ID 的收敛问题。

2.2 连续值

主要有两种方式:其一,直接与其他 embedding concat:操作简单,但泛化能力差;其二,正样本等频分桶,再离散化:泛化能力较强,是目前通用的解决方案。

2.3 多值特征

最典型的就是用户行为序列,主要方法有:

  • mean-pooling、sum-pooling:将行为序列中 Item 特征,逐个进行 mean-pooling 或者sum-pooling。
  • att-pooling:将行为序列中各 Item,与待打分 target Item,进行 attention 计算再平均,也就是加权平均,比如 DIN。这个方法考虑了 Item 的重要程度,也支持引入Item 的重要 side info,通过引入 item index,其实也可以带有一定的时序信息,可以作为序列建模的 baseline。
  • 序列建模:将行为序列中各 Item,通过 GRU 等 RNN 模型,进行建模,取出最后一个位置的输出即可,比如 DIEN。此方法考虑了用户行为的时序关系和兴趣迁移,目前基本都使用 Transformer 来进行时序建模,可以缓解反向传播梯度弥散、长序列建模能力差、串行耗时高等问题。

3.为什么需要用户行为序列建模?

在推荐场景(如商品推荐、视频推荐、音乐推荐等)中,用户的行为数据通常非常丰富,当 Item 曝光给用户之后,用户可能会产生基于 Item 的多种行为,典型案例如下:

  • 电商平台:点击、浏览、加购、下单、退出等;
  • 视频平台:点击、播放、点赞、评论、打赏、重复播放等;

上述些行为隐含了用户多样的兴趣,直接表达了用户对 Item 的喜好程度,当用户重复播放(或重复购买、重复点击)某 Item,则表明用户大概率对当前 Item 很感兴趣,当用户直接划过某 Item,则用户大概率对当前 Item 没有兴趣。在日常生活中,很多用户可能无法明确表达自己的想法、兴趣,但透过用户的行为,则可以把用户自身都没有感知到的兴趣捕捉到——正所谓:嘴虽硬,但身体很诚实。一个人的行为是检验其想法最好的标准。

除了丰富之外,用户历史行为数据,还具有差异大、变化快的特点:

  1. 差异大:不同用户的行为数据差异巨大,比如,一个对科技感兴趣的用户,其历史行为数据中通常会有大量科技相关的 Item;一个对音乐感兴趣的用户,相关的音乐 Item 在其历史行为中将高频出现;
  2. 变化快:用户的行为数据变化快,呈现出的结果是行为分布随着时间变化,比如在电商场景,用户的行为可能消费需要而变化。当用户需要购买电冰箱时,通常会货比三家,因此用户将浏览大量电冰箱相关的 Item。然而,一旦用户完成电冰箱购买,短期内将不再具有该需求,因此用户对电冰箱相关 Item 的兴趣将急剧降低。

用户历史行为是非常重要的信息。基于丰富、不同用户差异大、随时间不断变化的行为数据,如何有效利用这些信息,挖掘出用户隐藏在行为背后的真正兴趣,从而将其准确表达出来,既能体现出不同用户的差异性,又能捕捉到用户兴趣随着时间的变化,对推荐效果非常关键。

4.用户行为序列建模方法

深度学习时代,各种表征 embedding 化。在构建特征时,用户行为数据采用行为序列的方式来表示。随着深度学习在推荐领域的应用加强,用户行为序列特征受到越来越高的重视。在推荐场景中,用户兴趣建模,关键点在于如何利用用户的行为序列特征,得到有效的 embedding 来表征用户兴趣。针对此,不少方法被陆续提出。

早期使用的行为序列长度有限,往往在十或百的量级。这一两年随着模型越来越难做出效果,从业人员开始从数据和特征的角度进行改进,同时配合工程改造和性能提升,使用的行为序列长度逐渐加长,从十或百的量级提高到了千甚至万的量级,用户兴趣表征也逐渐从短序列向长序列发展。随着序列长度的增加,用户的兴趣也从单一表征向多兴趣发展。

短序列和长序列这两种方法在建模思路上不同,方法设计的出发点差异主要源自模型复杂度带来的性能压力。处理短序列时,业界使用的方法主要有:

  1. 基于 pooling 的思路,这种思路简单,直接采用 sum、mean 等 pooling 的方式;
  2. 基于 RNN 的序列化建模思路,这种思路一般利用 RNN[1]、LSTM[2]、GRU[3] 等相关的循环神经网络实现;
  3. 基于 attention 思路,这种思路分为 self attention 和 target attention,其中 self attention 典型的方法是 transformer[4],target attention 包括 din[5]、dien[6]、dsin[7]等。

长序列的方法核心是解决序列长度面临的计算性能问题,包括 MIMN[8],SIM[9] 等。

用户在实际场景中往往呈现多样的兴趣,因此业界也提出一些对用户多兴趣的建模方法,如 MIND[10]、DMIN[11] 等。

本篇先分享基于 pooling 的建模方法。在之后的文章中,将继续介绍 attention、长序列、多兴趣等方法。

4.1 基于pooling 的思路

早期深度模型刚开始应用于推荐领域时,对序列特征的处理方式简单直接,采用 pooling 的思路。google 的 YouTube 团队发表在 2016 年 RecSys 会议的论文《Deep Neural Networks for YouTube Recommendations》[12] 采用 mean pooling 的方式处理序列特征,在此之后,该思路被业界广泛采用,sum pooling、mean pooling、max pooling 是该思路中常用的方法。

如图 1 所示,为论文采用的 DNN 方法,在序列特征的处理上,分别对用户搜索历史和观看历史的 embedding 向量加权平均,得到用户整体的搜索和观看的历史状态。
Alt
我们先给出行为序列的形式化定义, U = { u 1 , u 2 , u 3 , . . . , u n } U=\left \{ u_{1},u_{2},u_{3},...,u_{n} \right \} U={u1,u2,u3,...,un} 代表用户集合, I = { i 1 , i 2 , i 3 , . . . , i n } I=\left \{ i_{1},i_{2},i_{3},...,i_{n} \right \} I={i1,i2,i3,...,in}代表物料(可以是短视频、商品、音乐等)集合,用户的一系列用户行为可以被表达为 B u = { b 1 u , b 2 u , b 3 u , . . . , b ∣ B u ∣ u } B_{u}=\left \{ b_{1}^{u},b_{2}^{u},b_{3}^{u},...,b_{\left | B_{u} \right |}^{u} \right \} Bu={b1u,b2u,b3u,...,bBuu} ∣ B u ∣ \left | B_{u} \right | Bu表示用户行为序列的长度; b i u b_{i}^{u} biu 代表用户 u 的第 i 个历史行为,可以包含多种 side info 信息, b i u = ( s i , 1 u , s i , 2 u , . . . , s i , k u ) b_{i}^{u}=\left ( s_{i,1}^{u} ,s_{i,2}^{u},...,s_{i,k}^{u}\right ) biu=(si,1u,si,2u,...,si,ku) s i , k u s_{i,k}^{u} si,ku代表用户 u 的第 i 次行为的第 k 个 side info 信息,一般是物料的 ID、类目、发生行为的时间等。在实践中,可将用户的每一个行为转换为稠密向量: e i u = c o n c a t ( E m b e d d i n g ( b i u ) ) e_{i}^{u}=concat(Embedding(b_{i}^{u})) eiu=concat(Embedding(biu)),进而用户的行为可表示为: E u = { e 1 u , e 2 u , e 3 u , . . . , e ∣ B u ∣ u } E_{u}=\left \{ e_{1}^{u},e_{2}^{u},e_{3}^{u},...,e_{\left | B_{u} \right |}^{u} \right \} Eu={e1u,e2u,e3u,...,eBuu}

经过 mean-pooling 之后,得到结果为:
A u = f ( E u ) = 1 ∣ B u ∣ ∑ i = 1 ∣ B u ∣ e i u A_{u}=f(E_{u})=\frac{1}{\left | B_{u} \right |} \sum_{i=1}^{\left | B_{u} \right |}e_{i}^{u} Au=f(Eu)=Bu1i=1Bueiu

基于 pooling 的思路处理用户行为序列特征,操作简单直接,使用 tensorflow 自带的函数 tf.reduce_sum、tf.reduce_mean、tf.reduce_max 即可实现。

上述思路的缺点也很明显,将序列作为无序集合,对每个 Item 同等对待,无法区分不同 Item 的重要度,从而使用户兴趣的表征效果减弱。而在实际场景中,用户历史行为中不同的 Item 对用户当前兴趣表征能力不同,如相比于用户在过去一个月前浏览的 Item,用户当前的兴趣用一天前浏览的 Item 来表征更合适。

4.2 引申:pooling 技术在图像处理领域的应用

在图像处理领域,池化层有一个很明显的作用:减少特征图大小,也就是可以减少计算量和所需显存。
mean-pooling(平均池化):即对邻域内特征点只求平均
优缺点:能很好的保留背景,但容易使得图片变模糊
正向传播:邻域内取平均

Alt

max-pooling(最大池化):即对邻域内特征点取最大

优缺点:能很好的保留纹理特征,一般现在都用 max-pooling 而很少用 mean-pooling
正向传播:取邻域内最大,并记住最大值的索引位置,以方便反向传播
Alt

Stochastic-pooling(随机池化):只需对 feature map 中的元素按照其概率值大小随机选择,即元素值大的被选中的概率也大。而不像 max-pooling 那样,永远只取那个最大值元素。在区域内,将左图的数值进行归一化处理,即 1/(1+2+3+4)=0.1;2/10=0.2;3/10=0.3;4/10=0.4
Alt

接着按照概率值来随机选择,一般情况概率大的,容易被选择到,比如选择到了概率值为 0.3 的时候,那么(1,2,3,4)池化之后的值为 3。使用 stochastic pooling 时,其推理过程也很简单,对矩阵区域求加权平均即可,比如上面图中,池化输出值为:10.1+20.2+30.3+40.4=3。

5.参考文献

https://weibo.com/ttarticle/p/show?id=2309634696248908382628

  • 1-RNN(ICLR2015), RECURRENT NEURAL NETWORK REGULARIZATION. https://arxiv.org/pdf/1409.2329.pdf
  • 2-LSTM, Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. https://arxiv.org/pdf/1506.04214.pdf
  • 3-GRU. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. https://arxiv.org/pdf/1406.1078.pdf.
  • 4-Attention is All you Need. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
  • 5-Deep Interest Network for Click-Through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3219819.3219823
  • 6-Deep Interest Evolution Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1809.03672.pdf
  • 7-Deep Session Interest Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.06482.pdf
  • 8-Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.09248.pdf
  • 9-Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. https://arxiv.org/pdf/2006.05639.pdf
  • 10-Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. https://arxiv.org/pdf/1904.08030.pdf.
  • 11-Deep Multi-Interest Network for Click-through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3340531.3412092.
  • 12-Deep Neural Networks for YouTube Recommendations. https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf.
  • 13-https://blog.csdn.net/m0_59023219/article/details/130883277

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/45564.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

tp6 实现excel 导入功能

在项目根目录安装 composer require phpoffice/phpspreadsheet 我们看一下郊果图&#xff0c;如下 点击导入excel表格数据 出现弹窗选择文件&#xff0c;控制台打开输出文档内容 前端layui代码 <form id"uploadForm" class"form-horizontal" encty…

7.25 Qt

制作一个登陆界面 login.pro文件 QT core guigreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c11# The following define makes your compiler emit warnings if you use # any Qt feature that has been marked deprecated (the exact warnings # depend on …

如何高效地查询IP归属地

高效识别IP归属地是网络安全领域中的一项重要工作。准确地识别IP的归属地不仅可以帮助网络管理员追踪和定位潜在的网络攻击者&#xff0c;还可以用于网络流量分析、地理定位服务等方面。 以下将介绍几种高效识别IP归属地的方法。 使用IP归属地数据库 IP归属地数据库是一种存储…

Clion开发STM32之W5500系列(综合实验)

说明 此为w5500模块的综合实验测试模块,包含dhcp、dns、ntp以上三个模块的驱动参考之前的文章&#xff0c;本篇不做说明.使用的开发芯片 stm32f103vet6系列,外设接口使用的spi2 实验内容: 通过dhcp动态获取ip,通过dns解析NTP服务域名的ip通过NTP服务ip获取时间 w5500配置驱…

国密SSL优势及应用场景

国密SSL的优势主要有以下几点&#xff1a; 更高的安全性&#xff1a;国密算法采用的是国家密码管理局推荐的算法&#xff0c;相对于传统的SSL协议更加安全。 更好的性能&#xff1a;国密算法是国家密码管理局推荐的算法&#xff0c;其加密效率与密钥长度相比传统算法更高。 更…

微服务架构演变

微服务架构筑基 软件架构演进 软件架构的发展经历了从单体结构、垂直架构、SOA架构到微服务架构的过程. 什么是微服务&#xff1f;&#xff1f; Spring Cloud Netfilx Spring Cloud Alibaba service Mesh 架构的发展&#xff1a;基于某一种因素 技术是服务于业务的 业务又是…

Vue mixin 混入

可以复用的组件&#xff0c;我们一般会抽离&#xff0c;写成公共的模块。 可以复用的方法&#xff0c;我们一般会抽离&#xff0c;写成公共的函数。 那么 在 Vue 中&#xff0c;如果 某几个组件实例 VueComponent 中、或者 整个 Vue 项目中 都存在相同的配置&#xff0c;那就…

数据结构(二)

目录 Trie树 并查集 堆 Trie树 作用:用来高效地存储和查找字符串集合的数据结构 基本形式: 模板代码如下: #include<iostream> using namespace std;const int N 100010;//idx代表当前用到哪个下标 //既是根节点&#xff0c;又是空节点 //cnt存储的是以当前点结尾的…

Mac 系统钥匙串证书不受信任

Mac 系统钥匙串证书不受信任 解决办法 通过尝试安装 Apple PKI 的 Worldwide Developer Relations - G4 (Expiring 12/10/2030 00:00:00 UTC) 解决该异常问题 以上便是此次分享的全部内容&#xff0c;希望能对大家有所帮助!

移动端商品详情页设计

效果图 代码如下 页面设计 <div class"container"><!--商品详情 start--><van-image class"goods-item-image" :src"goods.goodsHeadImg"></van-image><div class"goods-price">&#xffe5;<span&…

【VUE】npm打包报错 Syntax Error: Error: Cannot find module ‘imagemin-gifsicle‘

一. Syntax Error: Error: Cannot find module ‘imagemin-gifsicle’ npm run build 报错&#xff0c;报错如下 原因 这个错误消息显示缺少了 imagemin-gifsicle 模块&#xff0c;而它是 image-webpack-loader 的依赖项&#xff0c;导致构建失败。解决 &#xff08;1&#xf…

安全—01day

文章目录 1. 编码1.1 ASCLL编码1.2 URL编码1.3 Unicode编码1.4 HTML编码1.5 Base64编码 2. form表单2.1 php接收form表单2.2 python接收form表单 1. 编码 1.1 ASCLL编码 ASCII 是基于拉丁字母的一套电脑编码系统&#xff0c;主要用于显示现代英语和其他西欧语言。它是最通用的…

电容触摸屏(TP)的工艺结构

液晶显示屏(LCM),触摸屏(TP) “GG、GP、GF”这是结构分类&#xff0c;第一个字母表面材质&#xff08;又称为上层&#xff09;&#xff0c;第二个字母是触摸屏的材质&#xff08;又称为下层&#xff09;&#xff0c;两者贴合在一起。 G玻璃&#xff0c;FFILM&#xff0c;“”贴…

Stable Diffusion - 扩展 SegmentAnything 和 GroundingDINO 实例分割算法 插件的配置与使用

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/131918652 Paper and GitHub&#xff1a; Segment Anything: SAM - Segment Anything GitHub: https://github.com/facebookresearch/s…

蓝桥杯专题-真题版含答案-【牌型种数】【煤球数目】【寒假作业】【奖券数目】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 &#x1f449;关于作者 专注于Android/Unity和各种游…

MySQL 数据库约束

目录 一、数据库约束 1、约束类型 二、NULL 约束 三、unique 约束 四、default 约束 五、primary key 约束 自增主键 六、foreign key 外键约束 七、check 约束 一、数据库约束 我们使用数据库来存储数据&#xff0c;一般是希望这里存储的数据是靠谱的&#xff0c;…

There has been an error.Error running C:\WINDOWS\System32\icacls

目前网上有两种有效的解决方案&#xff1a; windows用户名含中文的创建一个新用户&#xff0c;链接 安装其他版本的PostgreSQL(可优先考虑&#xff0c;我使用该方法解决的问题)&#xff0c;链接

java项目之人才公寓管理系统(ssm+mysql+jsp)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的人才公寓管理系统。技术交流和部署相关看文章末尾&#xff01; 开发环境&#xff1a; 后端&#xff1a; 开发语言&#xff1a;Java 框架&…

【产品实习评审】对于高校跑腿的任务模型和价格模型设计比较到位

大家好&#xff0c;本篇文章分享【校招VIP】商业在线实习项目“跑个腿”第一期需求发布模块产品同学的脑图周最佳作品&#xff0c;该同学来自江苏师范大学社会学专业。 本项目亮点&#xff1a; 1 跑腿需求发布模块—构建项目数据模型&#xff0c;包括时效、常用地址和联系 2…