阿里拍卖资产推荐算法 召回进展年中总结

e9130b29203627bcbf6268d10255f5bc.gif

阿里拍卖是阿里巴巴旗下拍卖平台,覆盖房产、机动车、土地、债权等类目。召回策略作为推荐场景的第一环,决定了整个推荐系统的上限,目前包含了包括向量召回、I2I、LBS2I、C2I等多路召回。召回的核心目标是尽可能的返回用户所有可能会感兴趣的商品,给到后续粗排、精排、重排环节,最终曝光给用户。

与淘宝APP的普通商品不同,大资产商品有其独有的特点。唯一性:每件商品都是唯一的、单库存的,世界上没有两套一模一样的房子,导致对于单商品的学习难度较大;周期性:资产的预展周期通常为一个月左右,从资产上拍预展到结拍下架,时间很短,模型可能刚学习完这个商品,商品就要下架了;高价性:房子价格动辄几百上千万,土地价格动辄上亿,对于目标人群的筛选难度较高。

本文旨在分享多兴趣向量召回MIND和深度I2I召回模型PDN在阿里拍卖资产推荐场景的实践经验。内容包括模型的介绍,大资产场景的针对性优化,以及最终的效果分析,希望能对大家有所帮助和启发。

45895ddf15575b0b4dad0876d5cb30b4.png

背景

阿里资产作为资产交易平台,一方面,由于资产处置的独特性,每天在线的大资产数量较少,在百万级;另一方面,资产的地域性很强,用户感兴趣的不动产,通常都在某个偏好地内,例如:偏好杭州房产的用户不会突然对成都的房产感兴趣。结合类目和地域进行筛选后,所剩的资产数量可能就在百级别。所以在用户偏好地和偏好类目挖掘较明确和单一的情况下,规则化的个性化召回是一个较强的baseline。

我们分析数据发现,实际很多用户有多个偏好地和类目,比如:用户同时关注杭州和北京的房产;买土地用户,可能也对部分化工设备感兴趣。对于这类用户,之前的召回策略显得力不从心。因此,需要引入更加个性化的召回策略,对房产、机动车、土地等主要GMV贡献类目,召回更多地域,扩大召回类目,减缓推荐域常见的EE问题。在过去一年,我们引入了集团内的优秀工作MIND、PDN,结合大资产的特性,进行对应的优化,拿到了显著的GMV增长结果。

acedb003484da430697df05470a66c86.png

向量召回范式

  MIND模型介绍

722a8f36c3fb74039e5f2705ed987595.png

MIND模型结构(来源于文献1)

模型包括Embedding & Pooling Layer、Multi-Interest Extractor Layer和Label-aware Attention Layer。

Embedding层将用户和商品特征转为Embedding,Pooling层通过average pooling融合各类特征。

Multi-Interest Extractor Layer是兴趣多峰分布表征的核心,使用了基于动态路由的胶囊网络。假设胶囊网络有两层,一层为low-level胶囊网络(用户历史行为embedding),另一层为high-level胶囊网络(用户兴趣embedding)。low-level层有m个向量(即m个历史行为),ca8ed0771ac4cad8018184987748cf57.png,high-level层有n个向量(即n个兴趣),4d6e82a7d5f3b8996b587245b0e9ea4a.png

那么如何将信息从下层胶囊f184c5e78f72a0734f555c641e3084a8.png传递到上层胶囊7f05a8456d07d69957700653b3e2b5b4.png?首先计算两者之间的路由系数059c793b89a358e5539d352138d5d14c.png,其中d0823e38e0ad8fa249b52eef2c4844c5.png是双线性映射矩阵,随后通过softmax将eb1bae0676f0086767ccb55a14010371.png归一化为8bdfa0181ff7f9f83100b050646eb838.png。将8eb3b330cbf6531680157b6406c98cbe.png应用于下层胶囊, 就得到了上层胶囊的输入d46128a3dab93b0cb07aedd694436409.png,最终的high-level胶囊j的向量表示为a9d8d0a6d236e525fa3b3797ea851792.png。由此可见,新6e97b38a3303b1f13303584ac87481e7.png是由旧9ed6eb7678be89d312cdd00f0abfbdf9.png5a44fad2d5697b85e0f1563cfdb65d91.png来更新的,可以用EM算法更新。

完整的流程如下:

647a7a235c63e350fe791b90688b0ff4.pngMIND流程(来源于文献1)

Label-aware Attention Layer旨在解决如何对多个兴趣向量同时学习的问题。其从多个兴趣中挑选出一个与target item最接近的兴趣,针对性的对这个兴趣进行学习,这种挑选兴趣的机制称为Label-aware Attention。在线上serving时,多个兴趣向量都被直接用于后续的召回中。

  大资产适配
  • 特征

特征层面,我们只使用了商品基本的类目、地域和少数关键属性特征。我们发现再此基础上增加更多细粒度特征反而带来了负向效果。

我们对于行为序列的时间权重做了更贴合资产场景的改动。在传统电商领域,用户的决策周期较短,从第一次看到商品到最终下单,长则需要几天,短则只需要几分钟,原有的时间权重根据分钟级衰减函数分桶。在大资产领域,用户的决策周期通常需要一个月以上,模型用户行为序列的跨度为半年,按分钟级衰减会导致大部分行为的时间权重趋同,模型无法区分行为时间。我们将时间权重改为天级别分桶后,取得了明显的效果,单路离线hitrate@300相对提升5%。

  • 难负样本的构建

MIND的负样本为batch内随机负采样,这类样本能够使模型学到基本的判别能力,但是在大资产场景,这类负样本过于简单。在用户偏好类目和地域较窄的情况下,模型很容易学到喜欢杭州房产的人不应该召回成都土地,但是对于杭州房产的商品池区分度较低。因此需要更多难负样本指导模型学习。

曝光未点击

第一类难负样本是用户行为当天真实曝光未点击的商品,这类样本会与用户有一定相关性,可以认为是较难的负样本。我们将此类样本加入负样本,调试与随机负采样样本的比例后,发现最优的难易样本比例为1:5,这种设置下单路离线hitrate@300相对提升了6.5%。我们还尝试了去除随机负样本,只用曝光未点击作为负样本让模型学习,最终效果很差,原因是模型失去了在全量商品池中选品的能力。

同类目/地域采样

第二类难负样本是同类目和地域的采样。为了防止模型过度依赖类目和地域特征,对于每一条正样本,我们会增加同类目/地域下随机采样的商品作为负样本。对于资产供应较为丰富的类目,可以认为用户对于其中大部分商品都是不感兴趣的,此时在类目内随机采样做负样本是符合常理的。对于地域属性极强的类目,如房产、土地,我们还会增加部分同省/同城市下的随机采样,能增加模型对于同地域下商品的判别能力。

具体的,我们统计了主要大资产类目下,同城/同省的行为占比,并以此为基础设定同地域下采样的比例。

0733982885894f8c5c5dd784834ae5cd.png

分类目地域行为占比统计

经过多轮采样比例调整实验后,加入此类负样本使得房产类目的离线hitrate相对提升了3%。

最终的样本中,每一个正样本,搭配了5个难负样本和25个简单负样本,其中难负样本的50%为曝光未点击,50%为同类目/地域下的采样。由于batch内会共享负样本,实际训练时,每个正样本对应的负样本数量为30*batch_size。

96823c38cbb06e538bdeca7c604c7c1d.png

正负样本构成

  线上效果

MIND上线首猜场景后,相比于对照组,曝光订阅UV转化率、曝光拍下UV转化率、曝光uv拍下价值等核心指标均有明显提升。

分析此次实验发现,用户历史行为类目和全新类目的拍下GMV均有较大涨幅,但是全新类目拍下宽度没有增长,说明模型对同一类目下商品的精准度更高,但是没有带来更多新类目的成交。

38802edc53354ac6b9e119fb8c089243.png

商品相似度索引范式

我们调研了PDN框架,PDN算法可以深度建模I2I的关系,同时对于用户历史行为商品也能做到细粒度的偏好建模。

  PDN算法概述

2ef85ffdd7f6da8ad04feb7f77ab5e8d.png

二度图(来源于文献3)

0ebb33ecede35df3f7a083711fe58dbf.png

PDN模型结构(来源于文献3)

PDN将推荐问题解耦为二度图,第一跳表示用户对于已交互商品的兴趣程度,第二跳表示交互商品和目标商品的相似度。特征层面,279ca6301cc7732187c5ebdac376d24d.png表示用户的用户信息,af9e9d8347ff83295bc3fd0843442856.png表示用户交互过的n个商品的商品信息,2168acfaceaeee7ddfcfced0b85d4bd8.png表示目标商品的商品信息,a184b66bdd3e45a8bd20cb8aa9f29c19.png表示用户对第k个交互商品的行为信息,dbe57a3c82312fc76f8c895f69e05ac5.png表示第k个交互商品和目标商品的相关性信息。模型包含Embedding Layer、Trigger Net (TrigNet)、Similarity Net (SimNet)、Direct & Bias Net 四个模块。

Embedding Layer将模型用到的特征转化为embedding。

Trigger Net建模第一跳,即用户对于已交互商品的兴趣程度。用户对商品j的喜爱程度的计算方式为:

443cbca6f76a936fd9bc0fba1477cc35.png

Similarity Net建模第二跳,即交互商品和目标商品的相似度。商品j和目标商品的相似度为:

02d5e43f67712e3f69816f5f1d1dd019.png

Direct & Bias Net分别建模位置偏差position bias和用户偏差user bias,使得Trigger Net和Sim Net学习出来的东西是和用户、position无关的。

最终,通过融合两跳的打分,得到每条路径下用户与目标商品相关性的评分。整合所有路径,就能得到用户对于商品的最终打分。具体计算方式为:

65849fea7e009fc3eca81fb0b5012aca.png

最后采取交叉墒计算损失。

  大资产适配
  • 特征

特征主要包含五个模块:用户静态特征、用户行为context特征、交互商品特征、交互商品和目标商品间统计特征、目标商品特征。

7938fa6fa6c4f5b81479a07aeb3dab05.png

模型特征总结

在特征优化的过程中,我们发现在增加用户与目标拍品的交叉特征(如对目标拍品所属类目的偏好分等)后,虽然模型的loss下降,能够预测得更好,但是I2I的效果却显著变弱了,原因是这类交叉特征给了模型一条不通过二度图就能预测的捷径,弱化了I2I间关系的学习的必要性。相对的,商品间的转移概率特征作为站内用户已有行为的先验概率统计,能够显著提升I2I的效果。

f0dfc7423b9d669180698b8711b0a90f.png

强交叉特征损害二跳路径学习

  • 负样本的构建

基于MIND的样本优化经验,我们继续采用了全局随机负采样、曝光未点击、同类目/地域采样三类负样本。结论与之前一致:加入每种难负样本后都能带来相应的增益,并且单纯只用难负样本的效果很差。我们在此基础上对采样方式做了一些升级。之前的采样方式为均匀采样,对于热门和长尾商品的采样概率是相同的,导致负样本中长尾商品的数量远大于正样本,使其打分偏低。我们将采样方式改为根据用户行为频率采样,以缓解马太效应的影响。

  线上serving

由于PDN的作者团队在线上使用时发现trigger net筛选交互商品的收益较小,最终只用了similarity net生成了索引表,也取得了很好的效果。此次我们只用了相似商品索引表的方式上线。

因为商品池很大,我们无法对所有商品对进行相似度打分,我们通过两路生成候选相似商品。

第一路根据已有的I2I相似分计算规则,通过类目、地域、价格相似分,尽可能多的把潜在相似商品囊括进来。第二路根据MIND产出的商品向量,在向量维度召回相似的商品。融合两路后使用similarity net产出商品间的相似分。

线上serving时,实时取到用户最近的50个交互商品作为trigger,通过索引表拿到相似拍品集合后,返回相似分最高的N个商品。

  线上效果

实验组中,我们用PDN产出的索引表替换了原有的I2I索引表,保持其他逻辑不变,验证效果。

在首猜资产推荐场景上线后,相比于对照组,曝光订阅UV转化率,曝光交保UV转化率,曝光拍下UV转化率,曝光UV拍下价值等核心指标均有明显提升。

通过对实验数据的分析,我们发现此次实验GMV的增长主要源于突破了原有的相似商品对于价格的限制,模型发现起拍价相差较大的品也会有很强的相关性,对于这部分高价相似拍品的召回是提升的主要因素。用户历史行为类目由于I2I准度提升,带来的成交增长明显,而全新类目带来的成交稍降,接下来需要对用户的新兴趣进行持续探索。

c313f1779b48d38254a27c7a191c864c.jpeg

总结和反思

在过去一年,我们通过引入集团内的优秀的召回工作,做了更加贴合大资产场景的优化,取得了不错的效果。增长主要源于对于用户已有兴趣的深度挖掘。通过分析实验数据,我们发现活跃用户的曝光类目数量有所减少,信息茧房正在形成。而在未来一年,活跃用户的发现性召回对于资产推荐场景的价值是一个急需探索的方向,我们期望通过曝光更多相关类目,提升用户留存和下拉深度,最终带来GMV的增长。同时,目前新用户的召回比较单一,如何更好留住新用户也是重要的课题。

3066eea6934684346f8bdfeb452da845.jpeg

参考文献

  1. Multi-interest Network with Dynamic Routing for Recommendation at Tmall: 

    https://arxiv.org/pdf/1904.08030

  2. https://zhuanlan.zhihu.com/p/467495253

  3. Path-based Deep Network for Candidate Item Matching in Recommenders: 

    https://arxiv.org/abs/2105.08246

  4. Large Scale Product Graph Construction for Recommendation in E-commerce: 

    https://arxiv.org/pdf/2010.05525

8f4e31876d16c3a134536b5f2775da1c.jpeg

团队介绍

我们是淘天集团-阿里拍卖算法团队,专注于特色资产(房产/土地/股权/债权等)的商品理解和人货匹配。我们基于集团庞大的数据资源和海量拍卖行为数据,挖掘用户的全域行为,借助大模型融合多源异构数据进行资产搜索、推荐、广告,以及潜客挖掘、资产拍下率预估、资产询价、资产商品理解等,帮助业务拓展优质供给、提升GMV和营收。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/728854.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

教你使用Python玩转MySQL数据库,大数据导入不再是难题!

数据分析离不开数据库,如何使用python连接MySQL数据库,并进行增删改查操作呢? 我们还会遇到需要将大批量数据导入数据库的情况,又该如何使用Python进行大数据的高效导入呢? 本文会一一讲解,并配合代码和实…

Spring Boot组件化与参数校验

Spring Boot组件化与参数校验 Spring Boot版本选择 2.3.x版本 2.6.x版本 Spring Boot核心思想 约定大于配置,简化繁琐的配置 Spring Boot自动配置原理 SpringBootApplication: Spring Boot应用标注在某个类上说明这个类是SpringBoot的主配置类,Spr…

Vue3学习日记(day5)

接下来我们继续探讨文档 event对象 在Vue.js中,$event变量或箭头函数中的event参数用于捕获原始的DOM事件对象。这个对象包含了所有与特定事件相关的信息,比如鼠标点击的位置、键盘按键的键码、触摸事件的触摸点等。 当你在事件处理器中需要做一些基于…

前端时钟页面(JSP语言)

前端时钟页面(JSP语言) 一、效果图 二、介绍 1.目前市面上很多时钟组件,像电子时钟,3D时钟,Echarts画的时钟 2.这款时钟,是本人多年前寻找并修改的,感觉效果还不错 3.目前这是jsp写的,后面有时间会用Vue写…

口罩佩戴智能监测摄像机

智能监测摄像机在现代城市安全管理中扮演着关键角色,尤其是像口罩佩戴智能监测摄像机这样的设备,其应用正在日益扩展,对于公共卫生和安全至关重要。 这类摄像机利用先进的图像识别技术,能够实时监测人群中是否佩戴口罩。通过高精度…

CVPR2023论文速览Scenes相关49篇

CVPR2023论文速览Scenes Paper1 CLIP2Scene: Towards Label-Efficient 3D Scene Understanding by CLIP 摘要原文: Contrastive Language-Image Pre-training (CLIP) achieves promising results in 2D zero-shot and few-shot learning. Despite the impressive performance …

05. Java多线程 join 方法

1. 前言 本节对 join 方法进行深入的剖析,主要内容点如下: 了解 join 方法的作用,初步的理解 join 方法的使用带来的效果是学习本节内容的基础;了解 join 方法异常处理,我们在使用 join 方法是,需要对 jo…

【odoo】常用的字符转义:“>“,“<“,““,“/“等

概要 字符转义是指在编写代码或处理文本数据时&#xff0c;将特殊字符转换为另一种形式&#xff0c;以便在特定的上下文中正确解析和处理这些字符。 内容 特殊字符描述XML转义表示法&和符号&amp;<小于符号<>大于符号>"双引号&quot;单引号&ap…

优惠卷秒杀(并发问题)

Redis实战篇 | Kyles Blog (cyborg2077.github.io) 目录 一、Redis实现全局唯一id 二、添加优惠卷 三、实现秒杀下单 四、解决超卖问题&#xff08;库存为负&#xff09; 乐观锁解决超卖问题&#xff08;CAS法&#xff09; 五、实现一人一单 ​编辑 悲观锁解决一人一单问题…

C++ 教程 - 05 构建编译

文章目录 构建工具cmake安装与使用CMakeLists.txt编写使用案例 构建工具 cmake, Cross Platform Make&#xff0c; &#xff08;对C&#xff09;跨平台编译工具&#xff0c;将CMakeLists.txt 文件编译为对应的文件&#xff0c;如linux下的 Makefile&#xff0c;然后使用make命…

这几个都秒懂的都是资深程序猿/媛了吧?

放松第三期下&#xff0c;不讲编程技术&#xff0c;来看看几个冷笑话&#xff0c;最后一个最近还真的遇到了T_T ......想知道有多少人是秒懂的&#xff0c;欢迎大家在评论区交流讨论分享自己身边的搞笑趣事。 大家身边还有什么搞笑趣事呢&#xff1f;欢迎评论区留言交流分享&am…

收银系统源码推荐,线下线上一体化收银系统

1.收银系统源码开发语言 核心开发语言: PHP、HTML5、Dart后台接口: PHP7.3后台管理网站: HTML5vue2.0element-uicssjs收银端【安卓/PC收银】: Dart3&#xff0c;框架&#xff1a;Flutter 3.11.0-6.0.pre.27商家小程序助手端: uniapp线上商城: uniapp 2.功能介绍 支持测试体验…

SARscape——Refined Lee滤波

目录 一、算法原理1、概述2、参考文献 二、软件操作三、结果展示1、原始图像2、滤波结果 一、算法原理 1、概述 精致Lee滤波通过定义8种非正方形局部窗口&#xff0c;将均匀区域像素值等于其平均值&#xff0c;将非均匀区域近似于局部窗口中心像素值。 精致 Lee 滤波 8 种模板…

C#调用OpenCvSharp和SkiaSharp绘制图像直方图

最近在B站上学习OpenCv教程&#xff0c;学到图像直方图&#xff0c;后者描述的是不同色彩在整幅图像中所占的比例&#xff08;统计不同色彩在图像中的出现次数&#xff09;&#xff0c;可以对灰度图、彩色图等计算并绘制图像直方图。本文学习OpenCvSharp中与计算直方图相关的函…

全志 Android 11:实现响应全局按键

一、篇头 最近实现热键想功能&#xff0c;简单总结了下全志平台Android 11 的响应全局热键的方法。 二、需求 实现全局热键&#xff0c;响应F-、AF、F三个按键&#xff0c;AF只用于启动调焦界面&#xff0c;F-和F除了可以启动调焦界面外&#xff0c;还用于调整镜头的焦距&…

锂电池寿命预测 | Matlab基于ARIMA的锂电池寿命预测

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 锂电池寿命预测 | Matlab基于ARIMA的锂电池寿命预测 NASA数据集&#xff0c;B0005号电池&#xff0c;选择前110个数据训练&#xff0c;后58个数据测试预测。程序包含去趋势线、差分、平稳化及AIC准则判定p和q。命令窗…

幂集000

题目链接 幂集 题目描述 注意点 集合中不包含重复的元素 解答思路 可以使用深度优先遍历的思想按顺序将相应的元素添加到子集中&#xff0c;并将每个子集添加到结果集 代码 class Solution {public List<List<Integer>> subsets(int[] nums) {List<List&…

openGauss安装流程2024

openGauss安装流程2024 报错解决&#xff1a;https://blog.csdn.net/weixin_47115107/article/details/139844012?spm1001.2014.3001.5501 openGauss安装 之后安装过程中openGauss用户互信&#xff0c;openEuler服务器需要用到Python-3.7.x命令&#xff0c;但是默认Python版…

GNSS边坡监测站

TH-WY1随着科技的飞速发展&#xff0c;各种先进的监测技术不断涌现&#xff0c;为边坡安全监测提供了有力保障。其中&#xff0c;GNSS边坡监测站以其高精度、实时性强的特点&#xff0c;受到了广泛关注。 GNSS边坡监测站&#xff0c;全称为全球导航卫星系统边坡监测站&#xf…

掌握心理学知识成为产品经理一门必修课?

文章目录 心理学与产品设计的关联关系产品经理需要学习哪些心理学知识产品心理学的学习对象包含哪些 谈及心理学&#xff0c;往往认为它是一门研究人类心理现象及其影响下的精神功能和行为活动的科学&#xff0c;很多情况下&#xff0c;我们的直观印象是把心理学与医学领域进行…