Paper Digest | 基于原型学习的实体图谱预训练跨域推荐框架

欢迎大家在 GitHub 上 Star 我们:

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

论文标题:PEACE: Prototype lEarning Augmented transferable framework for Cross-domain rEcommendation

组织单位:蚂蚁集团

录用会议:WSDM 2024

论文链接:https://arxiv.org/abs/2312.01916

本文作者:甘淳井。主要研究方向是图算法,推荐算法,大语言模型和知识图谱的应用,研究成果收录于主流机器学习相关会议(WSDM/SIGIR/AAAI)。过去一年在团队的主要工作为基于知识图谱的预训练推荐模型,基于知识增强的大语言模型及其应用,其中包括在SIGIR'23发表的理财场景下基于多粒度解耦的图神经网络框架MGDL,在WSDM'24发表的基于原型学习的实体图谱预训练跨域推荐框架PEACE。

背景

随着支付宝小程序生态的发展,越来越多的商家开始在支付宝上运营小程序,同时支付宝也希望通过小程序生态+商家自运营来实现去中心化的战略。

在商家自运营的过程中,越来越多的中小商家都有数字化、智能化运营的需求,比如通过个性化推荐能力来提升其小程序私域阵地的营销效率,但对于中小商家公司而言,自建AI个性化推荐能力的技术成本、人力成本均很高。

在此背景下,我们希望基于蚂蚁海量用户行为数据,为商家提供可见而不可得的个性化推荐搜索能力来帮助商家打造智能化小程序从而提升商家在支付宝平台的营收,为用户提供更好的个性化体验从而提升用户在支付宝内的留存,同时也能够沉淀通用的技术方案来进一步优化商家/用户的体验。

在业界已经有许多成功的利用行为丰富场景的数据来提升中长尾场景推荐效果的应用案例,比如淘宝利用首猜的行为数据来提升其他小场景的推荐效果,飞猪利用app端和支付宝小程序端联合建模来提升整体推荐效果。

然而这类方法通常面对的是具有相似心智的多个推荐场景,利用具有丰富行为的场景数据来提升行为稀疏的相似场景的推荐效果,比如淘宝、飞猪等。但诸如支付宝这类的超级APP通常包含了诸如出行、政务,租赁,旅行,餐饮,日用百货等各式各样的小程序,各个小程序间的用户心智差异非常大,这给我们建模带来了极大的挑战:

  • 支付宝的小程序分散在政务、美食、租赁、零售、理财等业务类型差异很大的垂类行业,通常来说这些小程序间信息不共享,且相近的物品可能也不具备相似的属性,当直接将全域的多种行为迁移到特定的垂类场景而不对这种跨域差异进行对齐时,模型较难从杂糅了多个垂类的行为中学习到该对垂类有用的知识,甚至可能会带来负向迁移;
  • 虽然点对点的用户行为迁移,比如美食行业只使用用户在支付宝的餐饮相关行为,可以在一定程度上缓解上述问题,但是每次新接入一个行业都需要人工介入,成本较高且无法实现全链路自动化,除此之外,一些商户在首次对接时,即无用户行为数据时,也希望支付宝平台可以提供即插即用的个性化推荐方案,这样的模式在这种设定下不可行。

基于上述挑战,我们提出了基于原型学习的图谱预训练多场景迁移学习框架PEACE,基于垂类行业域间差异较大这一问题。

我们引入了实体图谱并希望通过实体图谱作为连接起不同域间差异的桥梁从而来减缓其对建模带来的负面影响,然而生产环境中的实体图谱通常规模巨大,虽然其包含了大量的实体间的结构信息,但也会引入大量噪声,无差别的对实体图谱中的结构信息进行聚合通常会降低模型的鲁棒性,因而我们引入了原型学习来对建模过程中的实体表征以及用户表征进行约束。

整体而言,PEACE框架是ONE FOR ALL的迁移设计思路,我们将用户在支付宝的多源公域行为作为预训练模型的输入,并通过解耦表征的思路将用户多行业的兴趣偏好学习到一个模型中,再结合捕捉行业信号的原型网络,只需预训练一个统一的模型,便可以将用户的多种兴趣自适应地迁移到下游不同的垂直行业用于个性化推荐(normal推荐+zero-shot推荐)。

PEACE-基于原型学习的实体图谱预训练跨域推荐框架

预备知识-基于实体图谱的跨域对齐

图片

可以看到,通过映射得到对应item相关的entity后,基于图谱推理流程,我们可以得到许多和映射得到的entity相关的高阶信息,如苹果这个公司有手机产品,而手机这类产品相关的公司有三星等,从而可以潜在的拉近和其他相关实体(如三星生产的手机等)间的关系。

模型框架

在本节中,我们将介绍本文提出的图谱预训练跨域推荐框架PEACE,下图为PEACE的整体架构。整体来说,为了更好的实现跨域对齐以及更好的利用实体图谱中的结构性信息,我们的整体框架建立在实体导向的预训练模块上;为了进一步提升预训练模块中用户和实体的表征,使其更具备通用性和可迁移性,我们提出基于原型对比学习的实体表征增强模块和基于原型增强注意力机制的用户表征增强模块对其进行表征增强;在此基础上,我们定义了在预训练阶段和微调阶段的优化目标和轻量化在线部署流程。接下来,我们将对每个模块进行逐一介绍。

PEACE整体架构

01. 实体导向的预训练模块

诸如支付宝等在线服务平台聚集了来自不同服务提供商提供的各式各样的小程序/场景,通常来说这些场景间信息不互通,没有一套共享的数据体系,因而即使是同一品牌同一类目下的产品的属性也无法完全对齐(如不同小程序中售卖的iPhone 14具有不同的商品ID,类别名称,比如在一个小程序中类别为电子产品,在另外一个小程序中类别为电子)。为了减小由于这些潜在问题带来的差异及其对于建模性能的影响,同时也更好的利用这些交互信息,我们基于实体图谱进行预训练,希望通过这样的方式来引入实体粒度的信息以实现泛化性更强的预训练。

以图1为例,若为item→entity→entity,从该商品出发,对于Apple,我们只能知道它的相关产品有Phone,但从entity→entity→entity进行预训练,我们则可以知道Apple不仅有Phone这样的相关产品,还可以知道它和Samsung这个公司具有关联,从而进一步提升我们学习到的表征的泛化性)。

02. 基于原型对比学习的实体表征增强模块

03. 基于原型增强注意力机制的用户表征增强模块

在预训练阶段,源域收集到的数据包含了用户在不同场景的行为,比如在制定旅行计划的时候用户会访问和出行相关的场景,而在需要找工作时会访问和在线求职相关的场景,然而,之前步骤中学习到的用户通用表征未将用户和场景相关的context考虑进来,这使得无法捕捉到在不同场景下的和场景相关的表征,因此我们希望借助于注意力机制来对context进行捕捉从而对用户表征进行增强。

04. 模型训练及预测

  • 源域预训练环节

通过将实体导向的预训练模块和原型学习增强模块相结合,整体的优化目标可以以如下方式定义:

  • 目标域微调环节

以及最终的损失函数:

在线部署

为了缓解线上服务的压力,我们使用了一种轻量化的方式来部署PEACE模型,部署流主要分为三个部分:

  • Pre-training flow:基于收集到的多源行为数据和实体图谱,我们对PEACE模型进行天级的更新,使得模型可以学习到具备时效性的通用可迁移的知识。对于预训练模型,我们将其存储在ModelHub中,以方便下游使用时可以轻量化的加载模型参数。
  • Offline inference flow:为了降低图神经网络对在线服务系统带来的负担,我们会提前对user和entity的表征进行infer,然后将其存储到ODPS表中,在下游微调时,仅需对最后的MLP网络进行微调,而无需重新进行图神经网络中的信息传播过程,从而大大降低在线服务时的延迟。
  • Fine-tuning flow:由于新推出的小程序/服务没有交互数据,因此PEACE通过以下两步来提供推荐服务:
  • 对于冷启场景,通过直接对user和item的表征做内积,我们可以获取到user对不同item的偏好程度从而直接进行排序;
  • 对于已经累积了一定数据的非冷启场景,我们基于预训练的user/item表征和user/item的基础信息进行微调,然后将微调得到的模型用于在线服务。

效果分析

离线实验

01. 数据简介

我们收集了一个月的支付宝账单,足迹,搜索数据作为源域数据,对于目标域,我们在六种类型的小程序,即租赁,旅行,数字藏品,日用百货,美食,食物配送上进行了实验,由于目标域数据相比于源域更为稀疏,我们收集了过去两个月的行为数据用于模型训练。为了对不同域间的巨大差异进行桥接,我们引入了具有千万级节点,百级关系和亿级边的实体图谱。具体的数据情况可参见下表。

02. 有效性实验

结合两个表格中的实验结果我们可以发现,整体而言,实验结果表明:

  • PEACE在冷启/非冷启的场景中相比于基线而言均取得了大幅的提升,这表明了基于实体粒度的预训练和基于原型学习进行增强的机制的结合的有效性;
  • 就大多数情形而言,预训练+微调的模型相比于无预训练的基线DeepFM有较大的提升,这说明了引入多源数据进行预训练的有效性,然而,在一些情形下,部分模型的表现不如基线DeepFM,有一定的负向迁移,而这进一步阐明了预训练方式的重要性;
  • 在许多情形下,基于gnn的跨域推荐模型并没有取得很好的实验效果,这很大程度上是归咎于实体图谱中的巨大噪声,而由于我们在PEACE模型中引入了原型学习,通过聚类的方式使得相似的实体在表征空间中有着相近的距离,而不同的实体间的距离被拉的更远,从而缓解了这些噪声对模型带来的负面影响。

03. 消融分析

为了进一步验证PEACE模型中各个模块的作用,我们准备了以下三种变体以对各个模块的有效性进行评估:

  • PEACE w/o GL,即移除实体表征时的图学习模块;
  • PEACE w/o CPL,即移除基于对比的原型学习模块;
  • PEACE w/o PEA,即移除基于原型增强的注意力机制模块。从图4中可以看出,当移除任意一个模块时,模型性能都出现了大幅下跌,这说明了模型中每个模块的不可或缺性;此外,可以看出PEACE w/o CPL的表现最差,这说明了原型学习在来捕获通用可迁移的知识中的重要性。

04. 可视化分析

为了更加显式的对CPL模块的效果进行分析,我们随机选择了实体图谱中的6000个实体及其通过PEACE w/o CPL和PEACE模型学习到的实体表征来对其进行可视化,这里的各种颜色分别对应了不同实体归属的不同原型。从图5中我们可以看到,相比于PEACE w/o CPL学习到的实体表征,完整的PEACE模型学习到的表征在聚类结果上具有更好的连贯性,这说明了CPL模块及其学习到的原型,可以很好的帮助模型减小相似的实体在表征空间中的距离,从而更好的帮助模型学习到更鲁棒和通用的知识。

在线实验及业务落地情况

为了更好的验证模型在实际生产环境中的效果,我们在不同垂类的多个商家都进行了精排的在线AB实验,在多个场景中,PEACE模型相比于baseline都得到了有效的提升。整体来说,基于PEACE的预训练+迁移学习的推荐模型在重点商家上经过ab效果验证后,已作为基线模型全量应用到50+商家以为其提供个性化推荐。

文章推荐

OpenSPG v0.0.3 发布,新增大模型统一知识抽取&图谱可视化开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE

【演讲回顾】知识图谱的演进与基于 OpenSPG+TuGraph 的推理实践

Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习

关注我们


OpenSPG:
官网:https://spg.openkg.cn
Github:https://github.com/OpenSPG/openspg


OpenASCE:
官网:https://openasce.openfinai.org/
GitHub:[https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/613987.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【git】通过JetNrains IDE对git的操作

应该适用于所有jetbrains产品。 一、拉取(pull)代码 上方工具栏-Git-克隆。然后填写git地址与本地存放地址。 二、搁置 修改代码后搁置代码(不提交,但是也不撤销已修改的代码,把它暂存起来)。 界面的左上角。1->2->3。完事就可以写换到其他分支肆意妄为^^。 三…

Vue项目npm install certificate has expired报错解决方法

1.Vue项目 npm install 安装依赖突然报错: npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.npm.taobao.org/zrender/download/zrender-4.3.0.tgz failed, reason: certificate has expired npm ERR! A com…

数据是形成新质生产力的优质生产要素

在数字经济背景下,新质生产力以科技创新推动产业创新为要义,以大幅提升全要素生产率为目标,重在加强人工智能、大数据、物联网、工业互联网等数字技术的融合应用,以数据开发利用为引擎促使生产要素实现创新性配置,催生…

探针流量检测与回溯分析,解密AnaTraf网络流量分析仪的神奇魅力

目录 导言 概述 流量检测探针 流量回溯分析 网络故障解决案例 了解更多 导言 在当今互联网时代,网络性能监测与诊断成为企业发展的关键。为了解决网络故障和提升网络性能,AnaTraf网络流量分析仪应运而生。本文将详细介绍AnaTraf的功能和优势&#…

一些Webshell-Bypass的思路

—— 经过这一段时间的研究,针对webshell-Bypass我也有了一些自己的技巧,于是决定写下这篇文章,阅读前提是需要有一点PHP的语言基础。 在讲解代码之前,需要简单了解一下不同查杀平台webshell查杀的查杀原理。对于一些较传统的We…

无限集中的最小数字

题目链接 无限集中的最小数字 题目描述 注意点 1 < num < 1000 解答思路 由题意得&#xff0c;可以理解为最初集合中有1~1000之间的所有数字&#xff0c;如果集合中存在数字&#xff0c;则添加时不会有任何操作&#xff1b;在移除集合中的元素时&#xff0c;会按顺序…

软件体系结构总结

文章目录 一、软件体系结构概述1.1 基本概念1.1.1 背景1.1.2 定义1.1.3 系统1.1.3.1 定义1.1.3.2 特性1.1.3.3 系统的体系结构 1.1.4 软件设计的层次性1.1.5 体系结构的类别&#xff08;类型&#xff09;1.1.6 重要性&#xff08;意义&#xff09; 1.2 模块及其设计1.2.1 定义1…

正点原子Linux学习笔记(九)在 LCD 上显示字符

在 LCD 上显示字符 23.1 原始方式&#xff1a;取模显示字符23.2 freetype 简介23.3 freetype 移植下载 FreeType 源码交叉编译 FreeType 源码安装目录下的文件移植到开发板 23.4 freetype 库的使用初始化 FreeType 库加载 face 对象设置字体大小加载字形图像 23.5 示例代码 前面…

国产根SSL证书,验证签发数据不出境

在探讨SSL证书数据是否可能“出境”的问题之前&#xff0c;我们需要先理解几个基本概念&#xff1a;什么是SSL证书、数据传输的基本流程&#xff0c;以及“出境”在此语境下的含义。本文旨在以科普的方式&#xff0c;清晰地解析这一主题&#xff0c;帮助读者建立起对SSL证书及其…

upload组件封装,支持拖拽文件上传

一、组件封装需要注意什么? 组件化思想:组件应该是独立的、可复用的部件,应该遵循单一职责原则,将组件的功能划分得尽可能细致。 API 设计:组件的 API 设计要合理,要考虑到组件的可定制性和易用性。应该尽可能的提供必要的配置项和事件回调,同时避免提供过多的 API,导…

【启明智显分享】国产自主HMI核心板Model3

Model3是一款高性能的工业级HMI&#xff08;人机界面&#xff09;核心板&#xff0c;也是一款纯国产HMI方案&#xff0c;工业级标准&#xff0c;稳定、可靠&#xff1b; 工业级HMI芯片–Model3 纯国产HMI方案 Model3核心板&#xff0c;具有2D加速&#xff0c;PNG解码&…

高效电源测试设备助力自动化测试和数据分析

在当今电子产品的研发和生产过程中&#xff0c;电源测试设备的重要性不言而喻。一款优秀的电源测试设备能够显著提升测试效率&#xff0c;确保电源模块的性能达到设计要求。 纳米软件NSAT-8000电源测试系统是一款自动化电源测试设备&#xff0c;在测试电源模块时&#xff0c;通…

ESP32 + ST7789 LCD

1、准备 ESP32 单片机开发板 ST7789 LCD 模块&#xff08;240 * 320 像素&#xff09; 杜邦线 2、接线 LCD功能ESP32VCC 供电电压正极 3.3V 、 5V GND 供电电压负极 GNDIDN / MOSI SPI 接口数据 引脚 23CLK 串行接口时钟信号 18CS 芯片选择引脚&#xff1b;低电平有效 5DC 显…

监控员工上网用什么软件,4款优秀的上网行为监控软件优选

很多员工都会对工作有懈怠心理。 在数字化办公环境中&#xff0c;员工的上网行为直接影响着工作效率、信息安全与合规运营。 为确保企业资源合理利用、防止潜在风险&#xff0c;上网行为监控软件成为企业管理的重要辅助工具。 本文将为您推荐五款优秀的上网行为监控软件&#…

基于STC12C5A60S2系列1T 8051单片机实现一主单片机给一从单片机发送数据的串口通信功能

基于STC12C5A60S2系列1T 8051单片机实现一主单片机给一从单片机发送数据的串口通信功能 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机串口通信介绍STC12C5A60S2系列1T 8051单片机串口通信的结构基于STC12C5A60S2系列1T 8051单片机串口通信的特殊功能寄存…

棱镜七彩参编《网络安全技术 软件供应链安全要求》国家标准发布

据全国标准信息公共服务平台消息显示&#xff0c;《网络安全技术 软件供应链安全要求》&#xff08;GB/T 43698-2024&#xff09;国家标准已于2024年4月25日正式发布&#xff0c;并将于2024年11月1日正式实施。棱镜七彩作为主要编制单位之一参与该国家标准的编制&#xff0c;为…

【Web后端】jsp基础知识_请求转发和重定向

1.jsp基础知识 1.1简介 java server page&#xff0c;运行在服务器端的页面java代码html代码java代码全部都放在<%%>中间 1.2jsp表达式 作用&#xff1a;将动态信息显示在页面上&#xff0c;以字符串方式&#xff0c;返回给浏览器端语法&#xff1a;<%变量或表达式…

itextpdf 7生成pdf(主要是文字和表格,支持中文)

我们经常会遇到要导出pdf的需求,方式有很多种 今天的教程是采用itextpdf的方式生成pdf itextpdf是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF文档&#xff0c;而且可以将Html文件转化为PDF文件。 这里先展示一下效果图 首先在pom.xml中引入相关依赖 <dep…

MotionDiffuse: Text-Driven Human Motion Generation withDiffusion Model # 论文阅读

URL https://arxiv.org/pdf/2208.15001 主页&#xff1a;https://mingyuan-zhang.github.io/projects/MotionDiffuse.html TD;DR 22 年 8 月商汤的文章&#xff0c;引用量 200。基于 SD&#xff0c;任务是输入文本的动作描述&#xff0c;生成对应的动作序列。 已有的 moti…

如何选择合适加密软件来保护信息资产|精选加密软件分析

五款加密软件对比分析&#xff0c;是一项复杂而必要的任务&#xff0c;旨在帮助用户选择最适合其需求的加密工具。在数字化时代&#xff0c;信息安全显得尤为重要&#xff0c;因此&#xff0c;对加密软件的评估与比较显得尤为关键。 首先&#xff0c;我们要考虑的是这些加密软件…