IUG-CF论文精读

Neural collaborative filtering with ideal user group labels

(具有理想用户组标签的神经协同过滤)

论文地址:https://www.sciencedirect.com/science/article/pii/S0957417423023898

摘要:

       人口统计信息是推荐系统(RSs)的关键信息。大多数现有的基于人口统计的RSs关注用户肖像之间的相似性。然而,他们很少结合人口统计数据来描述一个项目,并建立项目和用户之间的联系。在本文中,我们提出了理想用户组(IUG)的概念,作为项目的动态标签。此标签根据其历史客户的人口统计数据指示最适合某项商品的用户。与一般标签(如类型或语言)不同,IUG是随着历史用户人口统计数据的分布而动态变化的,并且是基于经历分裂-组合过程的人口统计信息构建的。为了验证我们方法的有效性,我们提出了一个基于iug的神经协同过滤(IUG-CF)模型。在三个真实数据集上的实验结果表明,IUG是提高推荐性能的有效方法。

关键词:

协同过滤,人口统计信息,理想用户组,神经网络,推荐系统

传统的推荐系统:

基于内容的推荐系统(Content-based RS):

这种方法依据项目的内容特征来生成推荐。它假设用户会喜欢与他们过去喜欢的项目在内容上相似的项目。

例如,如果一个用户喜欢动作电影,基于内容的推荐系统会推荐其他动作电影给这个用户。

内容特征可能包括项目的描述、关键词、类别、导演、演员等。

基于人口统计信息的推荐系统(Demographic-based RS,简称 DRS):

这种方法使用用户的人口统计信息,如年龄、性别、职业、教育水平等,来预测用户的喜好。

它基于一个假设,即具有相似人口统计特征的用户可能有相似的偏好。

例如,年轻用户可能更喜欢流行音乐,而年长用户可能更倾向于古典音乐。

协同过滤(Collaborative Filtering,简称 CF):

协同过滤技术依据用户之间的相似性和项目之间的相似性来生成推荐。

用户基协同过滤发现与目标用户有相似喜好的其他用户,并推荐这些用户喜欢但目标用户尚未发现的项目。

项目基协同过滤则是寻找与用户过去喜欢的项目相似的项目,并推荐给用户。

协同过滤面临的一个主要问题是冷启动问题,即新用户或新项目缺乏足够的交互数据。

混合推荐系统(Hybrid RS):

混合推荐系统结合了以上提到的多种推荐技术,以提高推荐的准确性和覆盖范围。

它可以同时考虑用户的内容偏好、人口统计信息、以及其他用户的交互数据。

通过整合不同方法的优势,混合推荐系统能够提供更全面和个性化的推荐,同时减少单一方法可能带来的偏差和局限性。

IUG-CF

虽然年龄、性别和职业等人口统计信息有助于做出个性化的推荐,但重要的是要认识到,仅仅依靠人口统计信息可能导致有偏见的推荐,并使陈规定型观念长期存在。大多数现有的方法侧重于利用用户和项目标签之间的关系来进行预测。这种预测通常基于这样的假设:如果用户过去喜欢过带有类似标签的物品,那么他们很可能会喜欢当前的物品。相比之下,我们采用不同的方法,使用用户信息来描述项目。

传统方法vs我们的方法

在 (a) 中,电影通过类型(genre)、语言(language)和其他信息来描述。而在 (b) 中,电影被描述为最适合具有某些人口统计特征的用户组。这表明作者的方法侧重于使用用户信息来描述项目(如电影),并根据用户与理想用户组(IUG)的匹配程度来确定用户行为,而不是仅仅基于用户对项目的偏好。

IUG的动态构建

为了构建IUG,我们首先根据每个人口统计属性(如性别、职业等)分离用户组。接下来,我们根据历史评分记录计算每个组的平均评分,并使用贝叶斯平均来解决某些用户组成员较少但偏好较强的问题。然后,我们比较每个项目在不同人口统计数据中的受欢迎程度,并将该组对应的人口统计值与每个属性的最大平均评级相结合,以获得IUG的人口统计数据。我们强调IUG是“构建的”和“动态的”。

推荐流程示例

这张图是一个简化的示例,用于说明如何为用户生成个性化的推荐列表。

1.用户人口统计信息:系统首先考虑用户的人口统计信息,如年龄、性别、职业等。

2.构建理想用户组 (IUG):根据历史上与项目互动的用户群体的人口统计数据,构建一个理想的用户组,代表最适合推荐该项目的典型用户特征。

3.用户与 IUG 的匹配:系统将用户的人口统计特征与项目的 IUG 进行比较,以评估用户可能对该项目的偏好。

4.生成推荐列表:系统根据用户与各个项目 IUG 的匹配程度,计算出一个偏好分数,并基于这些分数为用户生成一个排序的推荐列表。

IUG-CF模型

IUG-CF 模型的流程可能包括以下几个关键步骤:

1.用户-项目交互数据:模型使用用户与项目的交互数据,如评分或观看记录,作为输入。

2.构建 IUGs:对于每个项目,基于历史用户数据中的人口统计信息,构建一个理想用户组(IUG),IUG 描述了最适合推荐该项目的用户群体特征。

构建 IUGs(理想用户组)
  1. 用户组的划分:基于每个人口统计属性(如性别、职业等),将用户分成不同的组。

  2. 计算平均评分:对每个组别,根据历史评分记录计算该项目的平均评分。

  3. 应用贝叶斯平均:为了解决某些用户组可能成员较少但偏好较强的问题,使用贝叶斯平均方法来调整平均评分,确保每个人口统计属性的评分更加公平和有代表性。

  4. 确定最受欢迎的人口统计属性:通过比较不同人口统计属性下项目的平均评分,找出对应于每个属性的最大平均评分对应的人口统计值。

  5. 构建 IUG:将这些最受欢迎的人口统计值组合起来,形成该项目的 IUG。IUG 代表了对该项目最感兴趣的理想用户群体的特征。

3.用户和项目的嵌入表示:使用嵌入技术将用户和项目映射到低维空间,以捕捉它们的特征和交互关系。

4.计算偏好分数:通过嵌入表示和神经网络,模型计算用户对项目的偏好分数。

计算偏好分数
  1. 嵌入技术:使用嵌入技术将用户和项目映射到低维空间中,以表示它们的特征。每个用户和项目的人口统计信息也被编码为嵌入向量。

  2. 元素级乘积和激活函数:对用户和 IUG 的嵌入向量执行元素级乘积,并通过 sigmoid 激活函数来累加结果,以模拟用户和 IUG 之间的潜在关系。

  3. 多层感知器(MLP):为了捕捉用户和项目之间的非线性交互,使用一个标准的 MLP 网络来学习它们之间的复杂关系。MLP 通过隐藏层中的 ReLU 激活函数和输出层的 sigmoid 函数来计算用户对项目的偏好分数。

  4. 调整偏好分数:通过计算用户与 IUG 之间的相似度(例如,使用曼哈顿距离),并根据相似度调整偏好分数,使得与 IUG 更匹配的用户获得更高的偏好分数。

  5. 损失函数和优化:定义一个损失函数,用于在训练过程中最小化模型预测的偏好分数与实际交互之间的差异。使用优化算法(如 Adam)来更新模型参数,以提高预测的准确性。

5.生成推荐列表:根据计算出的偏好分数,为每个用户生成个性化的推荐列表。

伪代码

  1. 初始化模型参数集合 𝛩: 这一步是算法开始之前进行的,确保所有的模型参数都被正确地设置为初始值,这些值可以是随机的,也可以是预先设定的。

  2. 循环遍历所有项目: 这一步意味着对数据集中的每个项目进行处理,以便为它们构建 IUG。

  3. 循环遍历项目的每个人口统计属性: 这一步是针对每个项目,遍历所有可能的人人口统计属性(例如性别、年龄、职业等)。

  4. 循环遍历属性的所有可能值: 这一步是针对每个属性,遍历该属性下所有可能的值(例如性别属性下的“男”和“女”)。

  5. 使用贝叶斯平均公式和给定的参数计算项目在属性值下的平均评分: 这一步通过贝叶斯平均来计算每个项目在特定人口统计属性值下的平均用户评分,这有助于处理数据稀疏性问题。

  6. 结束对属性值的循环: 这一步结束了对当前人口统计属性的所有值的遍历。

  7. 结束对人口统计属性的循环: 这一步结束了对项目的所有人口统计属性的遍历。

  8. 通过公式 (3) 到 (6) 来生成项目的 IUG: 在这些步骤中,计算每个属性的平均评分向量,并基于这些评分向量来识别最受欢迎的属性值集合,即 IUG。

  9. 结束对项目的循环: 这一步结束了对所有项目的遍历,此时所有项目的 IUG 都应该已经生成完毕。

  10. 创建一个包含所有项目 IUG 的集合 V′: 这一步创建了一个集合,其中包含了数据集中所有项目的 IUG。

  11. 开始训练循环,迭代 Epochs 次: 训练循环是模型学习过程中的核心,通常迭代一定的次数或直到模型收敛。

  12. 使用调整后的偏好分数公式(公式 7 到 10)和 IUG 集合 V′ 以及用户的人口统计信息来计算用户对项目的偏好分数: 这一步计算用户对每个项目的偏好分数,这是基于用户和项目的人口统计信息以及项目的 IUG。

  13. 使用正则化项公式(公式 14)和 IUG 集合 V′ 以及用户的人口统计信息 D 来计算用户的正则化项: 正则化项用于鼓励模型生成与 IUG 更接近的用户嵌入,提高推荐的准确性。

  14. 使用损失函数公式(公式 15)和计算出的偏好分数、正则化项以及学习率来计算损失: 损失函数衡量了模型预测的偏好分数与实际交互数据之间的差异,并通过正则化项来防止过拟合。

  15. 使用 Adam 优化器和学习率 𝜁 来更新模型参数,以最小化损失函数: Adam 优化器是一种流行的梯度下降算法,用于根据损失函数的梯度来更新模型参数。

  16. 结束训练循环: 这一步结束了模型的训练过程。

  17. 在训练完成后,返回模型的所有参数: 训练完成后,返回模型参数集合 𝛩,这些参数包含了模型的所有学习到的知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566341.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis入门到通关之Redis数据结构-String篇

文章目录 欢迎来到 请回答1024 的博客 🍓🍓🍓欢迎来到 请回答1024的博客 关于博主: 我是 请回答1024,一个追求数学与计算的边界、时间与空间的平衡,0与1的延伸的后端开发者。 博客特色: 在我的…

CUDA编程【2】-(51-78)

系列文章目录 文章目录 系列文章目录前言51、寄存器溢出51.1 溢出概念51.1 使用控制 52、本地内存和共享内存52.1 本地内存52.2. 共享内存 53. 常量内存53.1 概念53.2 初始化 54. 全局内存54.1 概念54.2 初始化 55. GPU缓存和变量作用域55.1 缓存类型55.2 变量作用域 56. 静态全…

通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验

通义灵码自成功入职阿里云后,其智能编程助手的角色除了服务于阿里云内部几万开发者,如今进一步服务函数计算 FC 产品开发者。近日,通义灵码正式进驻函数计算 FC WebIDE,让使用函数计算产品的开发者在其熟悉的云端集成开发环境中&a…

《Vid2Seq》论文笔记

原文链接 [2302.14115] Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning (arxiv.org) 原文笔记 What: 《Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning》 作者提出一种多…

利用selenium发挥vip残存的价值

历史版本谷歌浏览器驱动下载地址 https://chromedriver.storage.googleapis.com/index.html 找到与你电脑当前谷歌浏览器版本一致的驱动然后下载下来(大版本一致即可)。我本地版本是 99.0.04844.51 我这里把 chromedriver 放到 /usr/local/bin 下面了。 启动测试窗口 这里需要…

就业班 第三阶段(负载均衡) 2401--4.18 day2 nginx2 LVS-DR模式

3、LVS/DR 模式 实验说明: 1.网络使用NAT模式 2.DR模式要求Director DIP 和 所有RealServer RIP必须在同一个网段及广播域 3.所有节点网关均指定真实网关 主机名ip系统用途client172.16.147.1mac客户端lvs-server172.16.147.154centos7.5分发器real-server1172.16.…

【STM32+HAL+Proteus】系列学习教程---串口USART(DMA 方式)定长,不定长收发。

实现目标 1、利用UART实现上位机PC与下位机开发板之间的数据通信 2、学会STM32CubeMX软件关于UART的DMA模式配置 3、具体目标:1、实现串口定长收发数据通信;2、串口不定长收发数据通信。 一、DMA简介 1、什么是DMA? DMA(Direct Memory …

Dubbo 和 Spring Cloud 的区别

根据微服务架构在各方面的要素,看看 Spring Cloud 和 Dubbo 都提供了哪些支持。 使用 Dubbo 构建的微服务架构就像组装电脑,各环节我们的选择自由度很高,但是最终结果很有可能因为一条内存质量不行就点不亮了,总是让人不怎么放心…

10.Godot Input与自定义单例的使用

单例 单例是一个可以在任何一个脚本中对其进行直接访问的对象,分为内置单例与自定义单例。每个单例都是独一无二的对象。内置单例不是节点,主要成员是各类 Server,开发者可以使用它们直接控制游戏程序的图形与音效等内容。此外,还…

cesium 动态线效果

一、扩展材质 function PolylineTrailMaterial(options) {options Cesium.defaultValue(options, Cesium.defaultValue.EMPTY_OBJECT);this._definitionChanged new Cesium.Event();// 变量初始化this.color Cesium.defaultValue(options.color && new Cesium.Colo…

MATLAB基于图像特征的火灾检测

实验目标 基于图像特征的火灾检测 实验环境 Windows电脑、MATLAB R2020a 实验内容 1.读取图像,彩色图像的灰度化处理,进行边缘检测,实现对火焰的检测。 2.对两幅RGB图像进行火焰特征提取实验 3.对比分析边缘检测算法处理结果和基于图像…

vue3+elementui-plus实现无限递归菜单

效果图 实现方式是&#xff1a;通过给定的数据结构层数来动态生成多级菜单 menu.vue<template><el-menu:default-active"activeIndex"class"el-menu-demo"mode"horizontal"select"handleSelect"background-color"#f8f…

LaTeX中长公式折行显示为类似首行缩进的形式

长公式折行在《Ishort》4.4.1节和刘海洋书4.4节都有叙述。 普通的长公式折行可以使用 align 或 multiline 环境&#xff0c;具体用法可参考上面两本书&#xff0c;但感觉使用起来比较麻烦。 自己目前比较习惯的用法是类似 \begin{equation} \begin{aligned}f(x) & \frac{1…

Qt 跨平台开发的一丢丢总结

Qt 跨平台开发 文章目录 Qt 跨平台开发摘要第一 \ & /第二 神奇{不能换行显示第三 预处理宏 关键字&#xff1a; Qt、 win、 linux、 lib、 MSVC 摘要 最近一直在琢磨Qt跨平台开发的问题&#xff0c;缘由有以下几个&#xff0c; 首先第一个&#xff0c;我们目前开发…

汇舟问卷:国外问卷调查做题完整步骤细节展示

大家好&#xff0c;我是汇舟问卷​。很多朋友联系我&#xff0c;想要看做题的步骤&#xff0c;内容是什么&#xff0c;应该怎么去做。今天我给大家展示一下我们日常做问卷的具体步骤&#xff0c;帮助大家更好地了解问卷​。 在参与问卷之前&#xff0c;首先要搭建国外的环境&a…

线程池 ThreadPoolExecutor 参数详解

一、引言 提到 Java 线程池&#xff0c;就不得不说 ThreadPoolExecutor&#xff0c;它是 Java 并发包 java.util.concurrent 中的一个类&#xff0c;提供一个高效、稳定、灵活的线程池实现&#xff0c;用于实现多线程并发执行任务&#xff0c;提高应用程序的执行效率。 在《任…

Centos7_miniconda_devtools安装_R语言入门之R包的安装

因为有同时反馈安装R包很慢或卡住。同事提供了一个安装R包的命令给我测试&#xff0c;在安装过程中复现报错信息&#xff0c;把下载慢或卡信的链接中的域名在防火墙中调整出口。 devtools::install_github("GreenleafLab/ArchR", ref"master", repos Bio…

链表从指定的节点前插入新的节点

1.第一种情况&#xff1a; 在头节点插入时&#xff0c;head和p都指在1&#xff0c;new ->next head;return new;返回new节点地址&#xff0c;由打印函数打印即可成功插入 2.第二种情况&#xff1a; 2.1当我们要在第2个节点插入时&#xff0c;p和head都是指向1节点的&#…

springboot整合mybatis-puls登陆注册

目录 创建springboot项目 目录结构&#xff1a; 启动类 测试类 idea建表 pom文件 编写yml文件 qq邮箱设置 登陆注册代码 编写持久层(Dao) 注册代码 业务层 业务实现类 mapper 控制层 前端代码 注册页面 邮件正文&#xff1a; 登录代码 控制层 业务层&#…

Excel 公式的定义、语法和应用(LOOKUP 函数、HLOOKUP 函数、VLOOKUP 函数;MODE.MULT 函数; ROUND 函数)

一、公式的定义和语法 二、公式的应用 附录 查找Excel公式使用方法的官方工具【强烈推荐&#xff01;&#xff01;&#xff01;】&#xff1a;Excel 函数&#xff08;按字母顺序&#xff09;【微软官网】 excel 函数说明语法LOOKUP 函数在向量或数组中查找值LOOKUP(lookup_va…