基于python深度学习技术矩阵分解的推荐系统,通过学习隐含特征,实现推荐

实现了一个基于矩阵分解的推荐系统,用于预测用户对电影的评分。具体来说,该程序通过TensorFlow构建和训练一个模型,来学习用户和电影之间的隐含特征,并根据这些特征预测评分。以下是代码的主要功能和步骤的详细描述:

1. 数据加载与预处理

  • 数据加载:通过get_data_pd函数从指定路径加载电影评分数据集(CSV文件),并将其存储在Pandas DataFrame中。
  • 用户和电影数量统计:统计数据集中唯一用户和电影的数量,为后续模型的构建提供基础。
def get_data_pd(datapath):
    with open(datapath, 'r') as f:
        df = pd.read_csv(f)
    return df

df = get_data_pd(datapath)

u_num = df.userId.nunique()   # 用户数量
i_num = df.movieId.nunique()  # 电影数量
print("用户有{0}位, 共有电影{1}部".format(u_num, i_num))
df.head()

 

2. 数据集划分

  • 训练集与测试集划分:通过打乱数据集,使数据随机化,接着将90%的数据用于训练,10%用于测试,以评估模型的性能。
def get_data(datapath):
    df = get_data_pd(datapath)
    rows = len(df)
    # 打乱索引
    df = df.iloc[np.random.permutation(rows)].reset_index(drop=True)
    # 90%的训练集与10%的测试集
    split_index = int(rows * 0.9)

    df_train = df[0:split_index]
    df_test = df[split_index:].reset_index(drop=True)
    
    return df_train, df_test

df_train, df_test = get_data(datapath)

 

3. 模型构建

  • 模型定义:使用TensorFlow定义矩阵分解模型。模型包括用户和电影的嵌入层,以及全局偏置、用户偏置和电影偏置。通过用户和电影的隐含特征向量计算预测评分。
  • 损失函数:定义L2损失函数用于训练,包括预测评分与实际评分之间的差异,以及正则化项以防止过拟合。
def model(user_batch, item_batch, user_num, item_num, dim=5, device="/cpu:0"):
    with tf.device(device):
        with tf.variable_scope('lsi', reuse=tf.AUTO_REUSE):
            bias_global = tf.get_variable("bias_global", shape=[])
            w_bias_user = tf.get_variable(name="embd_bias_user", shape=[user_num])
            w_bias_item = tf.get_variable(name="embd_bias_item", shape=[item_num])

            bias_user = tf.nn.embedding_lookup(w_bias_user, user_batch, name="bias_user")
            bias_item = tf.nn.embedding_lookup(w_bias_item, item_batch, name="bias_item")

            w_user = tf.get_variable("embd_user", shape=[user_num, dim],
                                     initializer=tf.truncated_normal_initializer(stddev=0.02))
            w_item = tf.get_variable("embd_item", shape=[item_num, dim],
                                     initializer=tf.truncated_normal_initializer(stddev=0.02))

            embd_user = tf.nn.embedding_lookup(w_user, user_batch, name="embedding_user")
            embd_item = tf.nn.embedding_lookup(w_item, item_batch, name="embedding_item")

    with tf.device(device):
        # 估分 = 矩阵相乘 + 全局偏差 + 用户偏差 + 电影偏差
        infer = tf.reduce_sum(tf.multiply(embd_user, embd_item), 1)
        infer = tf.add(infer, bias_global)
        infer = tf.add(infer, bias_user)
        infer = tf.add(infer, bias_item, name="svd_inference")
        regularizer = tf.add(tf.nn.l2_loss(embd_user), tf.nn.l2_loss(embd_item), 
                             name="svd_regularizer")
    return infer, regularizer

 

4. 模型训练

  • 训练过程:在训练过程中,使用样本数据进行多次迭代训练。每次迭代会获取一批用户和电影的评分数据,计算模型的预测评分,并更新模型参数以最小化损失。
  • 输出训练信息:每经过一定的样本批次,打印当前的训练错误和经过的时间,以便监控训练进度。
with tf.Session() as sess:
    sess.run(init_op)
    print("%s\t%s\t%s\t%s" % ("Epoch", "Train Error", "Val Error", "Elapsed Time"))
    errors = deque(maxlen=samples_per_batch)
    start = time.time()
    
    for i in range(max_epochs * samples_per_batch):
        users, items, rates = (iter_train.userId.values, iter_train.movieId.values, iter_train.rating.values)
        _, pred_batch = sess.run([train_op, infer], feed_dict={user_batch: users,
                                                               item_batch: items,
                                                               rate_batch: rates})
        pred_batch = clip(pred_batch)

        if i % samples_per_batch == 0:
            train_err = np.sqrt(np.mean(errors))
            end = time.time()
            print("%02d\t\t\t\t%.3f secs" % (i // samples_per_batch, end - start))
            start = end

5. 模型保存与恢复

  • 模型保存:训练完成后,模型的权重和结构会被保存,以便后续可以加载和复用。
  • 模型恢复:在后续阶段,可以通过加载保存的模型来进行评分预测,而不需重新训练模型。

6. 评分预测与评估

  • 测试集评估:从测试集中取样本进行评分预测,并与实际评分进行比较,计算均方根误差(RMSE),以评估模型的性能。
  • 结果展示:打印预测评分与实际评分的对比,方便分析模型的准确性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/912742.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[vulnhub] DarkHole: 1

https://www.vulnhub.com/entry/darkhole-1,724/ 端口扫描主机发现 探测存活主机,184是靶机 nmap -sP 192.168.75.0/24 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-11-08 09:59 CST Nmap scan report for 192.168.75.1 Host is up (0.00027s latency). MA…

4.1 WINDOWS XP,ReactOS对象与对象目录----1

系列文章目录 文章目录 系列文章目录4.1 对象与对象目录OBJECT_HEADERObpLookupEntryDirectory()NtCreateTimer() 4.1 对象与对象目录 “对象(Object)”这个词现在大家都已耳熟能详了,但是对象到底是什么呢?广义地说,对象就是“目标”,行为…

STM32H503开发(2)----STM32CubeProgrammer烧录

STM32H503开发----2.STM32CubeProgrammer烧录 概述硬件准备视频教学样品申请源码下载参考程序自举模式BOOT0设置UART烧录USB烧录 概述 STM32CubeProgrammer (STM32CubeProg) 是一款用于编程STM32产品的全功能多操作系统软件工具。 它提供了一个易用高效的环境,通过…

“双十一”电商狂欢进行时,在AI的加持下看网易云信IM、RTC如何助力商家!

作为一年一度的消费盛会,2024年“双十一”购物狂欢节早已拉开帷幕。蹲守直播间、在主播热情介绍中点开链接并加购,也已成为大多数人打开“双11”的重要方式。然而,在这火热的购物氛围背后,主播频频“翻车”、优质主播稀缺、客服响…

debian系统安装qt的时候 显示xcb相关文件缺失

如果是安装之后的问题 我们可以选择使用ldd的命令查看当前依赖的so那些文件确实 ldd /home/yinsir/Qt/5.15.2/gcc_64/plugins/platforms/libqxcb.so 本人在进行打包的时候 出现则会个报错 ERROR: ldd outputLine: “libxcb-util.so.1 > not found” ERROR: for binary: “/…

A023-基于SpringBoot的冷链物流系统的设计与实现

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…

【数据分析】如何构建指标体系?

有哪些指标体系搭建模型?五个步骤教你从0开始搭建指标体系 一、企业指标体系搭建存在什么问题 许多企业在搭建数据指标体系时遇到了诸多难题,如问题定位不准确、数据采集不完整、目标不一致、报表无序、指标覆盖不全面以及报表价值未充分利用等。 1、…

C++20 概念与约束(1)—— SFINAE

1、从模板说起 众所周知,C在使用模板时,如果有多个模板匹配,则编译器会选择最匹配的一个模板进行实例化,这也正是模板特化和偏特化的依据。 根据上面这张图中的现象,列举下面几个示例: 1、不存在模板的情况…

基于Spring Boot的在线装修管理系统的设计与实现,LW+源码+讲解

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对信息管理混乱,出错率高,信息安全性差&#…

原生鸿蒙应用市场:赋能开发者全生命周期服务体验

文章目录 背景自动化检测前移:早发现,早解决技术细节:静态代码分析与兼容性测试应用场景 按需加载:优化性能,提升用户体验技术细节:模块化与懒加载实现应用场景 应用加密:保护应用代码安全&…

RDD 算子全面解析:从基础到进阶与面试要点

Spark 的介绍与搭建:从理论到实践_spark环境搭建-CSDN博客 Spark 的Standalone集群环境安装与测试-CSDN博客 PySpark 本地开发环境搭建与实践-CSDN博客 Spark 程序开发与提交:本地与集群模式全解析-CSDN博客 Spark on YARN:Spark集群模式…

配置多公钥在多平台使用Git

步骤很详细,直接上教程 当我们想在不同远程仓库平台配置不同公钥时会发现不进行额外配置是不行的,只会使用默认的公钥,本篇文章便是为了解决这个问题 进入C:\Users\[你的用户名]\.ssh文件夹 如果没有这个文件夹可以新建一下 在上述文件夹新建…

如何在 Android 上增加 SELinux 权限

SELinux(Security-Enhanced Linux)是一种强制访问控制(MAC)机制,它为 Android 系统提供了额外的安全层。通过 SELinux,系统管理员可以定义细粒度的安全策略,限制进程对文件、网络和其他资源的访…

新能源汽车与公共充电桩布局

近年来,全球范围内对新能源汽车产业的推动力度不断增强,中国新能源汽车市场也呈现蓬勃发展的势头,在政策与市场的共同推动下,新能源汽车销量持续增长。然而,据中国充电联盟数据显示,充电基础设施建设滞后于新能源汽车数量增长的现状导致充电桩供需不平衡,公共充电桩服务空白区域…

中科大:LLM知识遗忘评估与优化

📖标题:A Closer Look at Machine Unlearning for Large Language Models 🌐来源:arXiv, 2410.08109 🌟摘要 🔸大型语言模型(LLM)可能会记住敏感或受版权保护的内容,从…

django+postgresql

PostgreSQL概述 PostgreSQL 是一个功能强大的开源关系数据库管理系统(RDBMS),以其高度的稳定性、扩展性和社区支持而闻名。PostgreSQL 支持 SQL 标准并具有很多先进特性,如 ACID 合规、复杂查询、外键支持、事务处理、表分区、JS…

Flink CEP 入门

1.复杂事件处理 大数据应用领域存在业务逻辑非常复杂的应用系统,比如,一个应用要检测特定顺序先后发生的一组事件,对事件组进行分析或报警提示,若使用SQL 或者DataStream API 处理这类应用,过程相对来说比较…

CSS教程(三)- CSS 三大特性

1. 层叠性 介绍 多组CSS样式共同作用于一个元素,就会出现 覆盖(层叠) 另一个冲突的样式。 层叠原则 样式冲突:遵循就近原则(哪个样式离结构近,就执行哪个样式) 样式不冲突,就不会重…

粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测

粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测 目录 粒子群优化双向深度学习!PSO-BiTCN-BiGRU-Attention多输入单输出回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现PSO-BiTCN-BiGRU-Attention粒子…

Unity引擎智能座舱解决方案

作为全球领先的 3D 引擎之一,Unity引擎为车载3D HMI提供全栈支持。即为从概念设计到量产部署的整个 HMI 工作流程提供创意咨询、性能调优、项目开发等解决方案,从而为车载信息娱乐系统和智能驾驶座舱打造令人惊叹的交互式体验。 专为中国车企打造的HMI引…