16. BI - 推荐系统之 ALS 实现

本文为 「茶桁的 AI 秘籍 - BI 篇 第 16 篇」

茶桁的AI秘籍_核心BI_16

文章目录

    • 对 MovieLens 进行电影推荐

Hi,你好。我是茶桁。

前面两节课的内容中,我们从矩阵分解到 ALS 原理,依次给大家讲解了推荐系统中的一个核心概念。

矩阵分解中拆矩阵的背后其实是聚类。就说 k 等于几是人工设定的,所以跟聚类概念很像。就是要把人群划分成几类,把电影划成几类。k 等于 3 是自己去设定的,也可以把它拆成 k 等于 4、k 等于 5,都是一样的,是要完成聚类任务。

聚类不需要操心到底有哪些类型,它会自动的聚成这几类。这也是为什么把它称为隐分类。

「隐」就是我们知道它聚成了三种类型,但是不太清楚这三种类型具体的名称应该叫什么。所以它确实用了聚类的概念,至于为什么用了聚类概念,是因为最后学出来的类型是在 3 个维度上打分的,一个用户有 3 个维度的评分,一个商品也有 3 个维度评分。其实就相当于是把用户聚成了三类,商品聚成了三类。

或者换个角度,可以看一下

image-4

还是用之前的 12 * 9 的矩阵,以前一个用户的向量有 9 个维度,9 个维度还是比较多的,有可能每个维度不全。现在我们要把 9 个维度做成 3 个维度(k=3),这 3 个维度就变成了更稠密的压缩的维度,这个小的维度就是个降维。

所以用户要降成 3 个维度,商品也要降成相同的 3 个维度,它的概念都是一样的,大家都是在这个维度上面做一个抽象,这是为什么最开始我们给它画这个场景。用户商品中间这个隐分类我们把它称为 interest。

或者这个 k 就是个聚类方式。用户聚成了几种兴趣,那么商品也是聚成了相同的几种兴趣,大家都是在相同的这样的 3 个属性的维度上面去打分。用户的打分如果在 3 个属性上高那就代表你喜欢,商品上面高就代表这个类型的很强。

在这里插入图片描述

咱们来举个例子:一个用户的特效片是高的,封神第一部它在特效片上也是高的,剧情片和动画片它没有分吗?并不是,它也有分,也会有相关的一个分数。这样我们再进行计算的时候就更好的来进行计算了,就相当于把一个大维度降成了小维度。

那之前这些整个的就是给大家讲解的矩阵分解原理,原理还是要明白的。虽然最后工作的时候大部分内容都是调包,但是在这之前还是很有必要去了解一下它的原理。有些时候有可能一是面试的时候问,第二你调包的时候更知道它为什么要用到这个包,这个包背后逻辑是什么逻辑。

那这个包怎么调?有两种方式来调,一种就是大数据的方法,用 Spark。

Spark 是个大数据的一个平台,在 Spark 里面我们默认它是使用了一个 ALS。Spark 如果你未来感兴趣可以看一看,它有两个机器学习的库,一个叫 mllib 库,一个叫 ml 库。建议大家直接用 ml 库,也是官方推荐的。

mllib 库已经废弃掉了,3.0 版本之后不再维护了。所以大家直接用 ml 这个工具箱就 OK 了。两个一个很大的区别就是 ml 主要操作的是 DataFrame, mllib 操作的是 RDD,两个面向的数据集是不一样的。相较而言,ml 在 DataFrame 上的抽象级别更高,数据和操作耦合度更低。

第二点它使用起来已经做了更好的封装,就更像 sklearn。机器学习中大家都习惯用 sklearn,最开始进入机器学习也是调这个包,所以它就更像 sklearn 的接口使用起来衔接起来更顺畅一点。

如果你用 Python 代码,那也该大家找了一个在 Github 上的,有一个 ALS 类,可以直接引用这个类:

https://github.com/tushushu/imylu/blob/master/imylu/recommend/als.py

对 MovieLens 进行电影推荐

来看一下下面这个例子,数据集是 MovieLens,可以在这里去下载:https://www.kaggle.com/jneupane12/movielens/download

MovieLens 是一个电影的评分网站,上面有几十万的电影和很多的人的一些打分。

20231216172715

我们以其中一个人为例,他给这么多电影打了一些分数。整个数据集叫readings.csv,有四个字段,userId, movieId, rating 和 timestamp。

我们现在看一看这个矩阵,一个人打了这么多电影分数,那你觉得如果把它看成一个非常大的一个矩阵的话,这个矩阵是稀疏的还是稠密的呢?

虽然用户 1 给这么多电影打分,但实际上要知道电影其实会很多,可能有 10 万部,而你只打了 1,000 部,所以它还是个稀疏的。我们就需要猜出来那些没有打分的,比如说中间那些 id 为 3、4、28,这些都没有打分。

怎么做呢?我们来看看代码。这里就是封装好的一个类,它是一个矩阵的概念。里面具体代码大家可以去我的代码仓库里去查看源码。

它就是做了一个矩阵的相乘,还有矩阵的转质啊等等。中间都封装好了矩阵的乘法,封装了 ALS 类,后面使用过程中我们就直接调包就好了。

class Matrix(object):
def __init__(self, data):
    self.data = data
    self.shape = (len(data), len(data[0]))

def row(self, row_no):
    return Matrix([self.data[row_no]])

def col(self, col_no):
    m = self.shape[0]
    return Matrix([[self.data[i][col_no]] for i in range(m)])

@property
def is_square(self):
    return self.shape[0] == self.shape[1]

@property
def transpose(self):
    data = list(map(list, zip(*self.data)))
    return Matrix(data)

def _eye(self, n):
    return [[0 if i != j else 1 for j in range(n)] for i in range(n)]

@property
def eye(self):
    assert self.is_square, "The matrix has to be square!"
    data = self._eye(self.shape[0])
    return Matrix(data)

def _gaussian_elimination(self, aug_matrix):
    n = len(aug_matrix)
    m = len(aug_matrix[0])

    # From top to bottom.
    for col_idx in range(n):
        # Check if element on the diagonal is zero.
        if aug_matrix[col_idx][col_idx] == 0:
            row_idx = col_idx
            # Find a row whose element has same column index with
            # the element on the diagonal is not zero.
            while row_idx < n and aug_matrix[row_idx][col_idx] == 0:
                row_idx += 1
            # Add this row to the row of the element on the diagonal.
            for i in range(col_idx, m):
                aug_matrix[col_idx][i] += aug_matrix[row_idx][i]

        # Elimiate the non-zero element.
        for i in range(col_idx + 1, n):
            # Skip the zero element.
            if aug_matrix[i][col_idx] == 0:
                continue
            # Elimiate the non-zero element.
            k = aug_matrix[i][col_idx] / aug_matrix[col_idx][col_idx]
            for j in range(col_idx, m):
                aug_matrix[i][j] -= k * aug_matrix[col_idx][j]

    # From bottom to top.
    for col_idx in range(n - 1, -1, -1):
        # Elimiate the non-zero element.
        for i in range(col_idx):
            # Skip the zero element.
            if aug_matrix[i][col_idx] == 0:
                continue
            # Elimiate the non-zero element.
            k = aug_matrix[i][col_idx] / aug_matrix[col_idx][col_idx]
            for j in chain(range(i, col_idx + 1), range(n, m)):
                aug_matrix[i][j] -= k * aug_matrix[col_idx][j]

    # Iterate the element on the diagonal.
    for i in range(n):
        k = 1 / aug_matrix[i][i]
        aug_matrix[i][i] *= k
        for j in range(n, m):
            aug_matrix[i][j] *= k

    return aug_matrix

def _inverse(self, data):
    n = len(data)
    unit_matrix = self._eye(n)
    aug_matrix = [a + b for a, b in zip(self.data, unit_matrix)]
    ret = self._gaussian_elimination(aug_matrix)
    return list(map(lambda x: x[n:], ret))

@property
def inverse(self):
    assert self.is_square, "The matrix has to be square!"
    data = self._inverse(self.data)
    return Matrix(data)

def _row_mul(self, row_A, row_B):
    return sum(x[0] * x[1] for x in zip(row_A, row_B))

def _mat_mul(self, row_A, B):
    row_pairs = product([row_A], B.transpose.data)
    return [self._row_mul(*row_pair) for row_pair in row_pairs]

def mat_mul(self, B):
    error_msg = "A's column count does not match B's row count!"
    assert self.shape[1] == B.shape[0], error_msg
    return Matrix([self._mat_mul(row_A, B) for row_A in self.data])

def _mean(self, data):
    m = len(data)
    n = len(data[0])
    ret = [0 for _ in range(n)]
    for row in data:
        for j in range(n):
            ret[j] += row[j] / m
    return ret

def mean(self):
    return Matrix(self._mean(self.data))

def scala_mul(self, scala):
    m, n = self.shape
    data = deepcopy(self.data)
    for i in range(m):
        for j in range(n):
            data[i][j] *= scala
    return Matrix(data)

然后我们来创建一个读取数据的方法:

def load_movie_ratings(file):
with open(file) as ff:
    lines = iter(ff)
    col_names = ", ".join(next(lines)[:-1].split(",")[:-1])
    data = [[float(x) if i == 2 else int(x)
            for i, x in enumerate(line[:-1].split(",")[:-1])]
        for line in lines]
return data

接着,就是要写一个 ALS 的实现

class ALS(object):
def __init__(self):
    self.user_ids = None
    self.item_ids = None
    self.user_ids_dict = None
    self.item_ids_dict = None
    self.user_matrix = None
    self.item_matrix = None
    self.user_items = None
    self.shape = None
    self.rmse = None


def _process_data(self, X):
    self.user_ids = tuple((set(map(lambda x: x[0], X))))
    self.user_ids_dict = dict(map(lambda x: x[::-1], enumerate(self.user_ids)))

    self.item_ids = tuple((set(map(lambda x: x[1], X))))
    self.item_ids_dict = dict(map(lambda x: x[::-1], enumerate(self.item_ids)))

    self.shape = (len(self.user_ids), len(self.item_ids))

    ratings = defaultdict(lambda: defaultdict(int))
    ratings_T = defaultdict(lambda: defaultdict(int))
    for row in X:
        user_id, item_id, rating = row
        ratings[user_id][item_id] = rating
        ratings_T[item_id][user_id] = rating

    err_msg = "Length of user_ids %d and ratings %d not match!" % (len(self.user_ids), len(ratings))
    assert len(self.user_ids) == len(ratings), err_msg

    err_msg = "Length of item_ids %d and ratings_T %d not match!" % (len(self.item_ids), len(ratings_T))
    assert len(self.item_ids) == len(ratings_T), err_msg
    return ratings, ratings_T


def _users_mul_ratings(self, users, ratings_T):
    def f(users_row, item_id):
        user_ids = iter(ratings_T[item_id].keys())
        scores = iter(ratings_T[item_id].values())
        col_nos = map(lambda x: self.user_ids_dict[x], user_ids)
        _users_row = map(lambda x: users_row[x], col_nos)
        return sum(a * b for a, b in zip(_users_row, scores))

    ret = [[f(users_row, item_id) for item_id in self.item_ids] for users_row in users.data]
    return Matrix(ret)

def _items_mul_ratings(self, items, ratings):
    def f(items_row, user_id):
        item_ids = iter(ratings[user_id].keys())
        scores = iter(ratings[user_id].values())
        col_nos = map(lambda x: self.item_ids_dict[x], item_ids)
        _items_row = map(lambda x: items_row[x], col_nos)
        return sum(a * b for a, b in zip(_items_row, scores))

    ret = [[f(items_row, user_id) for user_id in self.user_ids] for items_row in items.data]
    return Matrix(ret)

# 生成随机矩阵
def _gen_random_matrix(self, n_rows, n_colums):
    data = np.random.rand(n_rows, n_colums)
    return Matrix(data)


# 计算 RMSE
def _get_rmse(self, ratings):
        m, n = self.shape
        mse = 0.0
        n_elements = sum(map(len, ratings.values()))
        for i in range(m):
            for j in range(n):
                user_id = self.user_ids[i]
                item_id = self.item_ids[j]
                rating = ratings[user_id][item_id]
                if rating > 0:
                    user_row = self.user_matrix.col(i).transpose
                    item_col = self.item_matrix.col(j)
                    rating_hat = user_row.mat_mul(item_col).data[0][0]
                    square_error = (rating - rating_hat) ** 2
                    mse += square_error / n_elements
        return mse ** 0.5

# 模型训练
def fit(self, X, k, max_iter=10):
    ratings, ratings_T = self._process_data(X)
    self.user_items = {k: set(v.keys()) for k, v in ratings.items()}
    m, n = self.shape

    error_msg = "Parameter k must be less than the rank of original matrix"
    assert k < min(m, n), error_msg

    self.user_matrix = self._gen_random_matrix(k, m)

    for i in range(max_iter):
        if i % 2:
            items = self.item_matrix
            self.user_matrix = self._items_mul_ratings(
                items.mat_mul(items.transpose).inverse.mat_mul(items),
                ratings
            )
        else:
            users = self.user_matrix
            self.item_matrix = self._users_mul_ratings(
                users.mat_mul(users.transpose).inverse.mat_mul(users),
                ratings_T
            )
        rmse = self._get_rmse(ratings)
        print("Iterations: %d, RMSE: %.6f" % (i + 1, rmse))

    self.rmse = rmse

# Top-n 推荐,用户列表:user_id, n_items: Top-n
def _predict(self, user_id, n_items):
    users_col = self.user_matrix.col(self.user_ids_dict[user_id])
    users_col = users_col.transpose

    items_col = enumerate(users_col.mat_mul(self.item_matrix).data[0])
    items_scores = map(lambda x: (self.item_ids[x[0]], x[1]), items_col)
    viewed_items = self.user_items[user_id]
    items_scores = filter(lambda x: x[0] not in viewed_items, items_scores)

    return sorted(items_scores, key=lambda x: x[1], reverse=True)[:n_items]

# 预测多个用户
def predict(self, user_ids, n_items=10):
    return [self._predict(user_id, n_items) for user_id in user_ids]

那接着就是写一个主函数来对方法进行调用,并且开始进行学习。第一个我们创建好这个 model

model = ALS()

然后进行加载数据

data = load_movie_ratings('./ratings.csv')

load_movie_ratings是已经封装好的一个读取数据的方法。这个方法做的事情就是导入数据并返回一个矩阵。

然后就是进行 fit 原来加载好的数据

model.fit(data, k=3, max_iter=2)

k 等于 3 代表聚类个数,max_iter 设置的迭代次数很少,因为他计算的这个速度会比较慢,为了方便的话就只计算两轮。两轮之后就会有结果,把这个结果做一个预测,我们想要给用户 1 到 12 来做预测,推荐两个商品。predict 给用户 1 到 12 推两个商品,然后把商品结果打印出来。

在这里插入图片描述

可以一起来看一看,我们的结果中第一轮和第二轮结果,MSE 结果都出来了。那这个 RMSE 代表什么含义?R 就是开了一个平方,所以它是在原有基础上开了根号。

第一轮我们得到 3.35, 一共学了两轮,学两轮基本上还没有学好,可以看一看第二轮 MSE 其实已经变得比较小了,为 0.31。整体的打分其实都不高,截图中是给用户推荐的一个结果,包含了商品 id。

这是第一个,我们用 ALS 可以去完成这样一个任务完成推荐,用 Python 包。还可以用 Spark,可以使用 ml 以及 mllib 去完成,大家可以安装一个 pyspark 来进行调用。

不过我的 M1 一直没有调好 Spark 环境,所以这一段演示也就暂时没办法拿给大家了,虽然代码在,但是因为没有环境跑过,所以可行性也不太清楚,就不放出来了,万一错了就是误导大家。

那下一节课呢,我会给大家再介绍一个方法,咱们下节课再见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/407958.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

笔记本Win 10系统查看电池健康状况

博主最近换了个笔记本电池&#xff0c;之前的电池容量明显变小了很多&#xff0c;而且出现了轻微鼓包的情况。所以用gpt问了一下怎么用系统的方法查看电池情况。 在Windows 10系统中&#xff0c;您可以通过以下步骤来查看笔记本电脑电池的健康状况&#xff1a; 打开命令提示符&…

【科技素养题】少儿编程 蓝桥杯青少组科技素养题真题及解析第24套

少儿编程 蓝桥杯青少组科技素养题真题及解析第24套 1、A市和B市决定联合建造一个邮件集散中心用于将来自其他地区的邮件运送至两个城市。A 市每周会收到 4000 份邮件&#xff0c;B 市每周会收到 6000 份邮件。假设运送邮件的时间与集散中心距离城市的距离成正比&#xff0c;A市…

sentinel整合nacos在gateway中实现限流

sentinel整合nacos在gateway中实现限流 一、应用层面完成网关整合nacos和sentinel实现限流 前沿 启动nacos与sentinel的jar的启动&#xff0c;这里不细讲 sentinel官网 https://github.com/alibaba/Sentinel/wiki/%E4%B8%BB%E9%A1%B5 sentinel 下载地址 https://github.com/…

最简单的基于 FFmpeg 的编码器 - 纯净版(不包含 libavformat)

最简单的基于 FFmpeg 的编码器 - 纯净版&#xff08;不包含 libavformat&#xff09; 最简单的基于 FFmpeg 的视频编码器&#xff08;YUV 编码为 HEVC&#xff08;H.265&#xff09;&#xff09;正文结果工程文件下载 最简单的基于 FFmpeg 的视频编码器&#xff08;YUV 编码为 …

❤ hexo主题+Gitee搭建个人博客

Hexo的基本使用 1. ​认识 官网 官网地址&#xff1a;https://hexo.io/zh-cn/ 介绍 Hexo是一个快速、简洁且高效的博客框架。Hexo 使用 Markdown&#xff08;或其他渲染引擎&#xff09;解析文章&#xff0c;在几秒内&#xff0c;即可利用靓丽的主题生成静态网页。即把用…

化学分子Mol2文件格式与使用注意事项

欢迎浏览我的CSND博客&#xff01; Blockbuater_drug …点击进入 文章目录 前言一、Mol2文件示例二、 Mol2文件主要结构解释及注意事项MOLECULE 字段解释ATOM 字段解释BOND 字段解释SUBSTRUCTURE字段解释 总结参考资料 前言 Mol2格式文件是一个ASCII 文件&#xff0c;由Tripos…

Siamfc论文中文翻译(详细!)

Fully-Convolutional Siamese Networks for Object Tracking 用于对象跟踪的Siamese网络 说明 建议对照siamfc&#xff08;2021版&#xff09;原文阅读&#xff0c;翻译软件翻译出来的效果不好&#xff0c;整体阅读体验不佳&#xff0c;所以我对译文重新进行了整理&#xff0…

【ArcGIS】利用高程进行坡度分析:区域面/河道坡度

在ArcGIS中利用高程进行坡度分析 坡度ArcGIS实操案例1&#xff1a;流域面上坡度计算案例2&#xff1a;河道坡度计算2.1 案例数据2.2 操作步骤 参考 坡度 坡度是地表单元陡缓的程度&#xff0c;通常把坡面的垂直高度和水平距离的比值称为坡度。 坡度的表示方法有百分比法、度数…

02|索引优化

数据准备 创建联合索引 KEY idx_name_age_position (name,age,position) USING BTREE CREATE TABLE employees (id int(11) NOT NULL AUTO_INCREMENT,name varchar(24) NOT NULL DEFAULT COMMENT 姓名,age int(11) NOT NULL DEFAULT 0 COMMENT 年龄,position varchar(20) NO…

在线程调用的函数中使用pthread_exit同样会将线程退出

如上图所示&#xff0c;在func()函数中调用pthread_exit&#xff0c;同样可以退出当前线程&#xff1b; 类似的&#xff0c;如果func&#xff08;&#xff09;函数中调用exit&#xff0c;可以直接退出整个进程。 return 是返回到函数调用处&#xff1b; pthread_exit是退出…

解决easyExcel模板填充时转义字符\{xxx\}失效

正常我们在使用easyExcel进行模板填充时&#xff0c;定义的变量会填充好对应的实际数据&#xff0c;未定义的变量会被清空&#xff0c;但是如果这个未定义的变量其实是模板的一部分&#xff0c;那么清空了就出错了。 在这张图里&#xff0c;上面的是模板填充后导出的文件&…

Java基础之lambda表达式(五)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

【Java程序员面试专栏 数据结构】六 高频面试算法题:字符串

一轮的算法训练完成后,对相关的题目有了一个初步理解了,接下来进行专题训练,以下这些题目就是汇总的高频题目,本篇主要聊聊数组,包括数组合并,滑动窗口解决最长无重复子数组问题,图形法解下一个排列问题,以及一些常见的二维矩阵问题,所以放到一篇Blog中集中练习 题目…

联想开天昭阳N4620Z笔记本如何恢复出厂麒麟操作系统(图解)

联想开天昭阳N4620Z笔记本简单参数&#xff1a; 中央处理器&#xff1a;KX-6640MA G2 内存&#xff1a;8GB 固态硬盘&#xff1a;512GB SSD 显示器&#xff1a;14.0”FHD 电池&#xff1a;4Cell 操作系统&#xff1a;麒麟KOS中文RTM&#xff08;试用版&#xff09; 此款笔…

关于Arrays类中asList(T... a)泛型参数辨析

前提 我们需要知道两点 &#xff08;1&#xff09;T指的是泛型类型&#xff0c;它只能是引用类型&#xff0c;何为引用类型&#xff1f;在java中除了基本数据类型&#xff08;如byte、short、int、long、float、double、boolean、char&#xff09;之外的所有类型都是引用类型…

【Flutter/Android】运行到安卓手机上一直卡在 Running Gradle task ‘assembleDebug‘... 的终极解决办法

方法步骤简要 查看你的Flutter项目需要什么版本的 Gradle 插件&#xff1a; 下载这个插件&#xff1a; 方法一&#xff1a;浏览器输入&#xff1a;https://services.gradle.org/distributions/gradle-7.6.3-all.zip 方法二&#xff1a;去Gradle官网找对应的版本&#xff1a;h…

Uniapp小程序开发-底部tabbar的开发思路

文章目录 前言一、uniapp 实现 tabbar二、图标使用网络图片后端返回tabbar信息uniapp方式中的setTabBarItem 总结 前言 记录uniapp 开发小程序的底部tabbar &#xff0c;这里讨论的不是自定义tabbar的情况。而是使用wx.setTabBarItem(Object object) 这个api的情况。关于custo…

IT廉连看——C语言——分支语句

IT廉连看—分支语句 一、什么是语句 C语句可分为以下五类&#xff1a; 表达式语句 函数调用语句 控制语句 复合语句 空语句 本周后面介绍的是控制语句。 控制语句用于控制程序的执行流程&#xff0c;以实现程序的各种结构方式&#xff0c;它们由特定的语句定义符组成&…

OT 安全解决方案:探索技术

IT 和 OT 安全的融合&#xff1a;更好的防御方法 OT 安全解决方案下一个时代&#xff1a; 为了应对不断升级的威胁形势&#xff0c;组织认识到迫切需要采用统一的信息技术 (IT) 和运营技术 (OT) 安全方法。IT 和 OT 安全的融合代表了一种范式转变&#xff0c;承认这些传统孤立领…

了解 JavaScript 中的重放攻击和复现攻击

在网络安全领域&#xff0c;重放攻击&#xff08;Replay Attack&#xff09;和复现攻击&#xff08;Playback Attack&#xff09;是一些可能导致安全漏洞的攻击形式。这两种攻击类型涉及在通信过程中再次发送已经捕获的数据&#xff0c;以达到欺骗系统的目的。本文将介绍 JavaS…