线性回归
使用item特征+用户打分标签线性回归训练,最小化成本函数,得到每个用户的参数
协同过滤
协同过滤基于一个核心假设:相似的用户会有相似的兴趣,因此可以通过分析相似用户历史行为,来预测当前用户可能感兴趣的item
连续值预测
二值标签预测
是否喜欢,是否点击,观看是否超过30s之类。二值标签的处理类似逻辑回归,预测用户是否有某个行为(engage)
均值归一化
即对于新用户,预测可能得打分时使用其他用户对同一item的打分均值
TensorFlow实现
缺点
基于内容过滤
与协同过滤不同,基于内容过滤不依赖其他用户的行为数据,而是通过分析当前用户的历史偏好和行为数据,预测其可能感兴趣的item。
比如下面一个模型(双塔模型?)将用户特征训练输出用户向量,item特征训练输出item向量,两者内积作为预测结果,并将预测结果的方差作为成本函数,最小化成本函数训练。
可以看到这是将两个神经网络组装成为一个新的神经网络。
TensorFlow实现
主成分分析(Principal Components Analysis)(PCA)
PCA主要用于将高维特征转换为低维特征,PCA通过线性变换将原始数据投影到新的坐标系中,新坐标系的基向量(主成分)是数据方差最大的方向。
应用
现在基本只用于可视化,基本不会用于压缩数据和加快训练速度了