【机器学习】《机器学习算法竞赛实战》第7章用户画像

文章目录

  • 第7章 用户画像
    • 7.1 什么是用户画像
    • 7.2 标签系统
      • 7.2.1 标签分类方式
      • 7.2.2 多渠道获取标签
      • 7.2.3 标签体系框架
    • 7.3 用户画像数据特征
      • 7.3.1 常见的数据形式
      • 7.3.2 文本挖掘算法
      • 7.3.3 神奇的嵌入表示
      • 7.3.4 相似度计算方法
    • 7.4 用户画像的应用
      • 7.4.1 用户分析
      • 7.4.2 精准营销
      • 7.4.3 风控领域
    • 7.5 思考练习

这本书写的挺好,干货满满。除了课后题,有必要对内容做一下总结。
与文章框架保持一致,基本在抄书……学渣的我……

第7章 用户画像

7.1 什么是用户画像

机器学习中提到的用户画像,通常是基于给定的数据对用户属性、行为进行描述,然后提取个性化指标,再以此分析可能存在的群体共性,并落地应用到各种业务场景中。
在这里插入图片描述

7.2 标签系统

用户画像核心:“打标签”,即标签化用户的行为特征。
企业通过标签,分析用户(社会属性、生活习惯、消费行为)===>商业应用

7.2.1 标签分类方式

直接拍了张照片,因为我觉得我画的不如人家的好看,而且还浪费时间。凑合看下,了解即可:
在这里插入图片描述

7.2.2 多渠道获取标签

获取标签的渠道主要有三种:事实类标签、规则类标签、模型类标签。

  • 事实类标签
    来源于:①原始数据:性别、年龄、会员等级。
    ②统计数据:用户行为次数、消费总额。
  • 规则类标签
    依据是设置的规则。
    举例:地域所属、家庭类型、年龄层
    比如,所在地在山东,业务规则可以划分为“华北”,也可以是”东部“,也可以是“北方”。根据具体的业务规则会有不同的结 果标签,这就是规则类标签。
    规则类标签用到的主要技能是数理统计类知识:基础统计、数值分层、概率分布、均值分析、方差分析等。
    在这里插入图片描述
  • 模型类标签
    模型类标签是经过机器学习和深度学习等模型处理后,二次加工生成的洞察性标签。
    举例:预测用户状态、预测用户信用分、划分兴趣人群和对评论文本进行分类等。 在这里插入图片描述
    【总结】我的理解
    规则类标签,是基于用户历史行为,对用户的行为、偏好、价值做出判断,可以看作依然属于历史范畴。
    模型类标签,主要是对用户进行预测,或者文本分类。可以认为是对未来、或者深层次的信息进行加工。===>两个方向:未来、深度。

7.2.3 标签体系框架

包含四个部分:数据源、标签管理、标签层级分类、标签服务赋能。
在这里插入图片描述

  • 数据源:离线、实时、第三方
  • 标签管理
  • 标签层级分类:上面提到的三种标签,事实类、规则类、模型类。
  • 标签服务赋能:画像分析、选人选品、个性化推荐、风控建模、精准营销===>商业落地

7.3 用户画像数据特征

用户画像的数据来源主要有三种:用户数据、商品数据、渠道数据。
可以通过统计、编码、降维提取有效特征===>构造标签

7.3.1 常见的数据形式

四种:数值型变量、类别型变量、多值型变量、文本型变量。

  • 数值型变量:年龄、身高、体重、消费金额、流量累计。
  • 类别型变量:性别、籍贯、所在城市===>一个用户对应一个结果,结果非数值
  • 多值型变量:兴趣爱好、穿衣风格、看过的电影===>一个用户对应多个结果
  • 文本型变量:购物评论

7.3.2 文本挖掘算法

对原始数据出现的用户标签集合、购物评价,做基于文本的特征提取,同时预处理、清洗。
用到的文本挖掘算法:LSA、PLSA、LDA。===>无监督学习

  • LSA(潜在语义分析)
    非概率主题模型
    与词向量有关
    主要用于文本的话题分析
    核心:通过矩阵分解,发现文档与词之间基于话题的语义关系。
  • PLSA(概率潜在语义分析)
    为克服LSA潜在缺点而提出,通过一个生成模型为LSA赋予概率意义上的解释。
    有个假设。
  • LDA(潜在狄利克雷分布)
    概率主题模型
    与词向量无关
    典型的词袋模型

7.3.3 神奇的嵌入表示

嵌入表示可以将高维系数特征向量转换成低维稠密特征向量来表示。

  • 词嵌入Word2Vec
    原理:Word2Vec根据上下文之间的关系训练词向量。
    有两种训练模式:Skip-Gram(跳字模型)和CBOW(连续词袋模型)。区别:输入层、输出层不同。
    Skip-Gram(跳字模型):输入一个词,预测上下文。
    CBOW(连续词袋模型):用一个词的上下文作为输入,预测这个词语本身。
  • 图嵌入DeepWalk
    包括三个部分:①根据某种序列,把商品关联起来(商品是点,关联是线),
    ②然后随机游走(random wal),生成商品序列,
    ③将序列输入到Skip-Gram进行词向量训练。
    【总结】我的理解
    是否可以理解为,Word2Vec只能做一层Skip-Gram词向量训练,而DeepWalk可以做多层词向量训练。或者说,Word2Vec只能基于一个词,而DeepWalk可以做多个词?
    总之它的作用大概就是去掉一些没有用的信息,理解为降维或者浓缩信息。

7.3.4 相似度计算方法

获取用户和商品的嵌入表示、文本的分词表示即各类稀疏表示后,就可以对这些向量表示进行相似度计算了。
基于相似度计算的特征提取方法有:欧氏距离、余弦相似度、Jaccard相似度等===>提取用户、商品、文本的相似度。
广泛应用场景:用户分层聚类、个性化推荐或广告投放。

  • 欧氏距离
  • 余弦相似度
    衡量样本之间的差异。夹角越小,余弦值越接近于1,反之则趋近于-1.
  • Jaccard相似度
    度量两个集合之间的差异大小。
    思想:共有元素越多越相似。

7.4 用户画像的应用

在这里插入图片描述

7.4.1 用户分析

产品上线之初对目标用户群已有一些定位,但上线之后情况与预期或历史或许存在偏差,需要对拉新、促活、留存、新增用户特征、核心用户属性做分析研究,提炼人群特征,然后不断优化产品性能、UI交互。
在这里插入图片描述【总结】
在用户生命周期的各个阶段,对用户行为属性、群体特点进行研究===>提升产品,压榨用户价值

7.4.2 精准营销

范畴内:推荐系统、广告投放
基于用户历史消费行为,为电商找到种子用户。

7.4.3 风控领域

风控领域的特点:
①解释性高,时效性
②业务关联度高
③负样本占比极少,是均衡学习算法的主战场之一。

【题外话】
金融信贷领域,客户的风险主要来自两方面:还款能力和还款意愿。
还款能力主要考察客户是否有足够的资金,并且按时还款,这就涉及到客户的工资日,工作、学历什么的。
还款意愿,一个是突发因素还不了了,比如失业了,另外一个就是本来贷款的时候就没想过要还,这就涉及到金融领域的反欺诈。
本来之前看了一本书是关于金融风控的,但是那个作者比较缺德的是,没有数据集,书里面只有代码,直接就导入了不知道什么数据集,这怎么搞啊。过分。

7.5 思考练习

见【机器学习】《机器学习算法竞赛实战》思考练习(更新中……)

以上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/517056.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

B/S架构SaaS模式 医院云HIS系统源码,自主研发,支持电子病历4级

B/S架构SaaS模式 医院云HIS系统源码,自主研发,支持电子病历4级 系统概述: 一款满足基层医院各类业务需要的云HIS系统。该系统能帮助基层医院完成日常各类业务,提供病患挂号支持、病患问诊、电子病历、开药发药、会员管理、统计查…

基于Java微信小程序的医院挂号小程序,附源码

博主介绍:✌IT徐师兄、7年大厂程序员经历。全网粉丝15W、csdn博客专家、掘金/华为云//InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&#x1f3…

Java学习之面向对象三大特征

目录 继承 作用 实现 示例 instanceof 运算符 示例 要点 方法的重写(Override) 三个要点 示例 final关键字 作用 继承和组合 重载和重写的区别 Object类详解 基本特性 补充:IDEA部分快捷键 " "和equals()方法 示例 Super关键字 示例 …

Golang实现一个聊天工具

简介 聊天工具作为实时通讯的必要工具,在现代互联网世界中扮演着重要的角色。本博客将指导如何使用 Golang 构建一个简单但功能完善的聊天工具,利用 WebSocket 技术实现即时通讯的功能。 项目源码 点击下载 为什么选择 Golang Golang 是一种高效、简…

wordpress外贸独立站模板

wordpress外贸独立站模板 WordPress Direct Trade 外贸网站模板,适合做跨境电商的外贸公司官方网站使用。 https://www.waimaoyes.com/wangzhan/22.html

Android操作sqlite数据库

Sqlite数一种轻量级的关系型数据库,android里面可以用来持久化存储一些用户数据。 一、SQLiteOpenHelper方式 SQLiteOpenHelper是原生的数据库帮助类,继承这个类,用来创建,更新数据库的操作 public class MySqliteOpenHelper e…

备战蓝桥杯--数论与搜索刷题2

话不多说,直接看题: 1.辗转相减法 我们不妨假设原等比数列a,a*(q/p),a*(q/p)^2.... 那么x1,,,,xn就是其中的n项,xi/x1(q/p)^b,假设最大比例为(q/p)^k,,那么一定有(q/p)^(k*s)(q/p)^b,即k是b的…

基于Socket简单的UDP网络程序 vs 简单的TCP网络程序

⭐小白苦学IT的博客主页 ⭐初学者必看:Linux操作系统入门 ⭐代码仓库:Linux代码仓库 ❤关注我一起讨论和学习Linux系统 1.前言 网络编程前言 网络编程是连接数字世界的桥梁,它让计算机之间能够交流信息,为我们的生活和工作带来便利…

GitHub git push超过100MB大文件失败(write error: Broken pipe)完美解决

问题 在使用git push推送大文件&#xff08;超过了100MB&#xff09;到GitHub远程仓库时提示异常&#xff0c;异常信息如下&#xff1a; fatal: sha1 file <stdout> write error: Broken pipe fatal: the remote end hung up unexpectedly 通过查阅了一些资料&#xff0c…

langchain + azure chatgpt组合配置并运行

首先默认你已经有了azure的账号。 最重要的是选择gpt-35-turbo-instruct模型、api_version&#xff1a;2023-05-15&#xff0c;就这两个参数谷歌我尝试了很久才成功。 我们打开https://portal.azure.com/#home&#xff0c;点击更多服务&#xff1a; 我们点击Azure OpenAI&#…

Mysql密码修改问题

docker安装mysql&#xff0c;直接拉取镜像&#xff0c;挂载关键目录即可启动&#xff0c;默认3306端口。此时无法直接连接&#xff0c;需要配置密码。docker进入mysql容器中 docker exec -it mysql bash #mysq是容器名称&#xff0c;也可以用容器id通过修改mysql的配置进行免密…

腾讯云服务器4核8g配置怎么样?能用来干什么?

腾讯云4核8G服务器多少钱&#xff1f;腾讯云4核8G轻量应用服务器12M带宽租用价格646元15个月&#xff0c;活动页面 txybk.com/go/txy 活动链接打开如下图所示&#xff1a; 腾讯云4核8G服务器优惠价格 这台4核8G服务器是轻量应用服务器&#xff0c;详细配置为&#xff1a;轻量4核…

Prometheus+grafana环境搭建rabbitmq(docker+二进制两种方式安装)(二)

搭建完Prometheusgrafana基础环境后参见&#xff1a;Prometheusgrafana环境搭建方法及流程两种方式(docker和源码包)(一)-CSDN博客&#xff0c;对我本地的一些常用法人服务进行一个监控。基本都可以根据官方文档完成搭建&#xff0c;因为docker和二进制方式安装各有优缺点。 d…

5:数据结构--5.1:线性结构,5.2:数组与矩阵

转上一节&#xff1a; http://t.csdnimg.cn/M9Zdphttp://t.csdnimg.cn/M9Zdp 课程内容提要&#xff1a; 5&#xff1a;知识点考点详解 5.1&#xff1a;线性结构 考点1:线性表 1&#xff1a;线性表 顺序表&#xff1a;数据在内存中紧邻。 (1)顺序存储方式&#xff1a;数…

iOS-App:App Store新的审核政策,在应用隐私清单中声明和解释使用特定API的原因

App Store新的审核政策&#xff0c;在应用隐私清单中声明和解释使用特定API的原因 设备/引擎&#xff1a;Mac&#xff08;11.6&#xff09;/Mac Mini 开发工具&#xff1a;终端 开发需求&#xff1a;苹果官方邮件通知&#xff0c; App Store新的审核政策&#xff0c;在应用隐…

linux清理缓存垃圾命令和方法介绍

在Linux系统中&#xff0c;清理缓存和垃圾文件可以通过多种方法完成&#xff0c;这些方法旨在释放磁盘空间、提高系统性能。以下是一些常用的方法&#xff0c;结合了搜索结果中的信息&#xff1a; 1. 使用sync和echo命令清除RAM缓存和交换空间1 清除页面缓存&#xff08;Page …

【原创】springboot+vue校园疫情防控管理系统设计与实现

个人主页&#xff1a;程序猿小小杨 个人简介&#xff1a;从事开发多年&#xff0c;Java、Php、Python、前端开发均有涉猎 博客内容&#xff1a;Java项目实战、项目演示、技术分享 文末有作者名片&#xff0c;希望和大家一起共同进步&#xff0c;你只管努力&#xff0c;剩下的交…

Redis中的复制功能(四)

复制的实现 步骤2:建立套接字连接 在SLAVEOF命令执行之后&#xff0c;从服务器将根据命令所设置的IP地址和端口&#xff0c;创建连向主服务器的套接字连接&#xff0c;如图所示。如果从服务器创建的套接字能成功连接(connect)到主服务器&#xff0c;那么从服务器将为这个套接…

数据结构进阶篇 之 【交换排序】(冒泡排序,快速排序递归、非递归实现)详细讲解

当你觉的自己不行时&#xff0c;你就走到斑马线上&#xff0c;这样你就会成为一个行人 一、交换排序 1.冒泡排序 BubbleSort 1.1 基本思想 1.2 实现原理 1.3 代码实现 1.4 冒泡排序的特性总结 2.快速排序 QuickSort 2.1 基本思想 2.2 递归实现 2.2.1 hoare版 2.2.2 …

ros小问题之rosdep update time out问题

在另外一篇ROS 2边学边练系列的文章里有写碰到这种问题的解决方法&#xff08;主要参考了其他博主的文章&#xff0c;只是针对ROS 2做了些修改调整&#xff09;&#xff0c;此处单拎出来方便查找。 在ROS 2中执行rosdep update时&#xff0c;报出如下错误&#xff1a; 其实原因…