用户画像知识点补充——多数据源

引入

针对用户画像项目来说(产品)必须要支持从多种数据源加载业务数据,构建用户标签。

在之前的标签模型开发中,主要是为了简化开发复杂度,业务数据统一存储到HBase表中。

        数据源包含如下几个方面:

        存储HDFS文件系统

        存储Hive表

        存储HBase表

        存储MySQL表

        存储NoSQL数据库:Redis数据库、MongoDB数据库

        存储Elasticsearch索引库

        存储Kafka分布式队列

        封装数据为RDD:

val offsetRanges = Array(
// topic, partition, inclusive starting offset, exclusive ending offset
OffsetRange(“test”, 0, 0, 100),
OffsetRange(“test”,1, 0, 100),
)

val rdd = KafkaUtils.createRDD[String, String](sparkContext, kafkaParams, offsetRanges, PreferConsistent)

        封装数据为DataFrame:

// Subscribe to multiple topics, specifyingexplicit Kafka offsets
val df = spark
.read
.format(“kafka”)
.option(“kafka.bootstrap.servers”, “host1:port1, host2:port2”)
.option(“subscribe”, “topic1, topic2”)
.option(“startingOffsets”, “””{“topic1”:{“0”:23,”1”:-2},”topic2”:{“0”:-2}}”””)
.option(“endingOffsets”, “””{“topic1”:{“0”:50,”1”:-1},”topic2”:{“0”:-1}}”””)
.load()
df.selectExpr(“CAST(key AS STRING)”, “CAST(value AS STRING)”)
.as[(String, String)]

用户数据多种数据源

进入正题,先说明一下我们的用户画像:

1)、面向业务的用户标签及用户画像管理中台

统一规范的标签可视化管理中台,业务人员可自助生产和维护标签,适应营销策略变化。

2)全端采集用户行为数据,整合业务数据等多种数据源,帮助企业构建体系化用户标签图书馆,输出用户画像,赋能业务实现用户精细化运营和精准营销。

具体功能说明

1)、构建用户价值体系

实现用户召回等精准营销目标

用户在平台消费几次后,一段时间内没有再次访问平台进行消费,我们需要对其进行流失召回。

2)、输出全景用户画像

管理客户全生命周期、有效提升用户体验

用户群体的特征属性和偏好概况,使用产品的方式是否和预期一致;为精准营销做有效的数据支撑

3)、利用用户标签形成用户分层

提供个性化推荐内容,持续提升用户转化

用户在平台的消费金额达到一定的级别时,根据其消费能力不同,投其所好的推荐不同价格定位的商品。

4)、利用智能算法,快速找到相似似人群

补充标签定制的不足,高效锁走目标人群

选定种子人群,根据特征在更大范围内为每个用户计算相似度,精准找到相似人群,挖掘更多潜在客户

数据源概述

针对用户画像标签系统来说,不同标签(业务标签,4级标签)来源于不同的业务数据(订单相关数据、搜搜数据、广告点击数据等)、用户行为数据以及第三方数据(社交数据、信用数据等)构建而来。

不同类型数据采集存储在不同的存储引擎系统(比如HDFS、HBase、Hive、Elasticsearch、MYSQL数据库等),因此需要用户画像标签系统可以支持从不同的数据源读取业务数据,进行构建标签,恰好Spark SQL支持多数据源的加载与保存。

 

加载HBase表

前面的标签开发中,无论是加载注册会员信息表tbl_tag_users还是订单数据表tbl_tag_orders,都是从HBase数据库中读取,自己依据Spark SQL实现外部数据源接口,在标签管理平台构建标签时,通过标签规则rule传递参数,开发标签模型时:解析标签规则获取业务数据,逻辑如下:

 

重构代码(加载数据)

将上述代码抽象为两个方法:

其一:解析标签规则rule为Map集合

其二:依据规则Map集合中inType判断具体数据源,加载业务数据

编写MetaParse对象object,创建方法parseRuleToMap和parseMetaToData

  1. 、解析规则rule为参数ParamsMap

获取业务标签规则rule,按照分隔符分割数据,具体实现代码如下:

import org.apache.spark.internal.Logging
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * 加载业务数据工具类:
 *      解析业务标签规则rule,依据规则判断数段数据源,加载业务数据
 */
object MetaParse extends Logging {
	
	/**
	 * 依据标签数据,获取业务标签规则rule,解析转换为Map集合
	 * @param tagDF 标签数据
	 * @return Map集合
	 */
	def parseRuleToParams(tagDF: DataFrame): Map[String, String] = {
		import tagDF.sparkSession.implicits._
		
		// 1. 4级标签规则rule
		val tagRule: String = tagDF
			.filter($"level" === 4)
			.head()
			.getAs[String]("rule")
		logInfo(s"==== 业务标签数据规则: {$tagRule} ====")
		
		// 2. 解析标签规则,先按照换行\n符分割,再按照等号=分割
		/*
			inType=hbase
			zkHosts=bigdata-cdh01.itcast.cn
			zkPort=2181
			hbaseTable=tbl_tag_logs
			family=detail
			selectFieldNames=global_user_id,loc_url,log_time
			whereCondition=log_time#day#30
		 */
		val paramsMap: Map[String, String] = tagRule
			.split("\n")
			.map{ line =>
				val Array(attrName, attrValue) = line.trim.split("=")
				(attrName, attrValue)
			}
			.toMap
		
		// 3. 返回集合Map
		paramsMap
	}
	
	/**
	 * 依据inType判断数据源,封装元数据Meta,加载业务数据
	 * @param spark SparkSession实例对象
	 * @param paramsMap 业务数据源参数集合
	 * @return
	 */
	def parseMetaToData(spark: SparkSession,
	                    paramsMap: Map[String, String]): DataFrame = {
		
		// 1. 从inType获取数据源
		val inType: String = paramsMap("inType")
		
		// 2. 判断数据源,封装Meta,获取业务数据
		val businessDF: DataFrame = inType.toLowerCase match {
			case "hbase" =>
				// 解析map集合,封装Meta实体类中
				val hbaseMeta = HBaseMeta.getHBaseMeta(paramsMap)
				// 加载业务数据
				spark.read
					.format("hbase")
					.option("zkHosts", hbaseMeta.zkHosts)
					.option("zkPort", hbaseMeta.zkPort)
					.option("hbaseTable", hbaseMeta.hbaseTable)
					.option("family", hbaseMeta.family)
					.option("selectFields", hbaseMeta.selectFieldNames)
					.option("filterConditions", hbaseMeta.filterConditions)
					.load()
			case "mysql" =>
    		    // 解析Map集合,封装MySQLMeta对象中
				val mysqlMeta = MySQLMeta.getMySQLMeta(paramsMap)
				// 从MySQL表加载业务数据
				spark.read
					.format("jdbc")
					.option("driver", mysqlMeta.driver)
					.option("url", mysqlMeta.url)
					.option("user", mysqlMeta.user)
					.option("password", mysqlMeta.password)
					.option("dbtable", mysqlMeta.sql)
					.load()
			case "hive" =>
				// Map集合,封装HiveMeta对象
				val hiveMeta: HiveMeta = HiveMeta.getHiveMeta(paramsMap)
				// 从Hive表加载数据, TODO:此时注意,如果标签模型业务数从Hive表加载,创建SparkSession对象时,集成Hive
				spark.read
    				.table(hiveMeta.hiveTable)
					// def select(cols: Column*): DataFrame,   selectFieldNames: _* -> 将数组转换可变参数传递
    				.select(hiveMeta.selectFieldNames: _*)
    				//.filter(hiveMeta.whereCondition)
			case "hdfs" =>
				// 解析Map集合,封装HdfsMeta对象中
				val hdfsMeta: HdfsMeta = HdfsMeta.getHdfsMeta(paramsMap)
				// 从HDFS加载CSV格式数据
				spark.read
					.option("sep", hdfsMeta.sperator)
					.option("header", "true")
					.option("inferSchema", "true")
    				.csv(hdfsMeta.inPath)
    				.select(hdfsMeta.selectFieldNames: _*)
			case "es" =>
				null
			case _ =>
				// 如果未获取到数据,直接抛出异常
				new RuntimeException("业务标签规则未提供数据源信息,获取不到业务数据,无法计算标签")
				null
		}
		
		// 3. 返回加载业务数据
		businessDF
	}
}

(叠甲:大部分资料来源于黑马程序员,这里只是做一些自己的认识、思路和理解,主要是为了分享经验,如果大家有不理解的部分可以私信我,也可以移步【黑马程序员_大数据实战之用户画像企业级项目】https://www.bilibili.com/video/BV1Mp4y1x7y7?p=201&vd_source=07930632bf702f026b5f12259522cb42,以上,大佬勿喷)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/669531.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

民国漫画杂志《时代漫画》第38期.PDF

时代漫画38.PDF: https://url03.ctfile.com/f/1779803-1248636380-dd7daa?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了,截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

R19 NR移动性增强概况

随着5G/5G-A技术不断发展和业务需求的持续增强,未来网络的部署将不断向高频演进。高频小区的覆盖范围小,用户将面临更为频繁的小区选择、重选、切换等移动性过程。 为了提升网络移动性能和保障用户体验,移动性增强一直是3GPP的热点课题。从NR…

11.1 排序算法

目录 11.1 排序算法 11.1.1 评价维度 11.1.2 理想排序算法 11.1 排序算法 排序算法(sorting algorithm)用于对一组数据按照特定顺序进行排列。排序算法有着广泛的应用,因为有序数据通常能够被更高效地查找、分析和处理。 如图 1…

修改element-ui el-radio颜色

修改element-ui el-radio颜色 需求效果图代码实现 小结 需求 撤销扣分是绿色&#xff0c;驳回是红色 效果图 代码实现 dom <el-table-columnlabel"操作"width"200px"><template v-slot"scope"><el-radio-group v-model"s…

短剧源码系统深层次解析:技术架构与实现

短剧源码系统作为短视频内容生产与分发的核心技术&#xff0c;其技术实现对于开发者和运营者至关重要。本文将深入探讨短剧源码系统的关键技术架构&#xff0c;特别是前端框架uni-app和Vue&#xff0c;以及后端框架ThinkPHP5和Workerman的应用。 前端框架&#xff1a;uni-app与…

Unity打包Webgl端进行 全屏幕自适应

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一&#xff1a;修改 index.html二&#xff1a;将非移动端设备&#xff0c;canvas元素的宽度和高度会设置为100%。三&#xff1a;修改style.css总结 下载地址&#x…

用开源模型MusicGen制作六一儿童节专属音乐

使用的是开源模型MusicGen&#xff0c;它可以根据文字描述或者已有旋律生成高质量的音乐(32kHz)&#xff0c;其原理是通过生成Encodec token然后再解码为音频&#xff0c;模型利用EnCodec神经音频编解码器来从原始波形中学习离散音频token。EnCodec将音频信号映射到一个或多个并…

构建基础网站的入门指南

在数字时代&#xff0c;网站已经成为展示个人、企业或组织信息的重要平台。了解如何通过编写代码来创建一个网站是非常有用的技能。在本文中&#xff0c;我们将了解构建一个基础网站所需的步骤和代码知识。第一步&#xff1a;了解网站的基本组成 一个基本的网站通常包含HTML&a…

LeetCode 2928.给小朋友们分糖果 I:Java提交的运行时间超过了61%的用户

【LetMeFly】2928.给小朋友们分糖果 I&#xff1a;Java提交的运行时间超过了61%的用户 力扣题目链接&#xff1a;https://leetcode.cn/problems/distribute-candies-among-children-i/ 给你两个正整数 n 和 limit 。 请你将 n 颗糖果分给 3 位小朋友&#xff0c;确保没有任何…

微软远程连接工具:Microsoft Remote Desktop for Mac 中文版

Microsoft Remote Desktop 是一款由微软开发的远程桌面连接软件&#xff0c;它允许用户从远程地点连接到远程计算机或虚拟机&#xff0c;并在远程计算机上使用桌面应用程序和文件。 下载地址&#xff1a;https://www.macz.com/mac/5458.html?idOTI2NjQ5Jl8mMjcuMTg2LjEyNi4yMz…

Qt Designer工具如何修改MainWindow窗口的标题

Qt Designer工具如何修改MainWindow窗口的标题 在MainWindow的属性编辑器中选择“windowTitle”后面一栏修改成期望的窗口标题名称即可。 按住“ctrlR”即可查看可视化界面的窗口标题

未见过类型题每周总结(个人向)

1.DP40 小红取数 题目 解析 一道01背包的衍生问题&#xff0c;我们可以按照它的思路定义数组dp[i][j],表示前i个数中%k为j的最大和。为什么设置未%k的最大和呢&#xff1f;是因为当两个数分别%k&#xff0c;如a%kx&#xff0c;b%ky。那么&#xff08;ab&#xff09;%k&#…

锐捷校园网自助服务-字符过滤存在缺陷

锐捷校园网自助服务-字符过滤存在缺陷 漏洞介绍 令人感到十分遗憾的是&#xff0c;锐捷网络安全应急响应中心对漏洞上报似乎缺少了一些奖励&#xff0c;令人对官方上报漏洞失去了些许兴趣​。 该缺陷仅仅打破了安全检查防护&#xff0c;并没有造成实质性危害&#xff0c;至于…

16.Redis之Redis事务

1.MySQL 事务 原子性: 把多个操作,打包成一个整体了 一致性: 事务执行之前,和之后,数据都不能离谱~ 持久性: 事务中做出的修改都会存硬盘 隔离性: 事务并发执行,涉及到的一些问题~~ 2.Redis事务 2.1 认识Redis事务 • 弱化的原⼦性: redis 没有 "回滚机制". …

本地知识库开源框架Fastgpt、MaxKB产品体验

本地知识库开源框架Fastgpt、MaxKB产品体验 背景fastgpt简介知识库共享部署 MaxKB总结 背景 上一篇体验了Quivr、QAnything两个开源知识库模型框架&#xff0c;这次介绍两款小众但是体验比较好的产品。 fastgpt 简介 FastGPT 是一个基于 LLM 大语言模型的知识库问答系统&am…

8-Django项目--登录及权限

目录 templates/login/login.html templates/login/404.html views/login.py utils/pwd_data.py auth.py settings.py 登录及权限 登录 views.py 中间件 auth.py templates/login/login.html {% load static %} <!DOCTYPE html> <html lang"en"&g…

掘金AI 商战 宝典 初级班:如何用AI做文案(实战实操 现学现用 玩赚超值)

未来会用AIE剑客将干掉99.99%不会AI的人! 课程目录&#xff1a; 10-第十讲用AI面试 11-第十一讲用AI写演讲稿 12-第十二讲用AI写工作总结 13-第十三讲用AI写日报周报 14-第十四讲用AI拟定各类合同 15-第十五讲用AI写课程教案 16-第十六讲用AI做商业分析 17-第十七讲用…

20 - grace数据处理 - 地下水储量计算过程分解 - 地下水储量计算

20 - grace数据处理 - 地下水储量计算过程分解 - 地下水储量计算 0 引言1 地下水储量变化计算过程0 引言 由水平衡方程可以将地下水储量的计算过程分解为3个部分,第一部分计算陆地水储量变化、第二部分计算地表水储量变化、第三部分计算冰后回弹改正、第四部分计算地下水储量变…

Kotlin使用Dagger2但无法生成对应类 Unresolved reference: DaggerMyComponent

最近在使用Dagger2时&#xff0c;遇到这个错误&#xff0c;app/build/generated/source/没有生成对应类&#xff0c;没有生成如下类&#xff0c;网上看了许多博客替换版本&#xff0c;添加dagger2的其他依赖均未成功&#xff0c;最终看到一篇大佬的文章才终于得以解决 解决&am…

electron打包时资源下载失败cannot resolve xxx/30.0.9/electron-v30.0.9-win32-ia32.zip

同学们可以私信我加入学习群&#xff01; 正文开始 问题描述解决方案总结 问题描述 最近electron更新频繁&#xff0c;而我在用electron做个人项目&#xff0c;对稳定性没有太高要求&#xff0c;希望保持着electron的最新版本&#xff0c;所以就没有固定版本。 单位网络不太好…