图计算与ID-Mapping

目录

一、图计算:

图计算起源:

图计算特点:

图计算的应用:

Spark GraphX图处理库

ID-Mapping

二、总结:


一、图计算:

图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,分为有向图跟无向图,使用节点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。可抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。以高效解决图计算问题为目标的系统软件称为图计算系统。

大数据时代,数据之间存在关联关系。由于图是表达事物之间复杂关联关系的组织结构,因此现实生活中的诸多应用场景都需要用到图,例如,淘宝用户好友关系图、道路图、电路图、病毒传播网、国家电网、文献网、社交网和知识图谱。 为了从这些数据之间的关联关系中获取有用信息,大量图算法层出不穷。它们通过对大型图数据的迭代处理,获得图数据中隐藏的重要信息。

简单地来讲,在图中最基本的单元是:

1.节点(Vertex)

2.边(Edge)

那什么是节点,什么是边呢?

一位女士在天猫买了一只口红,这位女士、商铺都可以是节点,而购买行为则是边。

图计算起源:

图计算的起源于哥尼斯堡(现俄罗斯的加里宁格勒市)的“七桥问题”。

在18世纪初,哥尼斯堡的一个公园里,有七座桥将普雷格尔河中的两个岛及岛与河岸连接起来。人们提出了一个问题:是否可能从这四块陆地中任一块出发,恰好通过每座桥一次,再回到起点呢?这个问题看似简单,但实际上却引发了一系列关于图论和拓扑学的深入思考。

数学家欧拉(Leonhard Euler)在1736年研究了这个问题,并将它归结为一个图论问题。他把陆地抽象为图中的节点,把桥抽象为图中的边,通过分析和计算,证明了这样的路径是不存在的。欧拉的这项研究被认为是图论和拓扑学的开创性工作之一,也为后来的图计算奠定了重要的理论基础。

图计算特点:

图计算在处理复杂数据上显现出其优异的性能优势,具体表现在以下方面:

1.表达复杂的关联关系: 图计算能够有效地表达和处理有复杂关联关系的数据上,比如说警察办案会在墙上绘制一个关系图(网),也就是将犯罪嫌疑人有关的对象的关系标注出来形成一张关系网,有利于表达犯罪嫌疑人与其他人之间的关联关系,能够进行清晰地思考和判断。而在计算机上的图数据也是如此。这种结构能够清晰地展现事物之间的关联性和交互性。 
2.高效存储和处理: 图计算基于节点和边方式存储图数据和进行计算,能够高效以及大规模地处理图数据,并且通过图算法系统能够快速地遍历、分析与查询数据,从而获得想要的结果。 
3.迭代计算: 图计算要经过许多轮的迭代,每次迭代则需要重新计算和更新节点和边之间的关系,直到达到收敛值,这种迭代计算的方式以保证图数据的正确性和逐步达到问题的最优解。

图计算的应用:

图计算有着广泛的应用前景:

1.信用卡欺诈:图计算破获银行贷款诈骗
2.新冠肺炎患者溯源:还原确诊病例的轨迹和关联关系
3.识别洗钱账户:结合亲友关系、转账关系、通讯关系等使用挖掘算法分析可疑交易
4.犯罪分子社会关系:犯罪组织内部成员之间的关联关系。
5.推荐系统:用户和物品的表示、特征提取和表示学习、社交关系分析等等
图计算作为下一代人工智能的核心技术,已被广泛应用于医疗、教育、军事、金融等多个领域

Spark GraphX图处理库

GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上, GraphX 通过引入 Spark RDD来扩展 新的图抽象:具有属性的有向多图 附加到每个顶点和边。为了支持图计算,GraphX 公开了一组基本 运算符(例如,subgraph、joinVertics 和 aggregateMessages)以及 Pregel API 的优化变体。此外,GraphX 还包括越来越多的图算法和构建器,以简化图分析任务。

属性图:

属性图是有向多图 将用户定义的对象附加到每个顶点和边。有向多图是有向的 具有可能共享同一源和目标顶点的多个平行边的图形。这 支持并行边的能力简化了可以有多个边的建模方案 相同顶点之间的关系(例如,同事和朋友)。每个顶点都由一个唯一的 64 位长标识符 进行键控。GraphX 不会对 顶点标识符。同样,边具有相应的源顶点和目标顶点 标识符。VertexId

属性图在顶点和边类型上进行参数化。这些 分别是与每个顶点和边关联的对象的类型。VDED

属性图示例:

属性图

Spark GraphX的主要功能和用途包括: 1、图构建和操作:Spark GraphX允许用户构建和操作大规模图数据结构,包括添加和删除顶点、边,以及遍历图数据。 2、图算法:GraphX提供了一系列图算法,包括最短路径算法、图遍历算法、连通性分析、PageRank、社区检测等,用于解决图相关问题,例如路由规划、社交网络分析、网络拓扑分析等。 3、顶点属性和边属性:用户可以为图的顶点和边附加属性,以存储关于实体的额外信息,例如顶点的属性可以表示用户的属性,边的属性可以表示关系的权重。 4、分布式计算:Spark GraphX利用Spark的分布式计算能力,可以处理大规模的图数据,从而实现高性能的图处理。 5、图切割:Spark GraphX支持将大型图切分成较小的子图,以便更容易处理。 6、可视化工具:可以使用可视化工具来绘制和可视化图,以更好地理解图的结构和特性。 Spark GraphX通常用于处理图数据的大规模分析和挖掘,包括社交网络分析、推荐系统、网络拓扑分析、生物信息学等领域。它为开发人员提供了处理图数据的强大工具和库,可以在分布式Spark集群上进行高性能的图处理。

下面举一个例子如何使用Spark GraphX来加载、处理和分析社交网络图数据,并计算出图中顶点的PageRank值:

import org.apache.spark.graphx.GraphLoader
​
// 加载用户数据
val users = (sc.textFile("data/graphx/users.txt")
  .map(line => line.split(",")).map( parts => (parts.head.toLong, parts.tail) ))
​
// 加载关注者关系数据
val followerGraph = GraphLoader.edgeListFile(sc, "data/graphx/followers.txt")
​
// 附加用户属性,对于没有属性的顶点,我们为它们分配一个空数组。
val graph = followerGraph.outerJoinVertices(users) {
  case (uid, deg, Some(attrList)) => attrList
  case (uid, deg, None) => Array.empty[String]
}
​
// 限制图到具有特定属性的用户
val subgraph = graph.subgraph(vpred = (vid, attr) => attr.size == 2)
​
// 计算PageRank,0.01是阻尼因子
val pagerankGraph = subgraph.pageRank(0.001)
​
// 获取PageRank最高的用户的属性
val userInfoWithPageRank = subgraph.outerJoinVertices(pagerankGraph.vertices) {
  case (uid, attrList, Some(pr)) => (pr, attrList.toList)
  case (uid, attrList, None) => (0.0, attrList.toList)
}
​
println(userInfoWithPageRank.vertices.top(5)(Ordering.by(_._2._1)).mkString("\n"))

ID-Mapping

在构建精准用户画像时,面临着这样一个问题: 日志采集不能成功地收集用户的所有ID, 且每条业务线有各自定义的UID用来标识用户,从而造成了用户ID的零碎化。所以要使用ID-Mapping进行用户画像的“拼图”。

ID-Mapping主要用于解决用户身份信息的混乱问题,比如说相同设备、不同账号间切换,相同用户、不同渠道下账号不相同等。ID-Mapping通俗地说,就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等。

ID-Mapping标识符

由于用户的行为信息、属性数据分散在多个不同的数据来源中,假设一个人在手机上使用百度地图, 在ipad上观看百度爱奇艺视频,在第二个手机上使用手机百度app, 在pc电脑上使用百度搜索,那应该如何将这些信息聚合起来呢?答案是标识符。

具体来说,ID-Mapping标识符可以将各种ID(如用户ID、设备ID、账号ID等)进行映射和关联,从而形成一个统一的用户实体数据。通过ID-Mapping,我们可以将用户在不同平台、不同设备、不同渠道下的行为信息进行整合和串联,形成一个完整的用户画像。这个用户画像可以帮助我们更好地了解用户的行为、兴趣、需求等信息,从而提供更加精准的服务和推荐。

标识符的种类也有很多,简单划分为Android 与 ios:

ios设备常见标识符:
IMEI:国际移动设备识别码(International Mobile Equipment Identity,IMEI),即通常所说的手机序列号、手机“串号”,用于在移动电话网络中识别每一部独立的手机等移动通信设备,相当于移动电话的身份证。IMEI是写在主板上的,重装APP不会改变IMEI。Android 6.0以上系统需要用户授予read_phone_state权限,如果用户拒绝就无法获得;
IDFA:于iOS 6 时面世,可以监控广告效果,同时保证用户设备不被APP追踪的折中方案。可能发生变化,如系统重置、在设置里还原广告标识符。用户可以在设置里打开“限制广告跟踪”;
MAC地址:硬件标识符,包括WiFi mac地址和蓝牙mac地址。iOS 7 之后被禁止;OpenUDID:在iOS 5发布时,UDID被弃用了,这引起了广开发者需要寻找一个可以替代
UDID,并且不受苹果控制的方案。由此OpenUDID成为了当时使用最广泛的开源UDID替代方案。OpenUDID在工程中实现起来非常简单,并且还支持一系列的广告提供商;
​
Android设备常见的标识符:
IMEl (International Mobile Equipment ldentity),即通常所说的手机序列号、手机“串号”用于在移动电话网络
中识别每一部独立的手机等行动通讯装置;序列号共有15位数字,前6位(TAC)是型号核准号码,代表手机类型。接
着2位(FAC)是最后装配号,代表产地。后6位(SNR)是串号,代表生产顺序号。最后1位(SP)一般为0,是检验
码,备用。
MAC(Media Access Control)一般代指MAC位址,为网卡的标识,用来定义网络设备的位置。
IMSl(International Mobile Subscriberldentification Number),储存在SIM卡中,可用于区别移动用户的有效信
息;其总长度不超过15位,同样使用0~9的数字。其中MCC是移动用户所属国家代号,占3位数字,中国的MCC规定
为460;MNC是移动网号码,最多由两位数字组成,用于识别移动用户所归属的移动通信网:MSIN是移动用户识别码
用以识别某一移动通信网中的移动用户。
Android_ID:在设备首次启动时,系统会随机生成一个64位的数字,并把这个数字以16进制字符串的形式保存下来,这个16进制的字符串就是Android_ID,当设备被wipe后该值会被重置;

依据标识符可以找出同一用户的标识,从而实现多方面数据的聚合,以达到使用用户使用不同应用或设备数据的目的。

二、总结:

在ID-Mapping的过程中,可以利用图计算技术来找到各种ID标识之间的关联关系,从而识别出哪些ID标识属于同一个人或实体。通过构建包含各种ID的图结构,并应用图算法进行迭代处理,可以获取图数据中隐藏的重要信息,从而实现实现用户画像的构建、精准营销、个性化推荐等功能。

(以上为自学笔记,侵删。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/643420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

著名书法家王杰宝做客央视频《笔墨写人生》艺坛人物经典访谈节目

印象网北京讯(张春兄、冯爱云)展示艺术风采,构建时代精神。5月25日,著名书法家、羲之文化传承人王杰宝,做客央视频《笔墨写人生》艺坛人物经典访谈节目,与中央电视台纪录频道主持人姚文倩一起,分…

JVM-调优之-如何使用arthas-观察jvm-cpu-内存-垃圾回收等信息

前言: 可以简单代替把dump文件下载下来后用visualvm分析了;跟visualvm类似的; docker中如何安装arthas看这个:docker中怎么使用arthas_arthas 集成到容器镜像-CSDN博客 curl -O https://arthas.aliyun.com/arthas-boot.jar wget …

网络命令

1.write 路径&#xff1a;/usr/bin/write 权限&#xff1a;所有用户 语法&#xff1a;write <用户名> 功能&#xff1a;给用户发信息&#xff0c;以CtrlD保存结束 例&#xff1a;#write 04110606 注&#xff1a;输错了的时候&#xff0c;ctrl退格键或是delete 接收…

一款即支持3v3单片机又支持5v单片机的485收发芯片

原理图参考 H7-TOOL 特此记录 anlog 2024年5月21日

嵌入式之音频基础知识

声音特性 1、响度&#xff1a;人主观上感觉声音的大小&#xff08;俗称音量&#xff09;&#xff0c;由“振幅”和人离声源的距离决定&#xff0c;振幅越大响度越大&#xff0c;人和声源的距离越小&#xff0c;响度越大&#xff1b; 2、音调&#xff1a;声音的高低&#xff0…

逍遥模拟器安装xp时报错处理

在执行script.sh&#xff0c;无法执行程序&#xff0c;报错如下&#xff1a; Mounting /system and /vendor read-write /dev/block/sda6 is read-only 尝试了很多种的方法&#xff0c;都不行 经过研究发现是逍遥模拟器的设置问题&#xff1a; 出问题时&#xff0c;磁盘共享…

【重制版】Unity Meta Quest 一体机开发(一):前期准备,Meta XR SDK导入和环境配置,配置玩家物体

文章目录 &#x1f4d5;教程说明&#x1f4d5;Meta XR SDK 介绍&#x1f4d5;前期准备⭐开启开发者模式⚡在 Meta 官网申请开发者⚡在 Meta Quest 手机 APP 开启开发者 ⭐电脑需要下载的软件⚡Meta Quest Link&#xff08;以前叫做Oculus PC客户端&#xff09;⚡Oculus ADB Dri…

【iOS】——工厂设计模式

文章目录 一、设计模式创建型模式结构型模式行为型模式 二、设计模式七大准则三、简单工厂模式四、工厂方法模式五、抽象工厂模式 一、设计模式 设计模式是指在特定上下文中解决常见问题时所采用的一套可复用的解决方案。这些模式是面向对象编程中的通用概念&#xff0c;广泛应…

点云处理中阶 Octree模块

一、什么是Octree 八叉树&#xff08;Octree&#xff09;是一种用于描述三维空间的树状数据结构。八叉树的每个节点表示一个正方体的体积元素&#xff0c;每个节点有八个子节点&#xff0c;这八个子节点所表示的体积元素加在一起就等于父节点的体积。一般中心点作为节点的分叉中…

《计算机网络微课堂》2-3 传输方式

本节课我们介绍几种传输方式&#xff1a; 串行传输和并行传输同步传输和异步传输单工&#xff0c;半双工‍‍以及全双工通信 ​​ ‍ 串行 我们首先来看串行传输和并行传输&#xff0c;串行传输是指‍‍数据是一个比特依次发送的&#xff0c;因此在发送端和接收端之间‍‍只…

每日5题Day10 - LeetCode 46 - 50

每一步向前都是向自己的梦想更近一步&#xff0c;坚持不懈&#xff0c;勇往直前&#xff01; 第一题&#xff1a;46. 全排列 - 力扣&#xff08;LeetCode&#xff09; class Solution {//这道题就是一个dfs//把所有结果遍历&#xff0c;到叶子节点就可以添加结果了List<Int…

helloworld 可执行程序得到的过程

// -E 预处理 开发过程中可以确定某个宏 // -c 把预处理 编译 汇编 都做了,但是不链接 // -o 指定输出文件 // -I 指定头文件目录 // -L 指定链接库文件目录 // -l 指定链接哪一个库文件 #include <stdio.h> #include <stdlib.h> #include <string.h>int mai…

用栈实现队列(C语言)

目录 题目题目分析 代码栈的实现结构体。栈的初始化栈的销毁 入栈删除查找顶部数据判空 答案结构体初始化插入数据删除数据获取队列开头元素判空销毁栈 题目 题目分析 链接: 题目 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作&#xff08;push、po…

【机器学习系列】使用高斯贝叶斯模型进行数据分类的完整流程

目录 一、导入数据 二、选择特征 三、十折交叉验证 四、划分训练集和测试集 五、训练高斯贝叶斯模型 六、预测测试集 七、查看训练集和测试集上的分数 八、查看混合矩阵 九、输出评估指标 一、导入数据 # 根据商户数据预测其是否续约案例 import pandas #读取数据到 da…

驱动编译报error: negative width in bit-field ‘<anonymous>’错误

错误如下图所示&#xff1a; 代码如下&#xff1a; 问题点&#xff1a;module_param的其他用户的权限参数上。 在Linux中&#xff0c;文件权限由读(r)、写(w)、执行(x)权限组成&#xff0c;分别对应数值4、2、1。 第一位0是占位符&#xff0c;在这里没有意义&#xff0c;因为…

Cloneable接口和深拷贝

在java中如何对对象进行拷贝呢&#xff1f;我们可以使用Object类中的clone方法。 一、浅拷贝 在使用clone方法对对象进行拷贝的时候&#xff0c;需要注意&#xff1a; 1.需要重写clone方法&#xff1b; 2.clone方法的返回值是Object类&#xff0c;需要强制类型转化&#xf…

软考之零碎片段记录(三十一)+复习巩固(错题整理,知识点总结,易错题)

1. 奇偶校验 只能检测一位数的错误。但无法纠正错误。若有奇数个数据位出错&#xff0c;可检测。有局限性。 2. 深度与广度优先遍历 参考题【【数据结构自用】1.图深度优先遍历2.找有向图中的强连通分量数目3.给出图的任意两个拓扑序列】https://www.bilibili.com/video/BV…

python 面对对象 类 魔法方法

魔法方法 一、__init__ 构造函数&#xff0c;可以理解为初始化 触发条件&#xff1a;在实例化的时候就会触发 class People():def __init__(self, name):print(init被执行)self.name namedef eat(self):print(f{self.name}要吃饭)a People(张三) a.eat() # in…

前端 防抖和节流

在前端开发中&#xff0c;防抖&#xff08;Debounce&#xff09;和节流&#xff08;Throttle&#xff09;是两种常用的性能优化技术&#xff0c;尤其在处理频繁触发的事件时显得尤为重要。无论是在用户输入、窗口调整大小&#xff0c;还是滚动事件中&#xff0c;这两种技术都可…

HarmonyOS 鸿蒙应用开发 - 多态样式 stateStyles

前言&#xff1a;Styles和Extend仅仅应用于静态页面的样式复用&#xff0c;stateStyles可以依据组件的内部状态的不同&#xff0c;快速设置不同样式&#xff0c;类似于css伪类&#xff0c;但语法不同。 ArkUI提供以下四种状态&#xff1a; focused&#xff1a;获焦态。normal&…