大数据关联规则算法

  1. 关联性(Association)

    • 定义:指一个变量能够提供有关另一个变量的信息。
    • 特点:关联性是一个广泛的概念,它可以包括直接的、间接的、强的或弱的联系。
  2. 相关性(Correlation)

    • 定义:指两个变量同时上升或下降的趋势
    • 特点:相关性通常用相关系数来量化,如皮尔逊相关系数,它可以测量变量之间的线性关系强度和方向。
    • 误区:相关性意味着关联性,而不是因果关系;
  3. 因果关系(Causality)

    • 定义:指一个变量(原因)直接影响另一个变量(结果)。
    • 特点:因果关系需要通过实验或统计方法来验证,例如随机对照试验(RCT)或使用因果推断模型。
    • 误区:因果关系意味着关联,而不是相关性
      在这里插入图片描述

关联

  • 定义:关联是两个或者多个变量之间存在着的某种规律,这种规律是可被发现的并且是有意义的。

关联规则(Association Rules)挖掘

  • 定义:挖掘负责找出给定数据集中数据项之间隐藏的关联关系,描述数据之间的密切度是关联分析的主要目的。
  • 用途:关联规则用于描述相关联的事物之间同时有规律发生的知识模式。
应用场景
  • 优化货架商品摆放:根据商品之间的关联性,优化超市或商场的商品摆放。
  • 交叉销售或捆绑销售:利用商品之间的关联性,进行捆绑销售或交叉销售。
  • 搜索词推荐:根据用户的搜索习惯,推荐相关搜索词。
  • 识别异常:发现数据中的异常模式,如信用卡欺诈检测。
相关概念
  • 项目(Item):交易数据库中的一个字段,对超市的交易来说一般是指一次交易中的一个物品,如:牛奶
  • 事务(Transaction):某个客户在一次交易中,发生的所有项目的集合:如{牛奶,面包,啤酒}
  • 项集(Item Set):包含若干个项目的集合(一次事务中的),一般会大于0个
  • 支持度(Support):项集{X,Y}在总项集中出现的概率
  • 频繁项集(Frequent Itemset):某个项集的支持度大于设定阈值(人为设定或者根据数据分布和经验来设定),即称这个项集为频繁项集。
  • 置信度(Confidence):在先决条件X发生的条件下,由关联规则{X->Y }推出Y的概率
    (给定X发生的条件下,Y发生的概率。)
  • 提升度(Lift):表示含有X的条件下同时含有Y的概率,与无论含不含X含有Y的概率之比,用于衡量关联规则的强度。

    在这里插入图片描述

Apriori算法

  • 提出者:Rakesh Agrawal 和 Ramakrishnan Srikant。
  • 提出时间:1994年。
  • 基本思想:基于支持度连接剪枝技术,有效控制候选项集的增长。
关联规则挖掘目的
  • 目的:找出数据集中项与项之间的关系,用于市场分析、商品推荐等。
  • 别称:购物篮分析,主要用于零售业中分析顾客的购买模式。
应用案例:啤酒和尿布
  • 故事背景:美国妇女让丈夫下班后购买尿布,丈夫往往会同时购买啤酒。
  • 商业应用:将啤酒和尿布摆放在一起,增加顾客同时购买这两种商品的机会。
  • 结果:提高了啤酒和尿布的销量,成为商家推崇的营销策略。

Apriori 算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。在这个算法中 Agrawal 给出了一个关于频繁模式的著名性质-Apriori 性质。

Apriori性质
  • Apriori性质:频繁项集的所有非空子集也必须是频繁的。
  • 推论1:非频繁项集的超集一定是非频繁项集。
  • 推论2:强关联规则的子规则也是强关联规则。

Apriori算法步骤

  1. 产生频繁项集

    • 第一阶段
      • 所有单独的项作为候选项集 ( C1 )。
      • 剔除支持度小于最小支持度阈值的项,形成频繁1-项集 ( L1 )。
    • 第二阶段
      • ( L1 ) 通过自连接形成候选项集 ( C2 )。
      • 扫描数据库,剔除支持度小于阈值的项,形成频繁2-项集 ( L2 )。
    • 后续阶段
      • 重复自连接和剔除过程,形成更高阶的候选项集 ( C3, C4, \ldots ) 直到无法找到新的频繁项集。
  2. 产生关联规则

    • 利用频繁项集 ( L ) 产生关联规则。
    • 满足可信度大于min_conf 的频繁项集产生强关联规则
    • 由于规则基于频繁项集产生,自动满足最小支持度 ( min_sup )。
      在这里插入图片描述

Apriori算法实例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

生成频繁项集阶段
  1. 分割与分布数据

    • MapReduce库将数据集D水平划分为n个数据块,然后发送到m个节点。
  2. 格式化数据块

    • 数据块格式化为<Tid, list>对,其中Tid是事务标识符,list是事务中的项目列表。
  3. 执行Map任务

    • Map函数扫描每条记录,生成局部频繁1-项集和局部频繁k-项集。
  4. 运行Combiner函数

    • 可选的Combiner函数在Map任务后执行,合并Map输出,减少网络传输。
  5. 执行Reduce任务

    • Reduce任务接收Map端输出,合并局部频繁项集,生成全局候选频繁项集。
  6. 再次扫描D

    • Map方法读取D中的记录,验证是否存在于全局候选频繁项集中,使用Combiner函数进行局部汇总。
  7. 合并Reduce函数输出

    • 合并Reduce输出,与最小支持度阈值比较,输出满足条件的频繁项集。
  • MapReduce框架:通过分布式计算,优化了频繁项集的生成过程。
  • Map任务:生成局部频繁项集,类似于词频统计。
  • Combiner函数:减少网络传输,提高效率,本地合并Map输出。
  • Reduce任务:合并全局候选频繁项集,生成最终频繁项集。
  • 两次扫描:第一次用于生成候选频繁项集,第二次用于验证和汇总。
    在这里插入图片描述
生成关联规则阶段
  1. 文本文件切分

    • 将文本文件的每一行作为单独的切分处理。
    • 形成键值对<key1, value1>,其中key1 代表该行的偏移量,value1 代表一行文本(频繁项集中的一项)
  2. Map函数处理

    • Map函数扫描每对<key1, value1>
    • 对每个频繁项集调用规则生成函数,产生所有可能的规则。
    • 规则包括支持度和置信度,输出为<key2, value2>,其中key2是频繁项集中的一项,value2是该项对应的所有规则(包括支持度和可信度)。。
  3. Reduce函数规约

    • Reduce函数接收Map函数的所有输出。
    • 对每个频繁项集的规则进行规约,筛选出满足最小置信度阈值的强关联规则。
    • 将最终的关联规则<rule, conf>对存储到HDFS(Hadoop分布式文件系统)。
  • Map任务:处理文本文件,为每个频繁项集生成候选规则。
  • Reduce任务:筛选有效规则,存储最终结果。
  • 规则评估:评估规则的支持度和置信度,确保规则的有意义性和实用性。
  • 存储结果:将生成的关联规则存储在分布式文件系统中,便于后续的访问和分析。
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/725009.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

新手搭建Magic-API

项目场景&#xff1a; 我本是一个前端和GIS开发工程师&#xff0c;但新单位并没有配置完整的开发团队&#xff0c;确切说目前只有我一个人做开发&#xff0c;那么肯定避免不了要研究下后端。最近有一个小程序要开发&#xff0c;管理平台我直接用的fastAdminthinkphp写完了页面…

IAM风险CTF挑战赛

wiz启动了一个名为“The Big IAM Challenge”云安全CTF挑战赛。旨在让白帽子识别和利用 IAM错误配置&#xff0c;并从现实场景中学习&#xff0c;从而更好的认识和了解IAM相关的风险。比赛包括6个场景&#xff0c;每个场景都专注于各种AWS服务中常见的IAM配置错误。 Challenge…

企业工程图纸很多,应该如何进行图纸管理?

企业工程图纸很多&#xff0c;应该如何进行图纸管理&#xff1f; 设计制造企业在实际设计和生产过程中会产生大量的工程图纸&#xff0c;图纸一多管理起来就会十分麻烦&#xff0c;管理不当则是会影响整体的工作效率。对于大量工程图纸的管理&#xff0c;有多种方式方法来进行…

数据结构-算法和算法分析

目录 前言一、算法1.1 算法与程序1.2 算法描述方法1.3 算法特性1.4 算法设计的要求 二、算法分析2.1 算法时间效率的度量2.1.1 事前分析方法算法的渐进时间复杂度算法时间复杂度分析例子算法最坏时间复杂度时间复杂度的计算规则 2.2 算法空间效率的度量 总结 前言 程序 数据结…

深度优先遍历解决迷宫问题(顺序栈的应用)

学习贺利坚老师课程 数据结构例程——迷宫问题&#xff08;用栈结构&#xff09;_数据结构迷宫问题-CSDN博客文章浏览阅读3.1w次&#xff0c;点赞25次&#xff0c;收藏118次。本文针对数据结构基础系列网络课程(3)&#xff1a;栈和队列中第6课时栈的应用2-迷宫问题。例&#x…

品牌为什么要做电商控价

消费者购买产品的途径愈发多样&#xff0c;抖音、快手等直播电商的兴起进一步拓宽了品牌的销售渠道。市场形态越是丰富&#xff0c;品牌所要应对的问题自然也就越多。主流电商平台如淘宝、拼多多&#xff0c;依然是消费者主要的选购之处&#xff0c;即便不购物&#xff0c;电商…

使用nvm管理nodejs版本,设置淘宝NPM镜像源

nvm-windows https://github.com/coreybutler/nvm-windows nvm配置文件的路径 C:\Users\用户名\AppData\Roaming\nvm 修改 settings.txt 文件&#xff0c;添加淘宝镜像源地址 node_mirror: https://npmmirror.com/mirrors/node/ npm_mirror: https://npmmirror.com/mirrors…

tauri嵌入外部二进制文件,以及sidecar是什么意思?

sidecar是什么意思 有时&#xff0c;为了使应用程序正常运行或防止用户安装额外的依赖项&#xff08;例如Node.js或Python或者ffmpeg等&#xff09;&#xff0c;你可能需要嵌入依赖的二进制文件&#xff0c;我们将这种二进制文件称为"sidecar"&#xff0c;中文意思就…

Navicat 重装 查找 保存的查询sql文件

背景&#xff1a;Navicat 一个收费的软件&#xff0c;存在的最大缺点就是收费&#xff0c;所以我们为了优化它会遇到卸载重装这些复杂的过程&#xff0c;但是我们保存的查询sql会跟随卸载Navicat而删除&#xff0c;为了节省时间省去不必要的麻烦&#xff0c;我们可以查到我们保…

基于STM32和人工智能的智能楼宇安防系统

目录 引言环境准备智能楼宇安防系统基础代码实现&#xff1a;实现智能楼宇安防系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景&#xff1a;智能楼宇安防管理与优化问题解决方案与优化收尾与总结 1. 引言 随着物联网和人工智能技术的…

后端数据null前端统一显示成空

handleNullValues方法在封装请求接口返回数据时统一处理 // null 转 function handleNullValues(data) {// 使用递归处理多层嵌套的对象或数组function processItem(item) {if (Array.isArray(item)) {return item.map(processItem);} else if (typeof item object &&…

开源的语音合成项目-EdgeTTS,无需部署无需Key

前几天和大家分享了&#xff1a;全网爆火的AI语音合成工具-ChatTTS。 有很多小伙伴反应模型下载还有点麻烦~ 今天再给大家带来一款开源的语音合成 TTS 项目-EdgeTTS&#xff0c;相比ChatTTS&#xff0c;操作起来对小白更友好。 因为其底层是使用微软 Edge 的在线语音合成服务…

Java数据结构与算法——稀疏数组和队列

一、稀疏数组sparsearray数组 该二维数组的很多值是默认值0,因此记录了很多没有意义的数据&#xff0c;可以采用稀疏数组进行压缩 1.基本介绍: 当一个数组中大部分元素为0&#xff0c;或者为同一个值的数组时&#xff0c;可以使用稀疏数组来保存该数组。 稀疏数组的处理方法…

c++文件io,字符串io简单介绍

目录 c文件io 介绍 采用文件流对象操作文件的一般步骤 示例 注意点 利用字节流特性 字符串io 介绍 istringstream ostringstream 示例 c文件io 介绍 c根据文件内容的数据格式分为二进制文件和文本文件 基本上和c一样 c 标准库中有许多不同的标志 用于指定流对象的…

Ollama(docker)+ Open Webui(docker)+Comfyui

Windows 系统可以安装docker desktop 相对比较好用一点&#xff0c;其他的应该也可以 比如rancher desktop podman desktop 安装需要windows WSL 安装ollama docker docker run -d --gpusall -v D:\ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama 这里…

CI /CD学习

CI/CD概述 CI/CD 是持续集成和持续交付/部署的缩写&#xff0c;旨在简化并加快软件开发生命周期。 持续集成&#xff08;CI&#xff09;是指自动且频繁地将代码更改集成到共享源代码存储库中的做法。持续交付和/或持续部署&#xff08;CD&#xff09;是一个由两部分组成的过程…

Paper Reading: PAMS:通过参数化最大尺度量化超分辨率

PAMS: Quantized Super-Resolution via Parameterized Max Scale PAMS&#xff1a;通过参数化最大尺度量化超分辨率, ECCV 2020 paper: https://arxiv.org/pdf/2011.04212.pdf GitHub: https://github.com/colorjam/PAMS 摘要 深度卷积神经网络&#xff08;DCNNs&#xff09;…

HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习

前言 今天只是一个平常的日子&#xff0c;不过看到了两篇文章 一篇是《半年冒出近百家新公司&#xff0c;「具身智能」也有春天》 我看完之后转发到朋友圈&#xff0c;并评论道&#xff1a;让机器人翻一万个后空翻&#xff0c;不如让机器人打好一个螺钉&#xff0c;毕竟在目前…

Flutter第十三弹 路由和导航

目标&#xff1a; 1.Flutter怎么创建路由&#xff1f; 2.怎么实现路由跳转&#xff1f;页面返回&#xff1f; 一、路由 1.1 什么是路由&#xff1f; 路由(Route)在移动开发中通常指页面&#xff08;Page&#xff09;&#xff0c;在Android中通常指一个Activity。所谓路由管…

什么是Linux挂载

首先先说一下在Linux中一切皆文件&#xff08;硬件设备也是文件&#xff09;&#xff0c;所有文件都是存放在以根目录为树形目录结构中&#xff1b;下面来说说一下什么是挂载 挂载&#xff1a;指的就是将设备文件中的顶级目录连接到 Linux 根目录下的某一目录&#xff08;最好是…