数据仓库实验二:关联规则挖掘实验

目录

    • 一、实验目的
    • 二、实验内容和要求
    • 三、实验步骤
      • 1、创建数据库和表
      • 2、挖掘关联规则
        • (1)新建一个 Analysis Services 项目 Sales
        • (2)建立数据源视图
        • (3)建立挖掘结构 Sales.dmm
        • (4)部署关联规则挖掘项目并浏览结果
    • 四、实验结果分析
    • 五、实验总结体会


一、实验目的

  通过本实验,对利用 Apriori 和 FP-growth 算法发现频繁项集、构建关联规则的方法有准确的理解。并掌握利用 Sql Server 等工具平台进行关联规则挖掘的方法,掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法 ,理解关联规则挖掘常用的参数含义和设置方法。

二、实验内容和要求

  针对实际需求,构建格式规范的数据集,并能够借助于 SQL Server、Weka、SPSS 等工具平台,利用 Apriori/FP-growth 算法,进行关联规则挖掘,正确分析实验结果,发现知识,完成实验报告。

三、实验步骤

以下以 Sql Server 作为工具,完成数据集的构建和关联规则的挖掘。

1、创建数据库和表

在 SSMS 中建立 Sales 数据库 (模拟超市/商场的销售数据),分别设计 Maintable (客户订单表)、Subtable (订单明细表)。表的结构和内容如下所示。

Maintable (客户订单表):

在这里插入图片描述
在这里插入图片描述
Subtable (订单明细表):

在这里插入图片描述
在这里插入图片描述

2、挖掘关联规则

在 Sql Server Data Tools 中采用如下步骤挖掘关联规则。

(1)新建一个 Analysis Services 项目 Sales

定义数据源 Sales.ds,对应的数据库为前面建立的 Sales 数据库。

在这里插入图片描述

(2)建立数据源视图

定义数据源视图 Sales.dsv,它包含 Maintable 和 Subtable 两个表,并建立两个人表之间的关系,如下所示。

定义数据源视图 Sales.dsv:

在这里插入图片描述
建立两个表之间的关系:

在这里插入图片描述
数据源视图如下:

在这里插入图片描述

(3)建立挖掘结构 Sales.dmm

新建挖掘结构,在 “创建数据挖掘结构” 页面的 “您要使用何种数据挖掘技术?” 选项下,选中列表中的 “Microsoft关联规则”。

在这里插入图片描述
为该数据源视图指定 Maintable 和 Subtable 两个表。

在这里插入图片描述
在 “指定表类型” 页面上,在 Maintable 表的对应行中选中 “事例” 复选框,在 Subtable 表的对应行中选中 “嵌套” 复选框。

在这里插入图片描述
在 “指定定型数据” 页面中,选中 MainTable 表订单编号字段所在行的 “键” 复选框。在 Subtable 表的产品名称字段勾选 “键”、“输入” 和 “可预测” 复选框。

在这里插入图片描述
在 “创建测试集” 页面上,“测试数据百分比” 选项的默认值为30%,将该选项更改为0.

在这里插入图片描述
在完成向导页面的 “挖掘结构名称” 和 “挖掘模型名称” 中,都输入 Sales,并且勾选 “允许钻取” 复选框。

在这里插入图片描述
结果如下图:

在这里插入图片描述
在这里插入图片描述
打开数据挖掘设计器的 “挖掘模型” 选项卡,右击 “Sales”,在出现的下拉菜单中选择 “设置算法参数” 命令,设置 “MINIMUM_PROBABLITY” 参数为0.5,设置 MINIMUM_SUPPORT 参数为0.2。

在这里插入图片描述
在这里插入图片描述

(4)部署关联规则挖掘项目并浏览结果

先处理(部署)、再浏览。

在这里插入图片描述
打开数据挖掘设计器的 “挖掘模型查看器” 选项卡,分别选择 “规则”、“项集” 和 “依赖关系网络” 选项并浏览。结果如下图所示。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、实验结果分析

1、选择“规则”选项并分析

在概率为1.0条件下,可以看到 草稿本→圆珠笔,圆珠笔→草稿本,牙膏→牙刷,牙刷→牙膏,平板→耳机,耳机→平板 这6个规则的重要性较高,可见关联性较强;在概率为0.5条件下,规则 台灯→抽纸 的重要性较高,关联性较强。

在这里插入图片描述

2、选择“项集”选项并分析

在这里插入图片描述

由图可知,支持度较高的1-项集有{平板},{圆珠笔},{牙刷},{牙膏},{台灯},{水杯},{耳机},{草稿本},2-项集有{圆珠笔, 草稿本},{牙刷, 牙膏},{平板, 耳机}。

3、选择“依赖关系网络”选项并分析

将左侧的链接拉到最底端,观察最强链接。

在这里插入图片描述

最强链接有如下三个:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

五、实验总结体会

  通过挖掘数据仓库中的关联规则,我们可以发现数据之间的潜在关联性,从而为业务决策提供重要的参考依据。
  在进行实验时,首先需要准备好数据集,确保数据的完整性和准确性。然后,选择合适的挖掘算法和工具进行实验。常用的算法包括Apriori算法和FP-Growth算法,可以使用工具如Weka、RapidMiner或Python中的相应库进行实现。Apriori算法和FP-Growth都是用来发现频繁项集的算法,但Apriori算法在寻找频繁项集时需要不停的扫描数据集,而FP-Growth算法只需要扫描数据集两次,因此FP-Growth算法执行速度更快,频繁项集是进行关联分析的基础,因此能够快速高效的查找频繁项集十分重要。
  在实验过程中,需要注意调整算法的参数,以获得更好的挖掘结果。同时,对挖掘结果进行评估和解释,确保发现的关联规则具有实际意义,并能够为业务决策提供帮助。
  最后,及时总结实验过程中的经验和教训,不断优化挖掘过程,提高挖掘效率和准确性。通过不断地实践和探索,可以更好地理解数据仓库中的数据,挖掘出更多有价值的信息,为企业的发展提供有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/582884.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(学习日记)2024.05.09:UCOSIII第六十三节:常用的结构体(os.h文件)第二部分

之前的章节都是针对某个或某些知识点进行的专项讲解,重点在功能和代码解释。 回到最初开始学μC/OS-III系统时,当时就定下了一个目标,不仅要读懂,还要读透,改造成更适合中国宝宝体质的使用方式。在学完野火的教程后&a…

Docker有哪些常见命令?什么是Docker数据卷?

喜欢就点击上方关注我们吧! 哈喽,大家好呀!这里是码农后端。上一篇我们介绍了Docker的安装以及腾讯云镜像加速源的配置。本篇将带你学习Docker的常见命令、数据卷及自定义镜像等相关知识。 1、什么是镜像与容器? 利用Docker安装应…

HarmonyOS编程实践系列:第一节 - 创建健康App欢迎页

系列文章目录 (零)鸿蒙HarmonyOS入门:如何配置环境,输出“Hello World“ (一)鸿蒙HarmonyOS开发基础 (二)鸿蒙HarmonyOS主力开发语言ArkTS-基本语法 (三)鸿蒙…

Web3的可持续性:构建环境友好的去中心化系统

引言 随着全球对可持续发展和环境问题的日益关注,Web3技术作为一种新型的互联网模式,也开始受到社区和开发者的关注。但很少有人关注到Web3对环境可持续性的潜在影响。本文将探讨Web3如何构建一个环境友好的去中心化系统,以及这如何促进一个…

Python_AI库 Pandas的时间序列操作详解

Python_AI库 Pandas的时间序列操作详解 本文默认读者具备以下技能: 熟悉python基础知识,vscode或其它编辑工具 了解pandas,matplotlib的基础操作 具备自主扩展学习能力 在数据分析和处理中,时间序列数据是一类常见且重要的数据类型。大量的…

瓦片编辑器成功移植到小熊猫C++ 2.25.1版本,解决_findnext移植问题

移植之后出现绿色屏幕闪退 查了版本回滚直到不闪退,发现是在读取自定义文件上出问题 然后在找读取自定义文件函数,发现是读取图片部分出问题 然后就卡住了 调试半天,不是数据溢出,于是就看 函数_findnext,网上搜 ———_findn…

Nutch库入门指南:利用Java编写采集程序,快速抓取北京车展重点车型

概述 在2024年北京车展上,电动汽车成为全球关注的焦点之一。这一事件不仅吸引了全球汽车制造商的目光,也突显了中国市场在电动汽车领域的领先地位。117台全球首发车的亮相,其中包括30台跨国公司的全球首发车和41台概念车,彰显了中…

协程——uthread学习

协程——uthread学习 uthread说明细节 uthread代码 ucontext-人人都可以实现的简单协程库 github地址 vscode c调试环境搭建 程序员应如何理解协程 在此记录一下协程的基本概念,后续再考虑实现手写的协程。 uthread说明 一个简单的C用户级线程(协程&am…

解决Could not locate zlibwapi.dll. Please make sure it is in your library path问题

nvidia官网已经下架了zlibwapi.dll的下载链接,可以按照下面方法。 1、在windows目录C:\Program Files\Microsoft Office\root\Office16\ODBC Drivers\Salesforce\lib下找到zlibwapi.dll文件 (如果下载不到可通过百度云) 链接:https://pan.baidu.com/s…

宝塔面板自定义设置告警通知webhook接口推送内容

前提 为了能够使用宝塔面板的自定义推送webhook对接到自己的推送系统,特意修改面板代码来支持自定义的推送系统。 环境 宝塔:Linux面板8.1.0 效果 步骤 主要修改文件路径如下 /www/server/panel/class/msg/web_hook_msg.py 源文件地址 完整文件链…

如何解决Edge浏览器显示“你的组织浏览器已托管”,导致无法正常打开网页问题?

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

[ACTF2020 新生赛]BackupFile 1 [极客大挑战 2019]BuyFlag 1 [护网杯 2018]easy_tornado 1

目录 [ACTF2020 新生赛]BackupFile 1 1.打开页面,叫我们去找源文件 2.想到用disearch扫描,发现源文件index.php.bak 3.访问这个文件,下载一个文件,用记事本打开 4.翻译php代码 5.构造payload url/?key123,得到fl…

《与 Apollo 共创生态:我和 Apollo 7周年大会的心路历程》

目录 前言7周年大会开放协同写在最后 前言 Apollo开放平台的企业生态计划是一个激动人心的举措,它展现了Apollo团队长期以来的努力和成就。通过与全球开发者和合作伙伴的紧密合作,Apollo开放平台已经成为一个创新和技术交流的重要平台。企业生态计划的推…

LeetCode 104.二叉树的最大深度

题目描述 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:3示例 2: 输入:root [1,null,…

优化大型语言模型交互:提升查询和提示效果的26条原则

推荐下arxiv挂的一个提示词教程: https://github.com/VILA-Lab/ATLAS https://arxiv.org/abs/2312.16171 它提出了一套26条指导原则,改善和优化与大型语言模型(LLMs)的交互过程。通过这些原则,旨在简化对LLMs的查询和…

【软考高项】二十八、进度管理基础内容

一、管理基础 小型项目中,定义活动、排列活动顺序、估算活动持续时间及制定进度模型形成进度计划等过程的联系非常密切,可以视为一个过程,可以由一个人在较短时间内完成管理新实践 具有未完成项的迭代型进度计划:适应型生命周期的滚动式…

信息系统管理

目录 一、信息系统管理范围 1、规划和组织 2、设计和实施 ①、信息系统架构 Ⅰ、集中式架构 Ⅱ、分布式架构 Ⅲ、SOA(面向服务的系统架构) 3、运维和服务 ①、运行管理和控制 ②、IT服务管理 ③、运行与监控 Ⅰ、运行监控 Ⅱ、安全监控 4、…

Docker本地部署overleaf后,挖掘用户加密逻辑

overleaf的用户信息,保存在mongo数据库的users集合中。 用户密码则存在hashedPassword字段中 从开源的代码services\web\app\src\Features\Authentication\AuthenticationManager.js第303行可以找到密码加密逻辑。 本地可以通过下面的代码生成overleaf用户密码信息…

JAVA实现easyExcel批量导入

注解类型描述ExcelProperty导入指定当前字段对应excel中的那一列。可以根据名字或者Index去匹配。当然也可以不写,默认第一个字段就是index0,以此类推。千万注意,要么全部不写,要么全部用index,要么全部用名字去匹配。…

投资蓄能之际,九安医疗如何进一步稳固主业“压舱石”?

体外诊断行业的消费环境变化,正从相关企业的发展中体现。 据梳理,随着疫情检测需求回落,2023年以来,菲鹏生物、雅睿生物、中翰生物等体外诊断公司,陆续主动撤回上市申请。 而已上市公司也正处于周期性调整阶段。4月2…