数据挖掘与机器学习 1. 绪论

于高山之巅,方见大河奔涌;于群峰之上,便觉长风浩荡

                                                                      —— 24.3.22

一、数据挖掘和机器学习的定义

1.数据挖掘的狭义定义

背景:大数据时代——知识贫乏

数据挖掘的狭义定义:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息或知识的过程

数据源必须是真实的、大量的、含噪声的

发现的是用户感兴趣的知识

发现的知识要可接受、可理解、可运用

并不要求发现放之四海而皆准地知识,仅支持特定的发现问题即可

从知识发现过程来看:可以把数据挖掘视为知识发现过程中的一个基本步骤,也就是数据分析环节

2.⭐Fayyad数据挖掘过程主要包含七个阶段:

①数据清理

②数据集成

③数据选择

④数据变换

⑤数据挖掘

⑥模式评估

⑦知识表示

3.数据挖掘和机器学习的定义

数据挖掘是一种深层次地数据分析方法,需要对涉及到地海量数据进行管理与分析

数据库领域的研究为数据挖掘提供数据管理技术对于利用计算机对历史数据的分析,就是误码通常所说的机器学习

机器学习的定义:

机器学习是利用经验来改善计算机系统自身的性能,机器学习需要:

①通过数据分析建立模型

②利用算法对模型进行优化

③使计算机不断模拟人的学习行为来获取新的知识和技能,不断改善性能从而实现自我完善

机器学习方法构成地三元素

①模型        ②策略        ③算法

可简单表示为:机器学习 = 模型+策略 + 算法

模型是从数据中抽象用来描述客观世界的数学模型

机器学习的根本目的是构建一个模型来描述历史的数据规律,通过这个模型对未来进行预测

策略是选择模型的标准

假设空间往往包括多个模型,策略来确定哪一个模型是最好的

算法是指学习模型的具体计算方法,即在确定寻找最优模型的策略后,机器学习的问题归结于最优化问题,其优化算法是指求解模型参数最优解的算法

4.数据挖掘和机器学习、数据库的关系:

利用数据库提供的技术来管理海量数据,利用机器学习方法来分析挖掘数据背后的知识

数据挖掘注重运用算法或其他某种模式解决实际问题,偏实践和应用

机器学习注重相关机器学习算法的理论研究和算法优化,为数据挖掘提供了理论方法,偏理论和学术

数据挖掘技术是机器学习技术的一个实际应用

广义上来看,同属于知识发现的范畴,只是侧重点不同

相关术语:

①人工智能AI是一个大的领域概念

②机器学习是人工智能的一个重要领域

③统计学主要是利用机器学习来对数据挖掘产生影响

④机器学习和数据库是数据挖掘两大支撑技术

⑤模式识别是机器学习的一个工程应用

⑥机器学习可以从数据中实现系统的构建,而模式识别是对数据中模式和规律性的识别

⑦神经网络是机器学习中一个重要的方法,深度学习就是多层次的神经网络,是神经网络的高级阶段

5.习题

1.

2.

3.

4.

5.

6.

二、机器学习过程及其发展历程

1.机器学习基本过程

①第一步 数据集准备:机器学习是数据贪婪的,数据采集是最基础、最重要的一步,从不同的数据源收集数据,数据集是构建机器学习模型的起点。

②第二步 数据预处理:数据预处理是指对数据进行清洗、归约转换等。通过对数据进行各种检查和校正以纠正缺失值、异常、标准化等问题。通过预处理将数据结构化以便满足模型训练的需要。第一和第二步属于机器学习初级阶段
③第三步模型选择:根据具体任务特定问题的要求,选择合适的模型,根据机器学习模型对于训练数据处理方式的不同,机器学习算法可以大致可分为:监督学习无监督学习强化学习等。

④第四步模型训练:机器学习过程的核心是模型训练通过训练历史经验数据,对选择的模型的参数进行不断优化,最小化模型预测带来的误差。

第三和第四部属于机器学习中级阶段。

⑤第五步模型评估优化:在训练好模型之后,利用在数据预处理中准备好的测试数据集对模型进行测试。对模型评估结束后,还可以通过调参对训练过程进行优化。

⑥第六步应用预测:使用完全训练好的模型在新数据上做预测,这是机器学习过程的最后一步,在此阶段默认该模型已准备就绪,可以用于实际应用。

第五和第六步属于机器学习高级阶段,实现智能的目标。

2.机器学习的发展历程

数据挖掘与机器学习的本质是一样的

区别:

①数据挖掘更接近于数据端

②机器学习更接近于智能端

人工智能发展的三个时期:

3.习题

1.

2.

3.

4.

5.

6.

三、机器学习算法及数据隐私权

1.机器学习算法分类

我们通过系统的反馈方法的不同,将机器学习算法分为:无监督学习、有监督学习、强化学习

数据集的相关定义:

训练集、验证集、测试集

①训练集

训练集也称为样本数据集,是用于训练构造模型的数据集,通过设置模型参数、训练模型、建立机器学习模型

训练集由数据对象组成,每个对象所属类别已知,在构造模型时,需要输入一定数量的训练集,选取的训练集是否合适直接影响到分类器性能的好坏

②验证集

训练集训练出的多个模型对验证集数据进行预测,并记录模型准确率,从而选出效果最佳的模型所对应的参数,也就是说验证集用来调整模型参数。当模型无需人为设定超参数,所有参数都通过学习得到时就不需要验证集

③测试集

用于测试基于训练集构造的模型的性能。在模型产生后,由模型判定测试集对象的所属类别与测试集已知的所属类别进行比较,得出分类器的正确率等一系列评价性能指标。

2.机器学习的三类方法

①无监督学习:

无监督学习也叫无导师学习,实际应用中,在无法预先知道样本标签的情况下,训练数据类别未知,需要根据样本间的相似性对样本集进行划分,使类内的距离最小化类间的距离最大化。无监督学习常见包括聚类、降维关联规则等。

聚类是基于样本间的相似性来对样本进行划分,常见的聚类算法有:

习题

1.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/480075.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于docker配置pycharm开发环境

开发过程中,为了做好环境隔离,经常会采用docker来进行开发,但是如何快速将docker中的环境和本地开发的IDE链接起来是一个常见问题,下面对其进行简单的总结: (1)前期准备 开发环境docker和工具p…

ENISA 2023年威胁态势报告:主要发现和建议

欧盟网络安全局(ENISA)最近发布了其年度2023年威胁态势报告。该报告确定了预计在未来几年塑造网络安全格局的主要威胁、主要趋势、威胁参与者和攻击技术。在本文中,我们将总结报告的主要发现,并提供可操作的建议来缓解这些威胁。 介绍 ENISA 威胁态势报告…

活动回顾 | 走进华为向深问路,交流数智办公新体验

3月20日下午,“企业数智办公之走进华为”交流活动在华为上海研究所成功举办。此次活动由上海恒驰信息系统有限公司主办,华为云计算技术有限公司和上海利唐信息科技有限公司协办,旨在通过对企业数字差旅和HR数智化解决方案的交流,探…

在 Linux/Ubuntu/Debian 上安装 SQL Server 2019

Microsoft 为 Linux 发行版(包括 Ubuntu)提供 SQL Server。 以下是有关如何执行此操作的基本指南: 注册 Microsoft Ubuntu 存储库并添加公共存储库 GPG 密钥: sudo wget -qO- https://packages.microsoft.com/keys/microsoft.as…

53、Qt/信号与槽、QSS界面设计20240322

一、使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中,在槽函数中判断ui界面上输入的账号是否为"admin",密码是…

IDEA调优-四大基础配置-编码纵享丝滑

文章目录 1.JVM虚拟机选项配置2.多线程编译速度3.构建共享堆内存大小4.关闭不必要的插件 1.JVM虚拟机选项配置 -Xms128m -Xmx8192m -XX:ReservedCodeCacheSize1024m -XX:UseG1GC -XX:SoftRefLRUPolicyMSPerMB50 -XX:CICompilerCount2 -XX:HeapDumpOnOutOfMemoryError -XX:-Omi…

赋能 DevOps:平台工程的关键作用

在当今快节奏的数字环境中,DevOps 已成为寻求简化软件开发和交付流程的组织的关键方法。DevOps 的核心在于开发和运营团队之间协作的概念,通过一组旨在自动化和提高软件交付生命周期效率的实践和工具来实现。 DevOps 实践的关键推动因素之一是平台工程。…

小程序渲染层图标错误

小程序渲染图标层出现错误: 官方提示:不影响可以忽略; 通过阿里巴巴矢量图标库--项目设置--字体格式--选中base64格式; 重新更新图标库代码,替换项目中的图标库; 重新加载小程序--渲染层错误的提示消失&…

[运维] 可视化爬虫易采集-EasySpider(笔记)

一、下载 ​下载地址 下滑到Assets页面,选择下载 二、解压运 ​解压压缩包,打开文件夹 在此文件夹下打开Linux Terimal, 并输入以下命令运行软件: ./easy-spider.sh 注意软件运行过程中不要关闭terminal。 三、使用 1.开始 首先点击…

Qt实现TFTP Server和 TFTP Client(一)

1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…

浅谈Javascript虚拟列表(virtaul list)改造成虚拟表格(virtaul table)的技术

前端加载百万条数据列表,如果采用真实的DOM插入100万个div(或li)标签,肯定是非常卡顿的。这就不得不使用虚拟列表技术方案,但是虚拟列表技术方案网上有很详细的实现方法,今天我就来谈谈根据网上的方案&…

Prompt进阶系列5:LangGPT(提示链Prompt Chain)--提升模型鲁棒性

Prompt进阶系列5:LangGPT(提示链Prompt Chain)–提升模型鲁棒性 随着对大模型的应用实践的深入,许多大模型的使用者, Prompt 创作者对大模型的应用越来越得心应手。和 Prompt 有关的各种学习资料,各种优质内容也不断涌现。关于 Prompt 的实践…

ETL的全量和增量模式

在当今信息爆炸的时代,数据管理已经成为各行各业必不可少的一环。而在数据管理中,全量与增量模式作为两种主要的策略,各自具有独特的优势和适用场景,巧妙地灵活运用二者不仅能提升数据处理效率,更能保障数据的准确性。…

Alibaba spring cloud Dubbo使用(基于Zookeeper或者基于Nacos+泛化调用完整代码一键启动)

Quick Start Dubbo&#xff01;用更优雅的方式来实现RPC调用吧 - 掘金 dubbozookeeper demo 项目结构&#xff1a; RpcService 仅仅是提供服务的接口&#xff1a; public interface HelloService {String sayHello(String name); }DubboServer pom&#xff1a; <?xm…

爱普生EPSON全新传感技术方案亮相高交会,创造新时代“精智生活”

2023年中国国际高新技术成果交易会在深圳福田会展中心盛大举行&#xff0c;是目前中国规模最大、最具影响力的科技类展会之一。爱普生作为始终坚持“科技本地化”战略的技术创新前沿企业参与此次展会&#xff0c;为中国用户带来爱普生电子元器件三款创新技术与四大成熟传感器解…

基于JavaSpringmvc+myabtis+html的鲜花商城系统设计和实现

基于JavaSpringmvcmyabtishtml的鲜花商城系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末…

C++学习随笔(6)——类和对象的拓展

1. 构造函数回顾 1.1 构造函数体赋值 在创建对象时&#xff0c;编译器通过调用构造函数&#xff0c;给对象中各个成员变量一个合适的初始值。 class Date { public:Date(int year, int month, int day){_year year;_month month;_day day;} private:int _year;int _mont…

量子计算机

近日&#xff0c;在AWS re&#xff1a;Invent全球大会上&#xff0c;亚马逊官宣AWS三箭齐发量子计算组合拳&#xff1a;Braket、AWS量子计算中心和量子解决方案实验室。 随着亚马逊的强势入局&#xff0c;加上此前鼓吹量子霸权的谷歌、起步最早的IBM、暗自发力的微软&#xff…

Bumblebee双目测量基本原理

一.双目视觉原理 双目立体视觉三维测量是基于视差原理。 图 双目立体成像原理 因此,左相机像面上的任意一点只要能在右相机像面上找到对应的匹配点,就可以确定出该点的三维坐标。这种方法是完全的点对点运算,像面上所有点只要存在相应的匹配点,就可以参与上述运算,从而获…

DeepLabv1网路介绍

模型创新点 在论文引言中&#xff0c;作者提出了目前语义分割存在的问题&#xff0c;并且给出了解决办法&#xff1a; 下采样会导致我们图像空间分辨率降低——解决办法 使用膨胀卷积 目前语义分割网络基本都是采用CNN网络作为主干网络&#xff0c;但是CNN网络主要适用于目标检…