大数据-194 数据挖掘 机器学习理论 有监督、无监督、半监督、强化学习

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Tez 基本介绍
  • Tez 配置使用

在这里插入图片描述

简单案例

在一个酒吧里,吧台上摆着十杯几乎一样的红酒,老板说想不想玩个游戏,赢了免费喝酒,输了需要付三倍的酒钱。眼前的十杯红酒,每杯都略有不同,前五杯属于【赤霞珠】,后五杯属于【黑皮诺】,现在重新倒一杯酒,你需要正确的说出属于哪一类?

在这里插入图片描述
我的问题 :
在这里插入图片描述

算法体系

机器学习(Machine Learning, ML)是人工智能(AI)的一个分支,旨在通过数据和算法使计算机系统能够像人类一样学习和做出决策,而无需明确编程指令。机器学习的核心是从数据中提取模式,并使用这些模式对新数据进行预测或分类。

机器学习 h的方法是基于数据产生的模型算法,也称学习算法。包括有:

  • 有监督学习 (supervised learning)
  • 无监督学习(unsupervised learning)
  • 半监督学习(semi-supervised learning)
  • 强化学习(reinforcement learning)

机器学习是一种基于数据的学习方法,它依赖于大规模数据的分析,通过算法构建模型,使机器能够从数据中学习经验,进行预测、分类、聚类等操作,而无需人工明确设定规则。

有监督学习(Supervised Learning)

指对数据的若干特征与若干标签(类型)之间的关联性进行建模,只要模型被确定,就可以用用到新的未知数据上。
这类学习过程可以进一步为:【分类】classification 任务 和 【回归】regression 任务。

  • 分类任务中,标签都是离散值
  • 回归任务中,标签都是连续值

监督学习是指算法在训练过程中依赖标注好的数据集。数据集中的每一个样本都有一个对应的正确输出,算法通过这些“输入-输出”对,学习如何从输入数据预测输出。

  • 应用:分类问题(如垃圾邮件识别)、回归问题(如房价预测)。
  • 常见算法:线性回归、决策树、随机森林、支持向量机(SVM)、神经网络等。

无监督学习(Unsupervised Learning)

指对不带任何标签的数据特征进行建模,通常被看成一种“让数据自己介绍自己”的过程。
这类模型包括【聚类】clustering 任务 和 【降维】dimensionality reduction 任务。

无监督学习是指算法在没有标注数据的情况下进行训练,算法通过分析输入数据本身的特征或结构来进行学习。其目标是发现数据中的隐藏模式或群组。

  • 应用:聚类分析(如用户分群)、降维(如主成分分析)。
  • 常见算法:K均值聚类、层次聚类、主成分分析(PCA)、自编码器等。

半监督学习

另外,还有一种半监督 semi-supervised leaning 方法,介于有监督学习和无监督学习之间,通过可以在数据不完整的时候使用。

强化学习 (Reinforcement Learning)

强化学习不同于监督学习,它将学习看作是试探评价过程,以试错的方式学习,并与环境进行交互已获得惩罚指导行为,以其作为评价。
此时系统靠自身的状态和动作进行学习,从而改进行动方案以适应环境。

强化学习是通过与环境互动来学习策略的过程。算法通过不断尝试并接收环境的反馈(奖励或惩罚),来优化自己的行为决策。

  • 应用:机器人控制、自动驾驶、游戏AI。
  • 常见算法:Q学习、深度Q网络(DQN)、策略梯度方法等。

输入输出空间与特征空间

在上面的场景中,每一杯酒作为一个样本,十杯就组成一个样本集。酒精浓度、颜色深度等信息称做【特征】。这十杯酒分布式在一个【多维特征空间】中。
进入当前程序的“学习系统”的所有样本称做【输入】,并组成【输入空间】。
在学习过程中,所产生的随机变量的取值,称做【输出】,并组成【输出空间】。
在有监督的学习过程中,当输出变量均为连续变量时,预测问题成为回归问题,当输出量为有限个离散变量时,预测问题称为分类问题。

过拟合和欠拟合

当假设空间中含有不同复杂的模型时,就要面临模型选择的问题。
我们希望获得的新样本上能表现得很好的学习器,为了达到这个目的,我们应该从训练样本中尽可能学习到适用于所有潜在样本的“普遍规律”。
我们认为假设空间存在这种“真”模型,那么所选择的模型应该逼近真模型。
拟合度可以简单理解为模型对与数据集背后客观规律的掌握程度,模型对于给定数据集如果拟合度较差,则对规律的捕捉不完全,用作分类和预测时可能准确率不高。
换句话说,当模型把训练样本学的太好了,很可能已经训练样本本身的一些特点当作所有潜在样本的普遍性质,这时候所选的模型的复杂度往往会比真的模型要高,这样就会导致泛化性能下降,这种现象叫做过拟合(overfitting)。可以说,模型选择皆在避免过拟合并提高模型的预测能力。
与过拟合相对的是欠拟合(under fitting),指在学习能力低下,导致对训练样本的一般性质尚未学好。
在这里插入图片描述

  • 虚线:针对训练数据集计算出来的分数,即针对训练数据集拟合的准确性。
  • 实线:针对交叉数据集计算出来的分数,即针对交叉验证数据集预测的准确性。

上图中【左图】的内容,一阶多项式,欠拟合:

  • 训练数据集的准确性(虚线)和交叉验证数据集的准确性(实现)靠的很近,总体水平比较高。
  • 随着训练数据集的增加,交叉验证数据集的准确性(实现)逐渐增大,逐渐和训练数据集的准确性(虚线)靠近,但总体水平比较低,收敛在 0.88 左右。
  • 训练数据集的准确性也比较低,收敛在 0.90 左右
  • 当发生高偏差时,增加训练样本数量不会对算法准确性有较大的改善

上图中【中图】的内容,三阶多项式,较好拟合了数据集:

  • 训练数据集的准确性(虚线)和交叉验证数据集的准确性(实线)靠的很近,总体水平较高。

上图中【右图】的内容,十阶多项式,过拟合:

  • 随着训练数据集的增加,交叉验证数据集的准确性(实现)也在增加,逐渐和训练数据集的准确性(虚线)靠近,但两者之间的间隙比较大。
  • 训练数据集的准确性很高,收敛在 0.95 左右
  • 交叉验证数据集的准确性较低,最终收敛在 0.91 左右。

从上图我们看出,对于复杂的数据,低阶多项式往往是欠拟合的状态,而高阶多项式则过分捕捉噪声数据的分布规律,而噪声数据之所以称为噪声,是因为其分布毫无规律可言,或者其分布毫无价值,因此就算高阶多项式在当前训练集上拟合度很高,但其捕捉到无用规律无法推广到新的数据集上,因此该模型在测试数据集上执行过程将会有很大误差,即模型训练误差很小,但泛化的误差会很大。

机器学习的工作流程

机器学习通常包含以下几个步骤:

数据收集与预处理

数据是机器学习的基础。通常从各种来源收集数据,然后进行清洗、归一化、处理缺失值等预处理操作,以确保数据的质量。

特征工程

特征工程是指从原始数据中提取有用的特征。这一步骤对模型的性能至关重要。常见的特征处理方法包括特征选择、特征缩放、编码等。

模型选择

根据问题的类型(分类、回归、聚类等)选择适合的算法模型。不同的算法适用于不同类型的数据和任务。

模型训练

将预处理后的数据输入到选定的机器学习算法中,使用数据集中的训练数据让模型学习如何做出预测。

模型评估

训练完成后,使用测试集评估模型的性能。常用的评估指标包括准确率、精确率、召回率、F1分数、均方误差等。

模型调优

通过调整模型的参数或引入更多数据等手段,进一步优化模型的表现。

模型部署与应用

一旦模型通过了评估,它就可以被部署在实际应用中,比如推荐系统、自动驾驶、语音识别等。

常见的机器学习算法

  • 线性回归(Linear Regression):用于解决回归问题的基础算法,寻找输入变量和输出变量之间的线性关系。
  • 逻辑回归(Logistic Regression):用于二分类问题的算法,输出一个概率值,表示输入数据属于某一类别的可能性。
  • 决策树(Decision Tree):一种基于树形结构的分类或回归算法,通过递归划分数据空间来构建模型。
  • 随机森林(Random Forest):决策树的集成方法,通过训练多个决策树并综合其预测结果,提高模型的准确性和鲁棒性。
  • 支持向量机(SVM):用于分类和回归问题,能够找到最优的决策边界来最大化不同类别的分隔。
  • K均值聚类(K-Means Clustering):一种无监督学习算法,用于将数据点分成k个簇,使得同一簇内的数据点尽可能接近。
  • 神经网络(Neural Networks):模仿人脑神经元的工作方式,由多层神经元组成,用于处理复杂的非线性问题。

机器学习面临的挑战

  • 数据质量:模型的性能很大程度上依赖于数据的质量和数量,缺失值、噪声、偏差等问题都会影响学习效果。
  • 模型过拟合:模型在训练数据上表现优异,但在新数据上效果不佳,称为过拟合。这通常发生在数据量少且模型复杂的情况下。
  • 可解释性:复杂的机器学习模型(如深度学习)往往难以解释其内部的决策逻辑,使得模型的透明度和信任度成为一个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/903168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

argparse的基本用法

目录 前言 一、代码示例 二、三种给定形参的方式 1.修改运行配置 配置形参​编辑 2.cmd给定形参 给定形参 3.pycharm终端给定形参 三、获取argparse帮助信息 前言 argparse 是 Python 标准库中的一个模块,用于解析命令行参数。它使得程序能够通过命令行接…

大模型低资源部署策略

文章目录 解码效率分析大模型训练后量化方法经验性分析与相关结论由于大模型的参数量巨大,在解码阶段需要占用大量的显存资源,因而在实际应用中的部署代价非常高。在本文中,我们将介绍一种常用的模型压缩方法,即模型量化(ModelQuantization),来减少大模型的显存占用,从…

MicroServer Gen8再玩 OCP万兆光口+IT直通之二

这个接上一篇,来个简单测试。 一、测试环境 PC端:Win10,网卡:万兆光纤(做都做了,都给接上),硬盘使用N年的三星SSD 840 交换机:磊科GS10,带两个万兆口 Gen…

Python: Print Table on console

# encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看: # 描述: # Author : geovindu,Geovin Du 涂聚文. # IDE : PyCharm 2023.1 python 3.11 # OS : windows 10 # Datetime : 2024/10/28 22:08 # User : geo…

量子容错计算

基本思想 容错量子计算的基本想法是,在合理编码后的量子态上直接量子计算,以至于不完全需要解码操作。假设有一个简单的量子电路,但不幸的是噪声影响着这个电路的每一个元件,包括量子态的制备、量子逻辑门、对输出的测量&#x…

关于CUDA、cuDNN、nvcc、cudatookit、pytorch版本的总结

本人老是被网上的教程绕得云里雾里,所以觉得有必要写下一篇文章当做笔记供之后参考。 参考文章1:显卡,显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么? - 知乎 (zhihu.com) 参考文章2:Pytorch 使用不同版本…

利用 yolov3.cfg 配置文件搭建网络模型

目录 一、前言 二、yolov3.cfg 配置文件展示 文件信息 三、配置文件处理 1、parse_model_config 函数 (1)读取并预处理文件内容 (2)解析模块定义 2、parse_data_config 函数 (1)初始化默认选项 &am…

CV项目整理

1. 爬取+展示的实时项目 1.1 核心技术 myqls + maxwell + redis+django 实现读写分离,实时项目,主从复制,读写分离,顺写日志。 maxwell将自己伪装成为slave,就可以从Mysql的集群中获取顺写日志Binlog maxwell取得的数据格式json 1.2 流程 1.3优化查询 下面的查询,笛卡尔…

【Spring】Spring Boot 日志(8)

本系列共涉及4个框架:Sping,SpringBoot,Spring MVC,Mybatis。 博客涉及框架的重要知识点,根据序号学习即可。 1、日志概述 1.1学习日志的必要性 在第一次学习编程语言的时候,我们就在使用printf或者System.out.println等打印语句打印日志了…

CSS常用标签笔记

1 字体样式属性 对于font-family属性&#xff0c;如果字体类型只有一个英文单词&#xff0c;则不需要加上双引号&#xff1b;如果字体类型是多个英文单词或者是中文&#xff0c;则需要加上双引号。 <!DOCTYPE html> <html> <head><meta charset"utf…

Qt实现播放器顶部、底部悬浮工具栏

未实现时的播放器界面 下面是实现了雏形的悬浮栏&#xff1a; 设计一个播放器的悬浮工具栏旨在提升用户的交互体验&#xff0c;使得播放器在不影响观感的情况下提供常用功能。为此&#xff0c;我们可以新建一个QWidget窗口作为悬浮工具栏&#xff0c;将其作为播放器窗口的子控…

Redis-概念、安装、基本配置

文章目录 一、Redis及Redis集群概念、分布式系统概念一-1 Redis是什么&#xff1f;一-2 什么是分布式系统及其特性&#xff1f;一-3 什么是Redis集群以及实现的方法介绍&#xff1f;哨兵模式(sentinel)&#xff1f;cluster&#xff1f;&#xff1f; 一-4 Redis的库&#xff1f;…

大语言模型驱动的跨域属性级情感分析——论文阅读笔记

前言 论文PDF下载地址&#xff1a;7156 最近想搜一下基于大语言模型的情感分析论文&#xff0c;搜到了这篇在今年发表的论文&#xff0c;于是简单阅读之后在这里记一下笔记。 如图1所示&#xff0c;在餐厅领域中的"快"是上菜快&#xff0c;属于正面情感&#xff0c;但…

2022 icpc南京(I,G,A,D,M,B)

文章目录 [I. Perfect Palindrome](https://codeforces.com/gym/104128/problem/I)[G. Inscryption](https://codeforces.com/gym/104128/problem/G)[A.Stop, Yesterday Please No More](https://codeforces.com/gym/104128/problem/A)[D. Chat Program](https://codeforces.co…

来电显示单位名称怎么设置?

在现代商务沟通中&#xff0c;来电显示单位名称已成为提升企业形象、增强客户信任的重要工具。想象一下&#xff0c;当拨打或接听电话时&#xff0c;如果对方的手机屏幕上能够显示出企业的单位名称和品牌标识&#xff0c;会有什么样的效果呢&#xff1f;毋庸置疑&#xff0c;这…

图为大模型一体机新探索,赋能智能家居行业

在21世纪的今天&#xff0c;科技的飞速进步正以前所未有的速度重塑着我们的生活方式。从智能手机到物联网&#xff0c;从大数据到人工智能&#xff0c;每一项技术创新都在为人类带来前所未有的便利与效率。其中&#xff0c;图为AI大模型一体机作为人工智能领域的最新成果&#…

【Linux学习】(9)调试器gdb

前言 Linux基础工具&#xff1a;安装软件我们用的是yum&#xff0c;写代码用的是vim&#xff0c;编译代码用gcc/g&#xff0c;调试代码用gdb&#xff0c;自动化构建用make/Makefile&#xff0c;多人协作上传代码到远端用的是git。 在前面我们把yum、vim、gcc、make、git都已经学…

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来(4 - 2)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

Leecode热题100-226.反转二叉树

给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 示例 1&#xff1a; 输入&#xff1a;root [4,2,7,1,3,6,9] 输出&#xff1a;[4,7,2,9,6,3,1]示例 2&#xff1a; 输入&#xff1a;root [2,1,3] 输出&#xff1a;[2,3,1]示例 3&#x…

探讨Facebook的AI研究:未来社交平台的技术前瞻

在数字时代&#xff0c;社交媒体已成为人们日常生活的重要组成部分。作为全球最大的社交网络之一&#xff0c;Facebook不断致力于人工智能&#xff08;AI&#xff09;的研究与应用&#xff0c;以提升用户体验、增强平台功能并推动技术创新。本文将探讨Facebook在AI领域的研究方…