AI大模型学习笔记之五:监督学习--数据如何驱动决策

监督学习,又称为监督式机器学习,是机器学习和人工智能领域的一个重要分支。

其基本原理是利用带有标签的数据集来训练算法,以实现精确分类数据或预测结果的目标。

在监督学习中,通过将数据输入模型,并不断调整数据权重,直至模型与实际数据拟合良好,这也是交叉验证的一部分。

监督学习技术可应用于解决各种现实世界的问题,比如将垃圾邮件分类至收件箱的特定文件夹中。

监督学习
一、什么是监督学习?

监督学习之所以被称为“监督”,是因为在训练过程中,模型的学习是在一个“监督者”的指导下进行的,这个监督者就是提供标签(或答案)的数据源。

这个“标签”通常是由人工标记的。在监督学习中,训练数据集包含了输入数据和对应的输出标签(也称为“标记”或“答案”),这些标签是人们根据自己的知识或经验为每个输入样本提供的。训练过程中,模型通过学习输入与输出之间的关系,来尝试预测新的未见过的输入数据的输出标签。

监督体现在以下几个方面:

监督学习的体现

  1. 提供标签:在监督学习中,训练数据包含输入特征和对应的输出标签。这些标签是指导模型学习和判断对错的关键,因为模型的目标是学会根据输入的数据来预测正确的输出。

  2. 衡量性能:监督学习中通常会使用一个衡量标准(如损失函数)来评估模型的预测与真实标签之间的差异。通过这种衡量,可以及时发现模型的预测偏差,并对模型进行调整。

  3. 调整模型:监督学习中,监督者还可以根据模型的表现来调整模型的结构或超参数,以提高模型的性能,让模型逐渐逼近真实标签。

训练过程中,模型通过学习输入与输出之间的关系,来尝试预测新的未见过的输入数据的输出标签。

这种监督使得模型能够在学习过程中逐渐优化自身,以更准确地进行预测。

二、监督学习工作原理

监督学习利用训练集来训练模型,以产生预期的输出。

这个训练集包含了输入数据以及它们对应的正确输出,这些标签是由人工标注的。

模型通过学习输入和输出之间的关系,逐渐提高其预测准确性。

在训练过程中,模型使用损失函数来衡量其预测输出与真实输出之间的差异,并不断调整模型参数,以最小化这种差异。这个过程持续进行,直到模型的预测误差被充分地最小化。

监督学习分为两种主要类型:

  1. 分类(Classification):在分类问题中,算法的目标是预测输入数据属于哪个类别或标签。输出通常是离散的,代表不同的类别。例如,给定一张图片,预测该图片中包含的物体是猫还是狗。

分类分析应用

  1. 回归(Regression):在回归问题中,算法的目标是预测连续值的输出。输出通常是一个实数值或向量。例如,根据房屋的特征(如面积、位置、卧室数量等),预测该房屋的销售价格。

回归分析应用

三、常用的监督学习算法

在监督学习中,通常使用各种算法和计算方法来训练模型。常用的监督学习算法有以下一些,可以使用R或Python等编程语言进行计算:

  1. 神经网络:神经网络是一种基于人工神经元网络结构的深度学习模型。它由多个层次组成,包括输入层、隐藏层和输出层,每个神经元都与下一层的所有神经元相连。在训练过程中,神经网络通过反向传播算法来更新权重,以最小化损失函数。它在图像识别、语音识别、自然语言处理等领域取得了很大的成功。

神经网络

  1. 朴素贝叶斯:朴素贝叶斯是一种基于贝叶斯定理和特征独立性假设的分类算法。它假设每个特征都是独立的,然后通过计算每个类别的后验概率来进行分类。朴素贝叶斯算法简单、高效,特别适用于文本分类、垃圾邮件识别和推荐系统等应用。

朴素贝叶斯分类算法

  1. 线性回归:线性回归用于建立因变量与一个或多个自变量之间的线性关系。它通过拟合最佳拟合线来预测连续性因变量的值。在简单线性回归中,只有一个自变量和一个因变量,而在多元线性回归中,可以有多个自变量。线性回归通过最小化残差平方和来找到最佳拟合线。

线性回归

  1. 逻辑回归:逻辑回归用于解决二元分类问题,例如判断邮件是否为垃圾邮件。它通过将线性回归模型的输出映射到一个逻辑函数(如sigmoid函数),以产生0到1之间的概率值,从而进行分类。

逻辑回归

  1. 支持向量机 (SVM):支持向量机是一种用于分类和回归的监督学习模型。它的目标是找到一个最大间隔超平面,将不同类别的数据点分开。SVM通过核函数将数据映射到高维空间,以便在更复杂的数据结构中找到最佳的超平面。

支持向量机 (SVM)

  1. K近邻算法:K近邻算法是一种基于实例的学习方法,它假设相似的数据点具有相似的标签。在分类问题中,它根据输入样本的最近邻居来预测其标签。K近邻算法简单易用,但对于大型数据集的处理速度较慢。

K近邻算法

  1. 随机森林:随机森林是一种集成学习算法,由多个决策树组成。每个决策树都是通过随机抽样和随机特征选择训练而成的。随机森林通过投票或平均值来产生最终的分类结果或回归预测,具有较强的泛化能力和抗过拟合能力。

随机森林

这些算法在监督学习中起着重要作用,可以根据问题的特性和数据的特点选择合适的算法进行建模和预测。

四、监督学习的工作流程

监督学习的工作流程

监督学习的工作流程一般分为以下九个步骤:

  1. 收集数据集
    • 确定任务:首先确定需要解决的任务,例如分类、回归或其他问题。
    • 收集数据:根据任务收集数据,确保数据包含足够的样本和特征,以支持模型的训练和预测。
    • 数据探索:对收集的数据进行初步探索,了解数据的特点、分布和缺失值情况。

01-收集数据集

  1. 数据预处理
    • 清洗数据:处理异常值、重复值和错误数据,确保数据的准确性和一致性。
    • 处理缺失值:填充或删除缺失值,以确保数据的完整性。
    • 特征工程:选择合适的特征,对特征进行转换、组合或生成新特征,以提高模型的性能。
    • 数据标准化:对数据进行标准化或归一化,以确保不同特征具有相似的尺度和范围。

02-数据预处理

  1. 划分数据集
    • 划分比例:将数据集按照一定比例划分为训练集、验证集和测试集,通常按照70-80%的训练集、10-15%的验证集和10-15%的测试集进行划分。
    • 随机化:确保数据集的划分是随机的,避免数据的偏斜或过拟合。

03-划分数据集

  1. 选择模型
    • 确定模型类型:根据任务的性质和数据的特点,选择适当的监督学习模型,例如分类模型、回归模型或其他类型的模型。
    • 模型调优:根据任务的需求和性能指标,选择合适的模型超参数和配置。

04-选择模型

  1. 训练模型
    • 模型初始化:初始化模型参数,准备进行训练。
    • 损失计算:使用训练集数据计算损失函数,衡量模型预测值与真实值之间的差异。
    • 参数更新:使用优化算法(如梯度下降)更新模型参数,以最小化损失函数。
    • 迭代训练:重复以上步骤,直到达到停止训练的条件(如达到最大迭代次数或达到收敛)。

05-训练模型

  1. 验证模型
    • 模型评估:使用验证集评估模型的性能,通常使用指标如准确率、精确率、召回率、F1 值等来衡量模型的表现。
    • 超参数调优:根据验证集的评估结果调整模型的超参数,以提高模型的性能和泛化能力。

06-验证模型

  1. 模型评估
    • 测试集评估:使用测试集评估模型的泛化能力和预测性能,确保模型在未见数据上的表现。
    • 结果解释:分析模型的预测结果,理解模型对数据的学习和推理能力。

07-模型评估

  1. 模型部署
    • 模型集成:将训练好的模型集成到实际应用中,例如将模型部署到Web服务、移动应用或嵌入式系统中。
    • 性能监控:持续监控模型在实际应用中的性能,跟踪模型的预测准确度和响应时间。

08-模型部署

  1. 监控和更新
    • 模型更新:定期更新模型,以适应新的数据和情况。这可能涉及重新训练模型或调整模型参数。
    • 反馈循环:根据实际应用中收集到的反馈和数据,优化模型的性能和预测能力。

09-监控和更新

以上这些步骤构成了监督学习的完整工作流程,在实际应用中还需要综合考虑数据、模型和任务的特点,不断迭代和优化以获得最佳的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/387790.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式Linux中系统调试常用命令

在 Linux 中,获取系统信息和监控系统资源的操作是非常常见的任务。以下是一些常用的命令和工具,以及一些相关的系统文件,用于获取 Linux 系统信息和监控系统资源。 1. 基本系统信息 uname 命令 uname 命令用于显示系统信息。 查看内核版本&…

AcWing 122 糖果传递(贪心)

[题目概述] 有 n 个小朋友坐成一圈,每人有 a[i] 个糖果。 每人只能给左右两人传递糖果。 每人每次传递一个糖果代价为 1。 求使所有人获得均等糖果的最小代价。 输入格式 第一行输入一个正整数 n,表示小朋友的个数。 接下来 n 行,每行一个…

揭秘2024春晚刘谦魔术——代码还原

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、魔术大概流程 二、代码实现各个步骤 2.1 partition(对半撕牌) 2.2 bottom(将 n 张牌置底…

Hive3.1.2——企业级调优

前言 本篇文章主要整理hive-3.1.2版本的企业调优经验,有误请指出~ 一、性能评估和优化 1.1 Explain查询计划 使用explain命令可以分析查询计划,查看计划中的资源消耗情况,定位潜在的性能问题,并进行相应的优化。 explain执行计划…

力扣---通配符匹配

题目描述: 给你一个输入字符串 (s) 和一个字符模式 (p) ,请你实现一个支持 ? 和 * 匹配规则的通配符匹配: ? 可以匹配任何单个字符。 * 可以匹配任意字符序列(包括空字符序列)。 判定匹配成功的充要条件是&#xff…

GPT-4影响高度创新思维的领域(一)

GPT-4的应用范围不再局限于对现有信息的检索、整理和复述,而是进一步拓展到了诸如文学创作、科学假设生成、教育辅导、商业策略建议等需要高度创新思维的领域。这种独立思考和创新能力赋予了GPT-4作为虚拟助手时更加丰富多元的角色定位,使其成为一种强大…

VBAR设置方法

Uboot源码: /** Setup vector:* (OMAP4 spl TEXT_BASE is not 32 byte aligned.* Continue to use ROM code vector only in OMAP4 spl)*/ #if !(defined(CONFIG_OMAP44XX) && defined(CONFIG_SPL_BUILD))/* Set V0 in CP15 SCTLR register - for VBAR to …

SelfAttention|自注意力机制ms简单实现

自注意力机制学习有感 观看b站博主的讲解视频以及跟着他的pytorch代码实现mindspore的自注意力机制:up主讲的很好,推荐入门自注意力机制。 import mindspore as ms import mindspore.nn as nn from mindspore import Parameter from mindspore import …

LeetCode 0987.二叉树的垂序遍历:遍历时存节点信息,遍历完自定义排序

【LetMeFly】987.二叉树的垂序遍历:遍历时存节点信息,遍历完自定义排序 力扣题目链接:https://leetcode.cn/problems/vertical-order-traversal-of-a-binary-tree/ 给你二叉树的根结点 root ,请你设计算法计算二叉树的 垂序遍历…

前端秘法进阶篇之事件循环

目录 一.浏览器的进程模型 1.进程 2.线程 二.浏览器的进程和线程 1. 浏览器进程 2. 网络进程 3. 渲染进程 三.渲染主线程 四.异步 五.优先级 1. 延时队列: 2.交互队列: 3.微队列: 六.JS 的事件循环 附加:JS 中的计时器能做到精…

XMall 开源商城 SQL注入漏洞复现(CVE-2024-24112)

0x01 产品简介 XMall 开源电商商城 是开发者Exrick的一款基于SOA架构的分布式电商购物商城 前后端分离 前台商城:Vue全家桶 后台管理:Dubbo/SSM/Elasticsearch/Redis/MySQL/ActiveMQ/Shiro/Zookeeper等。 0x02 漏洞概述 XMall 开源商城 /item/list、/item/listSearch、/sys/…

【Android】使用Android Studio打包APK文件

文章目录 1. 新建项目2. 打包生成APK3. 安装APK 1. 新建项目 打包APK之前,首先需要新建项目,有基础的可以跳过。 无基础的可以参考:使用Android Studio运行Hello World项目 2. 打包生成APK 1.找到Build -> Generate Signed Bundle or …

【C/C++语法基础】2.输入与输出(✨新手推荐阅读)

前言 在C中,输入与输出是程序与用户进行交互的基本方式。C提供了多种方式进行数据的输入与输出,其中最常用的是printf、scanf、cin和cout。此外,我们还会讨论如何取消cin和cout的同步流,以及了解各种转义字符的用法。 1.printf函…

arkTS开发鸿蒙OS个人商城案例【2024最新 新年限定开发案例QAQ】

龙年前述 源码获取>文章下方二维码,回复关键字“鸿蒙OS商场源码” 前言 arkTS是华为自己研发的一套前端语言,是在js和ts技术的基础上又进行了升级而成! 本篇文章会带领大家通过arkTSnode.jsmongoDB来完成一个鸿蒙OS版本的商城案例&…

flask cors 跨域问题解决

座右铭:怎么简单怎么来,以实现功能为主。 欢迎大家关注公众号与我交流 环境安装 pip install -U flask-cors 示例代码 from flask import Flask from flask_cors import CORS, cross_originapp Flask(__name__) CORS(app, supports_credentialsTrue)…

__attribute__ ---Compile

Section for attribute attribute_?嵌入式C代码属性怎么定义 https://www.elecfans.com/d/2269222.html section 属性的主要作用是:在程序编译时,将一个函数或者变量放到指定的段,即指定的section 中。 一个可执行文件注意由代…

AI算法初识之分类汇总

一、背景 AI算法的分类方式多种多样,可以根据不同的学习机制、功能用途以及模型结构进行划分。以下是一些主要的分类方式及相应的代表性算法: 1. 按照学习类型 - **监督学习**: - 线性回归(Linear Regression) …

学会如何备份u盘数据,让数据安全有保障

随着科技的发展,U盘已成为我们日常生活和工作中不可或缺的数据存储设备。然而,无论U盘的质量如何,数据丢失的风险始终存在。可能是硬件故障、意外删除、病毒感染或其他不可预见的原因。 尽管当前提供了多种数据恢复方案,然而没有一…

【Midjourney】解密Midjourney付费订阅:畅享全新体验!(详细流程与各版本一览)

一、Midjourney 付费订阅流程 1、在首页点击Purchase plan 2、进入到midjourney年月选择页面 3、这里续费一个最便宜的版本 , 按年付费 8 , 按月 10 4、输入银行卡信息 , 用的WildCard虚拟信用卡 ,打开 5、填写完银行卡信息就订阅成功 二、Midjourney 各版本介绍…

山西电力市场日前价格预测【2024-02-12】

日前价格预测 预测说明: 如上图所示,预测明日(2024-02-12)山西电力市场全天平均日前电价为127.42元/MWh。其中,最高日前电价为369.24元/MWh,预计出现在18:45。最低日前电价为0.00元/MWh,预计出…