机器学习-生命周期

假如一个用户向银行申请贷款,银行该如何对这个用户进行评估?很明显,银行首先需要调查清楚该用户的资金储备情况和信用历史等,然后再决定是否向其放款。

整个机器学习生命周期如下图所示:

1、定义问题

在使用机器学习中的术语表述上述用户申请贷款的例子时,可转换为二分类法评估用户的信用:信用好可以放款,信用差则拒绝放款。
针对评估用户的信用问题,我们有哪些解决方案?人工审核或者采用机器学习的方式。假如确定采用机器学习的方式:


最重要的是,应该如何衡量机器学习的结果,这个结果和期望相差多少如何减小这种差距。第一步便是定义问题,这需要团队成员同思考,给出各自的建议和理解,确定解决问题的思路。

2、收集数据

收集数据的数量和质量一定程度上决定了模型预测的效果。通常来说,数据量越大,训练出的模型质量越好

在模型评估阶段,我们还需要对数据集进行划分,以一定的比例将其划分为训练集和测试集。举个例子,若以 7:3 的比例划分,则数据集的 7/10 作为训练数据剩下的 3/10 是测试数据,

3、特征工程

数据收集过程中,获取到的原始数据由于可能存在空值或者错误值等,通常是不能直接应用于模型的,因此需要将其通过业务理解、数据变换、特征交叉与组合的方式转化成模型训练和预测可直接使用的特征。

如图所示,特征就是原始数据经过挖掘处理后的数值表示获取特征的过程称为特征工程,即原始数据会经过数据预处理,然后对数据进行挖掘处理后的数据


特征挖掘表示基于业务需求、收集到的数据和技术(压缩感知、稀疏编码等),构造出能够帮助描述问题的特征。例如,银行在判断是否向某个用户放款时,可以使用 30 天内信用卡是否逾期作为一维特征。
特征选择就是挑选出能够深刻描述研究问题特征的过程。如果在构造的特征中多数特征不合适(与研究问题没有很大的相关性),那么型训练的困难和成本将会提高,甚至训练过程中会出现一些影响模型性能的错误。

4、训练模型

4.1、模型选择

可以根据实际的数据结构和业务需求对模型进行初步的筛选。如果数据是时序数据,则擅长学习时序关系的模型是比较好的选择,如果是图片数据,那么卷积神经网络会更合适。

4.2、调参

这些经验可能来源以下几个方面:

  • 对模型评估指标的理解。
  • 对数据和业务的经验。
  • 通过不断地评估模型,选择使模型效果最优的参数。

调参的目的提高模型的某个评估指标最简单的调参方式是在学习曲线上找出最优值,以便能够将准确率修正到一个比较高的水平。

4.3、模型评估

在建模过程中,由于只使用了有限的数据,因此模型很可能会出现过拟合或者欠拟合的问题。

在模型评估时,经常要对数据集进行划分(分为训练数据集测试数据集),划分数据通常要保证两个条件。

  • 训练数据集和测试数据集的分布要与样本的真实分布一致,即训练集和测试集都要保证是从样本中独立采样得到的。
  • 训练数据集和测试数据集要互斥,即两个子集之间没有交集。

基于划分方式的不同,评估方法可以分为留出法、交叉验证法及自助法。基于不同方法的特点,在样本量较多的情况下,一般选择留出法或交叉验证法来对数据进行分类,在样本较少的情况下采用自助法。

分类问题中最常用的两个性能度量标准是准确率错误率。这两个标准是分类问题中简单、直观的评价标准。但它们都存在一个问题,即在类别不平衡的情况下,它们都无法有效评价模型的泛化能力。由于此种隐患的存在,又构造了其他相对公平的评估标准,如精确率、召回率、ROC和AUC 等。

5、模型部署

机器学习生命周期的最后一步是部署。如果开发模型能够按照我们的要求以可接受的速度生成准确的结果,那么就可以将该模型部署到实际系统中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/972539.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode:学习记录(二)

按照https://leetcode.cn/circle/discuss/RvFUtj/顺序刷题 零、经验记录 1. 学会画图分析 2. 学会找终止条件 3. 做一道就高质量完成 一、二分算法 0. 总结:大于某个数的第一个数的位置有固定模板,其中要讨论最后一个数小于等于目标数的情况 1. 二…

Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手

作者:来自阿里云 - 魏子珺 简介: Elasticsearch 新支持 DeepSeek 系列模型,使用 AI 助手,通过自然语言交互,为可观测性分析、安全运维管理及数据智能处理提供一站式解决方案。 一、Elasticsearch AI Assistant 介绍 E…

DeepSeek操作Excel,实现图表自动化生成

案例 让DeepSeek操作Excel,实现图表自动化生成。我们只要用自然语言输入我们的需求(根据哪块单元格区域做什么图表),就可以直接在Excel中自动生成图表。 操作主界面和图表效果 设置接入方式 这里提供了多种接入方式将DeepSeek接…

在 .NET 8/9 中使用 AppUser 进行 JWT 令牌身份验证

文章目录 一、引言二、什么是 JSON Web 令牌?三、什么是 JSON Web 令牌结构?四、设置 JWT 令牌身份验证4.1 创建新的 .NET 8 Web API 项目4.2 安装所需的 NuGet 软件包4.3 创建 JWT 配置模型4.4 将 JWT 配置添加到您的 appsettings.json 中4.5 为 Config…

【R语言】主成分分析与因子分析

一、主成分分析 主成分分析(Principal Component Analysis, PCA)是一种常用的无监督数据降维技术,广泛应用于统计学、数据科学和机器学习等领域。它通过正交化线性变换将(高维)原始数据投影到一个新的坐标系&#xff…

linux下pip下载项目失败

想下载CLIP的项目复现代码的时候,出现问题如下: 于是手动使用 Git 克隆仓库, git clone https://github.com/openai/CLIP.git cd CLIP pip install .ls查看文件如下:(手动克隆git项目成功)

Windows桌面系统管理8:项目实施

Windows桌面系统管理0:总目录-CSDN博客 Windows桌面系统管理1:计算机硬件组成及组装-CSDN博客 Windows桌面系统管理2:VMware Workstation使用和管理-CSDN博客 Windows桌面系统管理3:Windows 10操作系统部署与使用-CSDN博客 Wi…

【JavaScript】实战案例-放大镜效果、图片切换

目录 实现这种图片切换的和放大镜的效果: 第一步:图片的切换 第二步:鼠标经过中等盒子,显示隐藏大盒子 第三步:黑色遮罩盒子跟着鼠标来移动 遮罩层盒子移动的坐标: 总结一下~本章节对我有很大的收获…

windows使用clion运行lua文件,并且使用cjson

需要文件:clion,lua-5.4.2_Win64_bin,lua-5.4.2_Win64_dllw6_lib,lua-cjson-2.1.0.9,mingw64 1,下载安装clion。 2,下载lua windows运行程序 lua官网:http://www.lua.org/download…

人工智能基础之数学基础:01高等数学基础

函数 极限 按照一定次数排列的一列数:“,“,…,"…,其中u 叫做通项。 对于数列{Un}如果当n无限增大时,其通项无限接近于一个常数A,则称该数列以A为极限或称数列收敛于A,否则称数列为发散, 极限值 左…

flink-cdc同步数据到doris中

1 创建数据库和表 1.1 数据库脚本 -- 创建数据库eayc create database if not exists ods_eayc; -- 创建数据表2 数据同步 2.1 flnk-cdc 参考Flink CDC实时同步MySQL到Doris Flink CDC 概述 2.1.1 最简单的单表同步 从下面的yml脚本可以看到,并没有doris中创建…

CUDA兼容NVIDA版本关系

CUDA组成 兼容原则 CUDA 驱动(libcuda.so)兼容类型要求比CUDA新向后兼容无主版本一致,子版本旧兼容需要SASS、NVCC比CUDA老向前兼容提取对应兼容包 向后兼容:新版本支持旧版本的内容,关注的是新版本能否处理旧版本的内容。 向前兼容&#…

要配置西门子G120AX变频器实现**端子启停**和**Modbus RTU(485)频率给定

要配置西门子G120AX变频器实现端子启停和Modbus RTU(485)频率给定,需调整以下关键参数: 1. 端子启停控制 P29652[0]:设置启停信号源 (例:P29652 [0] 722.0 表示用DI0端子作为启动/停止信号&…

撕碎QT面具(3):解决垂直布局的内容显示不全

问题:内容显示不全 解决方案:增加Vertical Spacer,它会把Group Box控件挤上去,让内容显示完全。 结果展示:

LabVIEW 中的 ax - events.llb 库

ax - events.llb 库位于C:\Program Files (x86)\National Instruments\LabVIEW 2019\vi.lib\Platform目录,它是 LabVIEW 平台下与特定事件处理相关的重要库。该库为 LabVIEW 开发者提供了一系列工具,用于有效地处理和管理应用程序中的各种事件&#xff0…

Macos机器hosts文件便捷修改工具——SwitchHosts

文章目录 SwitchHosts软件下载地址操作添加方案切换方案管理方案快捷键 检测 SwitchHosts SwitchHosts 是一款 Mac 平台上的免费软件,它可以方便地管理和切换 hosts 文件,支持多种 hosts 文件格式。 软件下载地址 SwitchHosts 操作 添加方案 添加 …

【算法】双指针(下)

目录 查找总价格为目标值的两个商品 暴力解题 双指针解题 三数之和 双指针解题(左右指针) 四数之和 双指针解题 双指针关键点 注意事项 查找总价格为目标值的两个商品 题目链接:LCR 179. 查找总价格为目标值的两个商品 - 力扣(LeetCode&#x…

嵌入式linux利用标准字符驱动模型控制多个设备方法

一、驱动模型概述 Linux标准字符设备驱动模型基于以下核心组件: 设备号:由主设备号(Major)和次设备号(Minor)组成 cdev结构体:表征字符设备的核心数据结构 文件操作集合:file_operations结构体定义设备操作 sysfs接口:提供用户空间设备管理能力 传统单设备驱动与多设…

【可实战】Linux 常用统计命令:排序sort、去重uniq、统计wc

在 Linux 系统中,有一些常用的命令可以用来收集和统计数据。 一、常用统计命令的使用场景 日志分析和监控:通过使用 Linux 统计命令,可以实时监控和分析系统日志文件,了解系统的运行状况和性能指标。例如,使用 tail 命…

在 macOS 的 ARM 架构上按住 Command (⌘) + Shift + .(点)。这将暂时显示隐藏文件和文件夹。

在 macOS 的 ARM 架构(如 M1/M2 系列的 Mac)上,设置 Finder(访达)来显示隐藏文件夹的步骤如下: 使用快捷键临时显示隐藏文件: 在Finder中按住 Command (⌘) Shift .(点&#xff…