[机器学习]-1 概要介绍

1 理论来源

机器学习理论是参照人类学习链条:DIKIW模型(数据-信息-知识-智能-智慧)

   -数据: 原始的、未经处理的事实和数字。

   -信息: 经过处理、整理和结构化的数据,具有意义和上下文。

   -知识: 由信息构建而成的模式和规则。

   -智能: 运用知识进行决策和解决问题的能力。

   -智慧: 智能的高级形式,涉及深刻理解和伦理考虑。

目前火热的AGI,目标不仅限于DIKIW转化,还需要在广泛的领域内展现出通用智能的能力,能够自主学习、推理和决策,甚至在情感和社会互动中表现出智慧:AGI必须能够处理从原始数据到智能的所有转换过程,涵盖数据收集、信息提取、知识获取和应用;超越智能,智慧层次涉及道德判断、长期规划和人类社会的复杂互动,能够在伦理和道德框架内进行决策;AGI系统应该具有自我反省和自我改进的能力,这是使其不断进化和适应新情况的关键。

2 定义和概念

机器学习是一门利用算法和统计模型来使计算机系统通过数据进行学习的学科,其目标是让计算机在没有明确编程的情况下,自动改进其性能,其核心任务是从数据中学习模型,这些模型可以用于预测、分类、聚类等任务。机器学习的本质就是回归(连续性)和分类(离散性)的问题。

基础概念:

-数据集(Dataset):用于训练和评估模型的数据集合。通常分为训练集、验证集和测试集。

-特征(Features):用于描述数据的属性或变量。

-标签(Labels):监督学习中,用于指导模型学习的目标值。

-损失函数(Loss Function):衡量模型预测结果与实际结果之间误差的函数。

-优化算法(Optimization Algorithm):用于调整模型参数以最小化损失函数的算法,例如梯度下降。

3 算法分类

1)监督学习(Supervised Learning)

监督学习利用已标记的数据集训练模型,以对新数据进行预测或分类,这种方法通过提供输入数据及其对应的正确输出来训练模型,使其能够学会映射输入到输出的关系。应用实例:图像分类、语音识别、股票价格预测。

典型算法:

线性回归

逻辑回归

支持向量机(SVM)

决策树

随机森林

k近邻算法(k-Nearest Neighbors, k-NN)

神经网络

2)无监督学习(Unsupervised Learning)

无监督学习使用未标记的数据集进行训练,以发现数据的内在结构和模式,这种方法不需要预先标记的数据,模型会自行找出数据的分布和特征。应用实例:客户细分、图像压缩、异常检测。

典型算法:

聚类(Clustering),如k-means、层次聚类

主成分分析(Principal Component Analysis, PCA)

独立成分分析(Independent Component Analysis, ICA)

自组织映射(Self-Organizing Maps, SOM)

高斯混合模型(Gaussian Mixture Model, GMM)

3)半监督学习(Semi-Supervised Learning)

半监督学习利用少量标记数据和大量未标记数据进行训练,它结合了监督学习和无监督学习的优点,在标记数据有限的情况下提高模型的性能。应用实例:文本分类、图像标注、生物信息学。

典型算法:

半监督支持向量机

图形推理算法

自编码器

4)强化学习

强化学习通过与环境的互动,学习采取何种行动以最大化累计奖励,适用于需要连续决策和反馈的场景。应用实例:游戏AI、机器人控制、自动驾驶。

典型算法:

Q学习(Q-Learning)

深度Q网络(DQN)

策略梯度方法

近端策略优化

5)深度学习

深度学习是一种基于人工神经网络的机器学习方法,特别是包含多个层的深度神经网络,在处理大规模数据和复杂模式识别任务中表现优异。应用实例:图像识别、自然语言处理、自动翻译。

典型算法:

卷积神经网络(CNN)

循环神经网络(RNN)

长短期记忆网络(LSTM)

生成对抗网络(GAN)

变分自编码器(VAE)

Transformer,最初是为了解决序列到序列任务而提出,由编码器和解码器组成,通过自注意力机制和并行计算能力,在捕捉长距离依赖和处理大规模数据方面表现出色。

4 评估指标

评估指标是用于衡量模型性能的关键工具,帮助我们理解和比较模型的预测能力。

1)分类问题的评估指标

1.1)准确率(Accuracy):正确预测的比例,即所有正确预测的样本数除以总样本数。

{Accuracy} = {TP + TN}/{TP + TN + FP + FN},适用于类别均衡的数据集,但在类别不平衡的数据集上可能会产生误导。

1.2)精度(Precision):预测为正类样本中实际为正类的比例。

{Precision} = {TP}\{TP + FP},当关注减少假阳性时(如垃圾邮件过滤)。

1.3)召回率(Recall):实际为正类样本中被正确预测为正类的比例。

{Recall} = {TP}\{TP + FN},当关注减少假阴性时(如疾病检测)。

1.4)F1分数:精度和召回率的调和平均值。

{F1 Score} = 2 *{{Precision} *{Recall}/{Precision + Recall}} ,当需要平衡精度和召回率时,特别适用于不平衡数据集。

1.5)AUC-ROC(Area Under the Receiver Operating Characteristic Curve):ROC曲线下面积,衡量分类模型的整体表现,绘制了不同阈值下的召回率和假阳性率。AUC-ROC值越接近1,模型性能越好;0.5表示模型性能与随机猜测相当。

2)回归问题的评估指标

2.1)均方误差MSE:预测值与实际值之间的平均平方差,强调较大误差。

2.2)均方根误差:MSE的平方根,更直观地反映预测误差的实际大小。

2.3)平均绝对误差:预测值与实际值之间的平均绝对差。

2.4)R平方:解释了模型所能解释的目标变量的方差比例,衡量回归模型的拟合优度。

5 主要步骤

1)数据收集:获取足够的、有代表性的数据。

2)数据预处理:清洗、转换和规范化数据,处理缺失值、异常值等问题。

3)特征工程:选择、提取和创建有意义的特征。

4)模型选择:选择适合于具体任务和数据特点的模型。

5)模型训练:使用训练集训练模型,调整模型参数以最小化损失函数。

6)模型评估:使用验证集评估模型性能,选择最佳模型。

7)模型部署:将模型应用于实际场景,进行预测或决策。

8)模型监控与更新:在实际应用中监控模型性能,定期更新和改进模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/733118.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VBA技术资料MF164:列出文件夹中的所有文件和创建日期

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

Gradle学习-1

1、APK构建流程 2、Gradle的安装 (1)安装Java JDK JAVA JDK 下载地址下载安装后需要配置环境变量gradle是运行在Java虚拟机上的,所以需要配置Java JDK (2)安装 Gradle Gradle下载官网下载安装后需要配置环境变量 …

「动态规划」如何求子数组中等差数列的个数?

413. 等差数列划分https://leetcode.cn/problems/arithmetic-slices/description/ 如果一个数列至少有三个元素,并且任意两个相邻元素之差相同,则称该数列为等差数列。例如,[1,3,5,7,9]、[7,7,7,7]和[3,-1,-5,-9]都是等差数列。给你一个整数…

通过开放解析智能分块提高 RAG 性能

如果要使用大型语言模型 ()LLMs 实现生成式 AI 解决方案,则应考虑使用检索增强生成 (RAG) 的策略来生成上下文感知提示LLM。在启用 LLM RAG 的预生产管道中发生的一个重要过程是删除文档文本,以便仅将文档中…

论文:R语言数据分析之机器学习论文

欢迎大家关注全网生信学习者系列: WX公zhong号:生信学习者Xiao hong书:生信学习者知hu:生信学习者CDSN:生信学习者2 一、研究背景 全球范围内,乳腺癌是导致癌症发病率和死亡率的主要疾病之一。根据2018年…

BFS 解决最短路问题

例题一 解法(bfs 求最短路): 算法思路: 利⽤层序遍历来解决迷宫问题,是最经典的做法。我们可以从起点开始层序遍历,并且在遍历的过程中记录当前遍历的层数。这样就能在找到出⼝的时候,得到起点…

会自动清除的文件——tempfile

原文链接:http://www.juzicode.com/python-tutorial-tempfile/ 在某些不需要持久保存文件的场景下,可以用tempfile模块生成临时文件或者文件夹,这些临时文件或者文件夹在使用完之后就会自动删除。 NamedTemporaryFile用来创建临时文件&…

教程:LVM操作讲解

LVM简介 在系统运维过程中,对磁盘扩缩容是常见的操作。如何高效的管理磁盘容量,lvm提供了很好的解决方案。 LVM将磁盘抽象成PV、VG、LV,方便用户进行磁盘管理,简单来讲,是由物理磁盘划分成PV,PV加入到具体…

探索Linux的奇妙世界:第二关---Linux的基本指令1

1. xshell与服务器的连接 想必大家在看过上一期视频时已经搭建好了Linux的环境了并且已经下好了终端---xshell了吧?让我来带大家看一看下好了是什么样子的: 第一次登陆会让你连接你的服务器,就是我们买的云服务器,买完之后需要把公网地址ip复制过来进行链接,需要用户名和密码连…

CNN神经网络猫狗分类经典案例

因为有猫和狗两类,所有在data/train目录下,再建两个目录data/train/dog和data/train/cat: 同理,其他的data/validation和data/test目录下,再建两个目录:cat和data/,在cat和dog目录下&#xff0c…

Large Language Model based Multi-Agents: A Survey of Progress and Challenges

目录 摘要简介背景单一智能体系统单智能体 vs .多智能体系统 剖析多智能体系统:接口、剖析、通信和能力智能体 - 环境接口智能体画像智能体通信能力获取 摘要 大型语言模型( Large Language Models,LLMs )在各种任务中都取得了令人瞩目的成功。由于LLMs…

你好,复变函数2.0

第一行&#xff1a;0 或 1 第二行&#xff1a;&#xff08;空格&#xff09;函数&#xff08;后缀&#xff09; #pragma warning(disable:4996) #include <easyx.h> #include <stdio.h> #include <math.h> #define PI 3.141592653589793 #define E 2.71828…

【ai】tritonserver 的测试sdk部署

HybrIKHybrIK 环境 conda create -n hybrik python=3.8 -y 虚拟环境 zhangbin@ubuntu-server:~/miniconda3/bin$ pip config set global.index-url https: …

make与makefile

目录 一、make的默认目标文件与自动推导 二、不能连续make的原因 执行原理 touch .PHONY伪目标 make指令不回显 makefile多文件管理 简写依赖方法 三、回车与换行 四、缓冲区 一、make的默认目标文件与自动推导 假设这是一个makefile文件&#xff0c;make的时候默认生…

Kubernetes Dashboard

Minikube 环境搭建 Kubernetes 的基本架构 Kubernetes 声明式语言 YAML YAML操作Kubernetes核心对象 CentOs搭建Kubernetes集群 Kubernetes进阶对象Deployment、DaemonSet、Service Kubernetes进阶对象Ingress、Ingress Class、Ingress Controller Kubernetes集群部署项目实践 …

XTDrone-无人机与无人船协同初步-配置教程

说明&#xff1a;配置该教程时所使用的是Ubuntu20.04 1 海洋与无人船仿真环境搭建 cp -r ~/XTDrone/sitl_config/usv/* ~/catkin_ws/src/ cd catkin_ws catkin build # or catkin_make 说明&#xff1a;由于官方所编写的脚本时几年之前的&#xff0c;所以很多东西不符合现在…

深入分析并可视化城市轨道数据

介绍 中国城市化进程加速中&#xff0c;城市轨道交通的迅速扩张成为提升城市运行效率和居民生活品质的关键。这一网络从少数大城市延伸至众多大中型城市&#xff0c;映射了经济飞跃和城市管理现代化。深入分析并可视化城市轨道数据&#xff0c;对于揭示网络特性、评估效率、理…

JavaScript学习笔记(二)

12、数字 常规用法和java的用法相似&#xff0c;就不再做详细的记录, JavaScript 数字 以下只记录特殊用法&#xff1a; 12.1 数字字符串运算 在所有数字运算中&#xff0c;JavaScript 会尝试将字符串转换为数字&#xff1a; var x "100"; var y "10"…

MySQL性能问题诊断方法和常用工具

作者介绍&#xff1a;老苏&#xff0c;10余年DBA工作运维经验&#xff0c;擅长Oracle、MySQL、PG数据库运维&#xff08;如安装迁移&#xff0c;性能优化、故障应急处理等&#xff09; 公众号&#xff1a;老苏畅谈运维 欢迎关注本人公众号&#xff0c;更多精彩与您分享。MySQL运…

python入门基础知识(错误和异常)

本文部分内容来自菜鸟教程Python 基础教程 | 菜鸟教程 (runoob.com) 本人负责概括总结代码实现。 以此达到快速复习目的 目录 语法错误 异常 异常处理 try/except try/except...else try-finally 语句 抛出异常 用户自定义异常 内置异常类型 常见的标准异常类型 语法…