“探索机器学习的多面世界:从理论到应用与未来展望“

  • 博客主页:誓则盟约
  • 系列专栏:机器学习 专栏
  • 关注博主,后期持续更新系列文章
  • 如果有错误感谢请大家批评指出,及时修改
  • 感谢大家点赞👍收藏⭐评论✍ 


目录

一、机器学习基础理论

        1.机器学习的定义与分类

监督学习

 无监督学习

强化学习:

2.数据预处理

数据清洗

特征工程

数据归一化与标准化

3.评估指标 

准确率、召回率、F1 值

均方误差、平均绝对误差

 ROC 曲线、AUC 值

 总结:

“谁不和我们一起就是反对我们,中立的人最危险。” ——《弗拉基米尔-伊里奇-列宁》



一、机器学习基础理论

        1.机器学习的定义与分类

  • 监督学习

        监督学习是机器学习的重要类型。它基于有标记的训练数据进行学习。

        主要任务包括分类和回归。分类用于预测离散的类别标签,比如判断邮件是否为垃圾邮件。回归则用于预测连续的值,例如房价预测。

        常见算法有线性回归、逻辑回归、决策树等。以线性回归为例,其目标是找到一条直线来拟合数据。代码如下:

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1, 3, 2, 3, 5])

model = LinearRegression()
model.fit(X, y)

print(model.predict([[6]]))
  •  无监督学习

        无监督学习是机器学习的重要分支,其特点是数据没有明确的标签。其与监督学习有一定的共同点,比如:

  1. 数据基础:两者都依赖于数据进行学习和分析。数据的质量、特征和规模对学习效果都有重要影响。

  2. 目的一致性:最终目标都是从数据中提取有用的信息和模式,以帮助解决实际问题或做出决策。

  3. 技术交叉:某些技术和方法在两种学习方式中可能会有交叉应用。例如,特征选择和提取的方法在监督和无监督学习中都可能用到。

  4. 相互补充:在实际应用中,常常结合使用。先通过无监督学习对数据进行初步探索和预处理,例如发现数据中的隐藏结构或异常值,然后再应用监督学习进行更有针对性的预测和分类任务。

  5. 共同促进:它们的发展相互影响。对监督学习的研究可能启发无监督学习的新方法,反之亦然,共同推动机器学习领域的进步。

        主要包括聚类和降维两大任务。聚类旨在将数据分组,使得同一组内的数据具有较高的相似性,不同组的数据差异较大,常见的聚类算法有 K-Means 算法、层次聚类等。

        降维则是通过减少数据的特征数量,同时尽可能保留重要信息,有助于数据可视化和降低计算复杂度,主成分分析(PCA)是常用的降维方法。

        例如,使用 K-Means 算法进行聚类的简单代码如下:

from sklearn.cluster import KMeans
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]])

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

print(kmeans.labels_)

 总之:无监督学习在数据探索、异常检测等领域有广泛应用。

  • 强化学习:

        强化学习是一种机器学习方法,通过智能体与环境的不断交互来学习最优策略。

其核心要素包括:

  1. 智能体:做出决策和执行动作的主体。
  2. 环境:智能体所处的外部条件,会根据智能体的动作给出反馈。
  3. 奖励:环境给予智能体的反馈信号,用于衡量动作的好坏。

        常见的强化学习算法有 Q-learning 、策略梯度算法等。

        以下是一个简单的 Q-learning 示例代码:

import numpy as np

# 环境的状态数量
num_states = 5
# 动作数量
num_actions = 2
# 学习率
learning_rate = 0.1
# 折扣因子
discount_factor = 0.9
# 迭代次数
num_episodes = 1000

# 初始化 Q 表
q_table = np.zeros((num_states, num_actions))

# Q-learning 算法
for episode in range(num_episodes):
    state = np.random.randint(0, num_states)
    while True:
        action = np.argmax(q_table[state])
        next_state = np.random.randint(0, num_states)
        reward = np.random.rand()  # 模拟随机奖励

        # Q 值更新
        q_table[state, action] = (1 - learning_rate) * q_table[state, action] + \
                                 learning_rate * (reward + discount_factor * np.max(q_table[next_state]))

        state = next_state
        if state == num_states - 1:
            break

2.数据预处理

  • 数据清洗

        数据清洗是指在数据分析和挖掘过程中对数据进行清理、处理和整理的过程。它包括去除重复数据、处理缺失值、处理异常值、统一数据格式以及其他清理操作,旨在确保数据的准确性、完整性和一致性,从而提高数据的质量和可靠性。

简单的数据清洗流程包括以下步骤:

  1. 去除重复数据:通过识别和删除数据集中的重复行,确保数据集中不包含重复信息。

  2. 处理缺失值:识别数据中的缺失值,并通过填充、删除或插值等方式处理缺失数据,以维持数据集的完整性。

  3. 处理异常值:检测和处理数据中的异常值,可以通过统计方法或基于领域知识进行处理,以保证数据的准确性和稳定性。

  4. 数据格式标准化:统一数据格式,包括日期格式、文本格式、数值格式等,以便后续分析和处理。

代码示例: 

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 去除重复数据
data.drop_duplicates(inplace=True)

# 处理缺失值
data.dropna(inplace=True)

# 处理异常值(假设异常值为超过3倍标准差的数据)
mean = data['column_name'].mean()
std = data['column_name'].std()
data = data[~(data['column_name'] > mean + 3 * std)]

# 数据格式标准化(假设日期格式统一为yyyy-mm-dd)
data['date_column'] = pd.to_datetime(data['date_column'], format='%Y-%m-%d')

# 保存清洗后的数据
data.to_csv('cleaned_data.csv', index=False)

        这段代码演示了如何使用Pandas库对数据进行简单的清洗操作,包括去重、处理缺失值、处理异常值和数据格式标准化。在实际应用中,清洗操作会根据具体数据和需求进行定制。 


  • 特征工程

        特征工程是将原始数据转换为更能代表问题本质的特征的过程,从而提升模型的性能和效果。

主要包括以下几个方面:

  1. 特征提取:从原始数据中提取有意义的特征。例如,从文本数据中提取词频、词性等特征。
  2. 特征构建:通过组合、变换现有特征来创建新的特征。比如,对两个数值特征进行乘法或加法运算得到新特征。
  3. 特征选择:从众多特征中选择对模型预测最有帮助的特征,去除冗余或无关的特征,以减少计算量和避免过拟合。
  4. 特征缩放:将特征值缩放到一定的范围,例如标准化或归一化,使不同特征在数值上具有可比性。

        以下是一个简单的特征缩放的代码示例,使用 Python 的 sklearn 库进行标准化:

from sklearn.preprocessing import StandardScaler
import numpy as np

# 原始数据
data = np.array([[1, -1, 2],
                 [2, 0, 0],
                 [0, 1, -1]])

# 创建 StandardScaler 对象
scaler = StandardScaler()

# 进行标准化
scaled_data = scaler.fit_transform(data)

print(scaled_data)

        打印出的scaled_data是对原始数据进行标准化后的结果。每一列的数据都经过标准化处理,使得数据的均值为0,方差为1。 特征工程在机器学习中至关重要,直接影响模型的学习能力和泛化能力。

  • 数据归一化与标准化

        数据归一化和标准化是数据预处理中常用的两种方法,用于将数据转换到特定的范围或分布,以提高模型的性能和稳定性。

        1. 数据归一化(Min-Max Scaling)

        将数据映射到[0, 1]区间。

        公式:X_normalized = (X - X_min) / (X_max - X_min)

        优点:

                1.对数据的分布没有要求。

                2.保持了原始数据的相对大小关系。

        2. 数据标准化(Z-Score Normalization)

        使数据符合均值为 0,标准差为 1 的标准正态分布。

        公式:X_standardized = (X - X_mean) / X_std

优点:

  1. 适用于数据符合正态分布的情况。
  2. 对异常值的敏感度相对较低。

        以下是使用 Python 的 sklearn 库进行数据归一化和标准化的示例代码:

from sklearn.preprocessing import MinMaxScaler, StandardScaler
import numpy as np

# 原始数据
data = np.array([[1, -1, 2],
                 [2, 0, 0],
                 [0, 1, -1]])

# 数据归一化
min_max_scaler = MinMaxScaler()
normalized_data = min_max_scaler.fit_transform(data)
print("归一化后的数据:")
print(normalized_data)

# 数据标准化
standard_scaler = StandardScaler()
standardized_data = standard_scaler.fit_transform(data)
print("标准化后的数据:")
print(standardized_data)

         在实际应用中,根据数据的特点和模型的需求选择合适的数据缩放方法。

3.评估指标 

  • 准确率、召回率、F1 值

        准确率(Accuracy):表示模型预测正确的结果(包括正例预测正确和负例预测正确)占总预测结果的比例。它反映了模型整体的预测准确性,但在正负例不平衡的情况下可能不太能准确反映模型性能。

公式:准确率 = (正确预测的正例和负例数量) / (总样本数量)

优点:简单直观,易于理解。

局限性:在类别不平衡的情况下,可能会产生误导。例如,如果负例样本数量远远大于正例样本数量,即使模型总是预测为负例,准确率也可能较高,但实际上对正例的预测效果很差。


        召回率(Recall):对于正例,召回率指的是模型正确预测为正例的数量占实际正例总数的比例。召回率重点关注的是模型能够找到多少真正的正例。

公式:召回率 = (正确预测的正例数量) / (实际的正例数量)

优点:关注模型对正例的发现能力。

局限性:单独使用召回率可能会导致模型过度预测为正例,从而引入大量的误报。


        F1 值(F1-score):F1 值是准确率和召回率的综合考量。它是准确率和召回率的调和平均数,用于平衡准确率和召回率在评估模型性能时的重要性。当需要同时兼顾准确率和召回率时,F1 值是一个很有用的指标。

公式:F1 值 = 2 * (准确率 * 召回率) / (准确率 + 召回率)

优点:平衡了准确率和召回率,在需要同时考虑这两个指标时是一个很好的综合评价指标。

        例如,在一个疾病诊断的模型中,如果只追求准确率,可能会导致很多患病的人被漏诊(低召回率);如果只追求召回率,可能会把很多健康的人误诊为患病(低准确率)。而 F1 值可以综合评估模型在这两个方面的表现。


        举个例子,假设要判断一封邮件是否为垃圾邮件,有 100 封邮件,其中 20 封是垃圾邮件。模型预测了 30 封垃圾邮件,其中 15 封确实是垃圾邮件。

        准确率 = (正确预测的垃圾邮件和正常邮件数量)/ 总邮件数量 = (15 + 70)/ 100 = 85%

        召回率 = 正确预测的垃圾邮件数量 / 实际的垃圾邮件数量 = 15 / 20 = 75%

        F1 值 = 2 * (准确率 * 召回率)/ (准确率 + 召回率) ,通过计算得出。

  • 均方误差、平均绝对误差

        1. 均方误差(Mean Squared Error,MSE)

                均方误差是预测值与真实值之差的平方的平均值。

                公式:MSE = (1/n) * Σ (y_pred - y_true)^2

                其中,y_pred 是预测值,y_true 是真实值,n 是样本数量。

        优点:对误差进行了平方,放大了较大误差的影响,使得模型对大误差更加敏感,有助于突出严重的预测错误。

        缺点:对异常值较为敏感。


        2. 平均绝对误差(Mean Absolute Error,MAE)

                平均绝对误差是预测值与真实值之差的绝对值的平均值。

                公式:MAE = (1/n) * Σ |y_pred - y_true|

        优点:对异常值相对不那么敏感,更能反映预测值的平均误差水平。

        缺点:对小误差的重视程度相对较低。

以下是使用 Python 计算均方误差和平均绝对误差的示例代码:

import numpy as np

def mean_squared_error(y_true, y_pred):
    return np.mean((y_true - y_pred) ** 2)

def mean_absolute_error(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))

# 真实值
y_true = np.array([1, 2, 3, 4, 5])
# 预测值
y_pred = np.array([1.5, 2.2, 2.8, 4.1, 4.7])

print("均方误差:", mean_squared_error(y_true, y_pred))
print("平均绝对误差:", mean_absolute_error(y_true, y_pred))

  •  ROC 曲线、AUC 值

                1. ROC 曲线(Receiver Operating Characteristic Curve)

        ROC 曲线是通过不断改变分类器的阈值,以假正例率(False Positive Rate,FPR)为横轴,真正例率(True Positive Rate,TPR)为纵轴绘制的曲线。

                真正例率(TPR) = 真正例数量 / (真正例数量 + 假反例数量)

                假正例率(FPR) = 假正例数量 / (假正例数量 + 真反例数量)

        ROC 曲线越靠近左上角(即 TPR 高,FPR 低),分类器性能越好。


                2. AUC 值(Area Under the Curve)

        AUC 值是 ROC 曲线下的面积,AUC 值越大,说明分类器的性能越好。AUC = 1 表示完美分类器,AUC = 0.5 表示随机分类器。

        以下是使用 Python 绘制 ROC 曲线和计算 AUC 值的简单示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression

# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0, n_informative=2,
                           random_state=42, n_clusters_per_class=1)

# 训练逻辑回归模型
model = LogisticRegression()
model.fit(X, y)

# 预测概率
y_pred_proba = model.predict_proba(X)[:, 1]

# 计算 ROC 曲线的 FPR、TPR 和阈值
fpr, tpr, thresholds = roc_curve(y, y_pred_proba)

# 计算 AUC 值
roc_auc = auc(fpr, tpr)

# 绘制 ROC 曲线
plt.figure()
lw = 2
plt.plot(fpr, tpr, color='darkorange', lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()


 总结:

        机器学习理论基础涵盖了多个关键方面:

        首先是机器学习的定义与分类,包括监督学习、无监督学习和强化学习等主要类型,每种类型都有其独特的特点和应用场景。

        在数据处理方面,数据预处理至关重要,涉及数据清理以处理错误、缺失值和重复数据,特征工程用于提取、构建、选择和缩放特征,以及数据归一化和标准化来规范数据。

        评估指标用于衡量模型性能,如准确率、召回率、F1 值用于分类任务,均方误差、平均绝对误差用于回归任务,ROC 曲线和 AUC 值也提供了综合的评估视角。

        这些理论基础为理解和应用机器学习算法,构建有效和可靠的模型提供了必要的知识和工具。

“谁不和我们一起就是反对我们,中立的人最危险。” ——《弗拉基米尔-伊里奇-列宁》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/708621.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

英格索兰IC12D3A1AWS-A控制器过热维修

在现代工业生产中,拧紧控制器作为一种自动控制工具,被广泛应用于汽车、航空、电子等领域。然而,在使用过程中,可能会出现IngsollRang拧紧控制器过热故障,影响生产效率和产品质量。 【拧紧设备维修】【英格索兰IngsollR…

js: 百度云BOS 分片上传

百度云BOS存储后怎么查看或下载呢? // 1) 查看登录到百度智能云控制台 – 对象存储BOS”服务–选择一个Bucket,进入后可以查看该Bucket下的所有文件和文件夹。 2)下载OS浏览器端不支持批量下载,可以通过以下方式下载文件(使用BOS桌…

VirtualBox、Centos7下安装docker后pull镜像问题

Docker安装篇(CentOS7安装)_docker 安装 centos7-CSDN博客 首先,安装docker可以根据这篇文章进行安装,安装完之后,我们就需要去通过docker拉取相关的服务镜像,然后安装相应的服务容器,比如我们通过docker来安装mysql,…

工业烤箱设备厂家:专业制造,助力工业发展

随着现代工业的不断发展,工业烤箱设备在各个领域的应用越来越广泛。作为专业的工业烤箱设备厂家,我们致力于为客户提供高质量、高效率的烤箱设备,助力工业生产的顺利进行。 工业烤箱设备在工业生产中扮演着至关重要的角色。无论是电子、化工、…

Web应用安全测试-业务逻辑缺陷

Web应用安全测试-业务逻辑缺陷 密码修改/重置流程跨越 漏洞描述:密码修改功能常采用分步骤方式来实现,攻击者在未知原始密码的情况下绕过某些检验步骤修改用户密码。 测试方法: 完成修改/重置密码的正常流程;绕过检…

机器视觉:光源的类型以及主要参数

光源在机器视觉中起着决定性的作用,决定了视觉算法的复杂性,也决定了视觉系统的精度和稳定性。光源用于突出目标物体的特征,增加目标物体与背景的对比度,克服环境光线的干扰。光源的选择与打光方式在视觉系统的前期评估中非常重要…

自然语言处理领域的重大挑战:解码器 Transformer 的局限性

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

frp55版本如何配置泛域名

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 前言 之前配置的好好的frp,结果到用的时候不能用了,直接影响了我早上的一堆rss订阅源不能用,群里的新闻简报也没有正常推送,今天又翻出来捋…

如何将NextJs中的File docx保存到Prisma ORM

背景/引言 在现代 Web 开发中,Next.js 是一个备受欢迎的 React 框架,它具有许多优点,如: 服务器端渲染 (SSR):Next.js 支持服务器端渲染,可以提高页面加载速度,改善 SEO,并提供更好…

计算机网络 —— 运输层(UDP和TCP)

计算机网络 —— 运输层(UDP和TCP) UDPTCPUDP和TCP的异同点相同点不同点 我们今天来看运输层的两个重要的协议——UDP和TCP UDP UDP,全称为用户数据报协议(User Datagram Protocol),是互联网中一种核心的…

Day07-06_13【CT】LeetCode手撕—1. 两数之和

目录 题目1-思路2- 实现⭐1. 两数之和——题解思路 3- ACM实现 题目 原题连接:1. 两数之和 1-思路 哈希表 利用哈希表存储 key 数组元素值 ——> value 数组下标遍历数组 2- 实现 ⭐1. 两数之和——题解思路 class Solution {public int[] twoSum(int[] nums…

【MySQL】E-R图-关系数据模型-3NF--精讲+练习(巨全面)

一.知识储备 E-R图 E-R图,即实体-关系图(Entity-Relationship Diagram),是数据库建模的一种工具,用于表示实体类型、属性以及它们之间的关系。 在E-R图中,实体用矩形表示,属性用椭圆表示&…

【精品方案】离散型制造行业智能工厂标准解决方案(49页 PPT)

引言:随着科技的不断进步和制造业的转型升级,离散型制造行业正面临着从传统制造向智能制造转型的迫切需求。离散型制造行业涉及的产品种类繁多,生产流程复杂,对生产效率、产品质量和成本控制有着极高的要求。因此,开发…

Nginx部署Vue项目css文件能加载但是不生效

目录 问题描述问题解决 问题描述 Nginx部署打包后的Vue项目css文件能加载但是不生效, 问题解决 查看响应标头,发现不对劲, Content-Type: text/plain正确的应该是 Content-Type: text/css根本原因是nginx没有告诉浏览器正确的文件类型 所…

大厂Java面试题:详细描述MyBatis缓存的实现原理

大家好,我是王有志。今天给大家带来的是一道来自光大科技的 MyBatis 面试题:详细描述MyBatis缓存的实现原理。 在通过源码分析 MyBatis 一二级缓存的实现原理前,我先给出我的回答。 首先是 MyBatis 一级缓存的实现原理: MyBaits…

vscode插件开发之 - menu配置

上一遍博客介绍了如何从0到1搭建vscode插件开发的base code,这遍博客将重点介绍如何配置menu。通常,开发一款插件,会将插件显示在VSCode 左侧的活动栏(Activity Bar),那么如何配置让插件显示在Activity Bar…

[Shell编程学习路线]——深入理解Shell编程中的变量(理论与实例)

🏡作者主页:点击! 🛠️Shell编程专栏:点击! ⏰️创作时间:2024年6月12日11点40分 🀄️文章质量:95分 文章目录 ————前言———— 1 自定义变量 🫠…

数据结构笔记39-48

碎碎念:想了很久,不知道数据结构这个科目最终该以什么笔记方式呈现出来,是纸质版还是电子版?后来想了又想,还是电子版吧?毕竟和计算机有关~(啊哈哈哈哈哈哈哈) 概率论已经更新完了&…

为国产加油:“缺芯少屏”暂缓,另一领域,也要加把劲

说起咱中国之前的“缺芯少屏”,真的是让人挺闹心的。 不过呢,为了改变这个状况,咱们的工程师们可是费了不少劲儿,辛辛苦苦努力了数十年。现在好了,咱们也迎来了柔性屏的时代。 柔性屏 说起来,在触摸屏或者…

消费者消费数据时报错:INVALID_REPLICATION_FACTOR

今天部署了kafka集群,三台服务器,启动后,生产者发送数据,消费者接收数据的时候报错,INVALID_REPLICATION_FACTOR。 查了很多资料,说是要改kafka下config目录的server.properties,可能是副本数太小&#xff…