Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

目录

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

一、简单介绍

二、scikit-learn 基础

1、安装 scikit-learn

2、导入 scikit-learn

3、数据准备

4、数据分割

5、训练模型

5.1 线性回归

5.2 逻辑回归

5.3 K 近邻算法 (KNN)

5.4 决策树

5.5 随机森林

6、模型评估

6.1 混淆矩阵

6.2 ROC 曲线

7、特征选择

7.1 使用基于树的特征选择

8、超参数调优

附录

一、scikit-learn 学习文档地址

二、scikit-learn 功能特点介绍

scikit-learn 的特点

scikit-learn 提供的主要功能

1. 数据预处理

2. 分类算法

3. 回归算法

4. 聚类算法

5. 降维算法

6. 模型选择与评估

示例:使用 scikit-learn 进行简单的分类任务

三、scikit-learn 提供的 内置数据集

示例:如何加载内置数据集


一、简单介绍

Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言,可以应用于以下领域: Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。

Python 机器学习是利用 Python 编程语言中的各种工具和库来实现机器学习算法和技术的过程。Python 是一种功能强大且易于学习和使用的编程语言,因此成为了机器学习领域的首选语言之一。Python 提供了丰富的机器学习库,如Scikit-learn、TensorFlow、Keras、PyTorch等,这些库包含了许多常用的机器学习算法和深度学习框架,使得开发者能够快速实现、测试和部署各种机器学习模型。

Python 机器学习涵盖了许多任务和技术,包括但不限于:

  1. 监督学习:包括分类、回归等任务。
  2. 无监督学习:如聚类、降维等。
  3. 半监督学习:结合了有监督和无监督学习的技术。
  4. 强化学习:通过与环境的交互学习来优化决策策略。
  5. 深度学习:利用深度神经网络进行学习和预测。

通过 Python 进行机器学习,开发者可以利用其丰富的工具和库来处理数据、构建模型、评估模型性能,并将模型部署到实际应用中。Python 的易用性和庞大的社区支持使得机器学习在各个领域都得到了广泛的应用和发展。

二、scikit-learn 基础

scikit-learn 是一个强大的 Python 机器学习库,提供了各种常见的机器学习算法和工具。它易于使用,适合初学者和专家。本文将介绍 scikit-learn 的基本概念和操作。

1、安装 scikit-learn

在开始之前,请确保已安装 scikit-learn。您可以使用以下命令安装:

pip install scikit-learn

2、导入 scikit-learn

在使用 scikit-learn 之前,需要先导入它。

import sklearn

3、数据准备

scikit-learn 提供了许多内置的数据集,可以方便地进行学习和测试。我们将使用鸢尾花数据集进行演示。

from sklearn.datasets import load_iris
import pandas as pd

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 查看前几行数据
print(df.head())
# 打印结果:
#   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target
# 0               5.1               3.5                1.4               0.2       0
# 1               4.9               3.0                1.4               0.2       0
# 2               4.7               3.2                1.3               0.2       0
# 3               4.6               3.1                1.5               0.2       0
# 4               5.0               3.6                1.4               0.2       0

请注意,实际输出结果会根据 load_iris() 函数加载的鸢尾花数据集的具体内容而有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集,该数据集包含150个样本,每个样本有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(鸢尾花种类)。
  • pd.DataFrame() 创建了一个包含数据集特征和目标的 DataFrame。
  • print(df.head()) 打印了 DataFrame 的前五行数据。这为我们提供了数据集的一个快速预览,包括特征值和对应的目标类别。

4、数据分割

将数据分为训练集和测试集是机器学习模型训练的必要步骤。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("训练集大小:", X_train.shape)
# 打印结果:
# 训练集大小: (120, 4)

print("测试集大小:", X_test.shape)
# 打印结果:
# 测试集大小: (30, 4)

请注意,实际输出结果会根据 train_test_split() 函数分割数据集的方式而有所不同,但由于我们设置了 test_size=0.2random_state=42,每次执行代码时结果应该是一致的。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集,其中测试集占总数据集的20%,训练集占80%。random_state=42 确保了每次分割的结果都是一致的。
  • print() 函数用于打印训练集和测试集的大小,X_train.shapeX_test.shape 分别提供了训练集和测试集的维度信息。由于原始数据集有150个样本,所以训练集应该有120个样本,测试集有30个样本,每个样本有4个特征。

5、训练模型

5.1 线性回归

线性回归是一种简单的回归算法,用于预测连续值。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 查看模型性能
from sklearn.metrics import mean_squared_error

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)
# 打印结果:
# 均方误差: 0.03711379440797686

请注意,实际的均方误差(MSE)值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LinearRegression() 创建了一个线性回归模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • mean_squared_error() 计算了测试集的真实值和预测值之间的均方误差。
  • print() 函数用于打印均方误差的结果,这是评估模型性能的一个指标。

5.2 逻辑回归

逻辑回归是一种常用的分类算法,适用于二分类问题。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 查看模型性能
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = LogisticRegression(max_iter=200)

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)

print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LogisticRegression() 创建了一个逻辑回归分类模型,max_iter=200 确保了模型能够收敛,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.3 K 近邻算法 (KNN)

K 近邻算法是一种简单的非参数分类算法。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = KNeighborsClassifier(n_neighbors=3)

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型,n_neighbors=3 表示选择最近的3个邻居进行投票,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.4 决策树

决策树是一种树形结构的分类和回归模型。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • DecisionTreeClassifier() 创建了一个决策树分类器模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.5 随机森林

随机森林是一种集成学习方法,通过多个决策树的组合来提高性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = RandomForestClassifier(n_estimators=100)

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

6、模型评估

在机器学习中,模型评估是非常重要的一环。以下是一些常见的评估指标和方法。

6.1 混淆矩阵

混淆矩阵用于评估分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建模型
model = RandomForestClassifier(n_estimators=100)

# 训练模型
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)

# 绘制混淆矩阵
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')

# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:混淆矩阵图已保存至 'Images/savedImage.png'

plt.show()  # 显示混淆矩阵图

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • confusion_matrix() 计算了测试集的真实值和预测值之间的混淆矩阵。
  • ConfusionMatrixDisplay()plot() 绘制了混淆矩阵的图表。
  • plt.savefig() 将混淆矩阵图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示混淆矩阵图。

6.2 ROC 曲线

ROC 曲线用于评估二分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
import matplotlib.pyplot as plt
import numpy as np

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 将目标变量二值化
y_train = label_binarize(y_train, classes=[0, 1, 2])
y_test = label_binarize(y_test, classes=[0, 1, 2])
n_classes = y_train.shape[1]

# 创建并训练模型
model = OneVsRestClassifier(RandomForestClassifier(n_estimators=100))
model.fit(X_train, y_train)

# 预测
y_score = model.predict_proba(X_test)

# 计算每个类别的 ROC 曲线和 AUC
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

# 绘制所有类别的 ROC 曲线
plt.figure()
colors = ['blue', 'green', 'red']
for i, color in zip(range(n_classes), colors):
    plt.plot(fpr[i], tpr[i], color=color, lw=2,
             label=f'ROC curve of class {i} (area = {roc_auc[i]:.2f})')

plt.plot([0, 1], [0, 1], 'k--', lw=2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve for Each Class')
plt.legend(loc='lower right')

# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:ROC图表已保存至 'Images/savedImage.png'

plt.show()  # 显示ROC图表

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • label_binarize() 将目标变量转换为二进制形式,以便进行多类别的ROC曲线绘制。
  • OneVsRestClassifier() 创建了一个一对多的分类器模型,包装了随机森林分类器,fit() 方法用于训练模型。
  • predict_proba() 方法用于获取测试集的预测概率。
  • roc_curve()auc() 计算了每个类别的ROC曲线和AUC值。
  • plt.plot() 用于绘制每个类别的ROC曲线。
  • plt.savefig() 将ROC图表保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示ROC图表。

注意:由于 ROC 曲线和 AUC 只能用于二分类问题,而鸢尾花数据集是一个三分类问题。在这种情况下,您需要将多分类问题转换为多个二分类问题,可以使用 OneVsRestClassifierOneVsOneClassifier 来处理多分类问题,或者使用每个类的 ROC 曲线。

7、特征选择

特征选择是提高模型性能的重要步骤之一。

7.1 使用基于树的特征选择
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 获取特征重要性
importances = model.feature_importances_
feature_names = X.columns

# 绘制特征重要性图
plt.barh(range(len(importances)), importances, align='center')
plt.yticks(range(len(importances)), feature_names)
plt.title('Feature Importances')

# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:特征重要性图已保存至 'Images/savedImage.png'

plt.show()

请注意,我添加了range(len(importances))来为条形图提供位置,并使用plt.yticks()将特征名称设置为y轴的刻度标签。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • 通过model.feature_importances_获取特征重要性。
  • plt.barh() 绘制了特征重要性图。
  • plt.savefig() 将特征重要性图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示特征重要性图。

8、超参数调优

使用网格搜索进行超参数调优,可以找到模型的最佳参数。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# 加载鸢尾花数据集
iris = load_iris()

# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 准备数据
X = df.drop('target', axis=1)
y = df['target']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义参数网格
param_grid = {
    'n_neighbors': [3, 5, 7, 9]
}

# 创建KNN模型
model = KNeighborsClassifier()

# 进行网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 输出最佳参数
print("最佳参数:", grid_search.best_params_)
# 打印结果:
# 最佳参数: {'n_neighbors': 3}

print("最佳准确率:", grid_search.best_score_)
# 打印结果:
# 最佳准确率: 0.9583333333333334

请注意,实际的输出结果,包括最佳参数和准确率,将取决于模型在训练数据上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型。
  • GridSearchCV() 进行网格搜索来找到最佳的参数组合,cv=5 表示使用5折交叉验证。
  • fit() 方法用于在训练集上训练网格搜索对象。
  • print() 函数用于打印出最佳的参数和准确率,这是评估模型性能的指标。

附录

一、scikit-learn 学习文档地址

scikit-learn: machine learning in Python — scikit-learn 1.5.0 documentation

二、scikit-learn 功能特点介绍

scikit-learn 是一个广受欢迎的 Python 机器学习库,因其简单易用且功能强大而备受青睐。它提供了多种常见的机器学习算法和工具,适用于数据预处理、模型训练、模型评估以及模型选择等各个环节。以下是对 scikit-learn 的详细介绍。

scikit-learn 的特点

  1. 丰富的算法:scikit-learn 包含了多种机器学习算法,包括分类、回归、聚类和降维算法。
  2. 易于使用:提供了统一且简单的接口,适合初学者快速上手,也能满足专家的复杂需求。
  3. 高效:底层基于 Cython 和 NumPy 实现,保证了计算效率。
  4. 广泛的应用:适用于学术研究、数据科学和工业应用等多个领域。

scikit-learn 提供的主要功能

1. 数据预处理

数据预处理是机器学习中的重要步骤,scikit-learn 提供了多种工具来处理数据:

  • 标准化和归一化(StandardScaler、MinMaxScaler)
  • 缺失值处理(SimpleImputer)
  • 类别编码(OneHotEncoder、LabelEncoder)
  • 特征选择(SelectKBest、RFE)
2. 分类算法

scikit-learn 提供了多种分类算法,用于预测离散标签:

  • 逻辑回归(Logistic Regression)
  • k近邻算法(k-Nearest Neighbors, KNN)
  • 支持向量机(Support Vector Machines, SVM)
  • 决策树(Decision Trees)
  • 随机森林(Random Forest)
  • 朴素贝叶斯(Naive Bayes)
  • 梯度提升(Gradient Boosting)
3. 回归算法

用于预测连续值的回归算法包括:

  • 线性回归(Linear Regression)
  • 决策树回归(Decision Tree Regressor)
  • 支持向量回归(Support Vector Regressor, SVR)
  • 随机森林回归(Random Forest Regressor)
  • 岭回归(Ridge Regression)
  • 拉索回归(Lasso Regression)
4. 聚类算法

聚类算法用于无监督学习,发现数据的内在结构:

  • k均值聚类(k-Means Clustering)
  • 层次聚类(Agglomerative Clustering)
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
  • 均值漂移(Mean Shift)
5. 降维算法

降维算法用于数据降维和特征提取:

  • 主成分分析(Principal Component Analysis, PCA)
  • 线性判别分析(Linear Discriminant Analysis, LDA)
  • 奇异值分解(Singular Value Decomposition, SVD)
  • 因子分析(Factor Analysis)
6. 模型选择与评估

scikit-learn 提供了多种工具来进行模型选择和评估:

  • 交叉验证(Cross-Validation)
  • 网格搜索和随机搜索(GridSearchCV、RandomizedSearchCV)
  • 各种评估指标(accuracy_score、mean_squared_error、confusion_matrix 等)

示例:使用 scikit-learn 进行简单的分类任务

以下是一个使用鸢尾花数据集进行分类任务的示例,展示了从数据加载、预处理到模型训练和评估的完整流程。

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# 加载数据
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 数据分割
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

# 绘制混淆矩阵
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')
plt.show()

三、scikit-learn 提供的 内置数据集

scikit-learn 提供了许多内置的数据集,这些数据集可以方便地用于学习和测试。以下是一些常见的内置数据集:

  1. Iris 数据集

    • 描述:著名的鸢尾花数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_iris()
  2. Digits 数据集

    • 描述:手写数字数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_digits()
  3. Wine 数据集

    • 描述:葡萄酒分类数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_wine()
  4. Breast Cancer 数据集

    • 描述:乳腺癌数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_breast_cancer()
  5. Boston Housing 数据集

    • 描述:波士顿房价数据集,用于回归任务。(注:该数据集已被标记为不推荐使用)
    • 加载方法sklearn.datasets.load_boston()
  6. Diabetes 数据集

    • 描述:糖尿病数据集,用于回归任务。
    • 加载方法sklearn.datasets.load_diabetes()
  7. Linnerud 数据集

    • 描述:多输出回归数据集,包括锻炼和生理数据。
    • 加载方法sklearn.datasets.load_linnerud()
  8. California Housing 数据集

    • 描述:加利福尼亚房价数据集,用于回归任务。
    • 加载方法sklearn.datasets.fetch_california_housing()
  9. 20 Newsgroups 数据集

    • 描述:20个新闻组数据集,用于文本分类任务。
    • 加载方法sklearn.datasets.fetch_20newsgroups()
  10. Olive Oil 数据集

    • 描述:橄榄油数据集,用于聚类任务。
    • 加载方法sklearn.datasets.fetch_olivetti_faces()

示例:如何加载内置数据集

以下是一些数据集的加载示例:

from sklearn.datasets import load_iris, load_digits, load_wine, load_breast_cancer, load_diabetes, load_linnerud, fetch_california_housing, fetch_20newsgroups, fetch_olivetti_faces

# 加载 Iris 数据集
iris = load_iris()
print(iris.data.shape)

# 加载 Digits 数据集
digits = load_digits()
print(digits.data.shape)

# 加载 Wine 数据集
wine = load_wine()
print(wine.data.shape)

# 加载 Breast Cancer 数据集
breast_cancer = load_breast_cancer()
print(breast_cancer.data.shape)

# 加载 Diabetes 数据集
diabetes = load_diabetes()
print(diabetes.data.shape)

# 加载 Linnerud 数据集
linnerud = load_linnerud()
print(linnerud.data.shape)

# 加载 California Housing 数据集
california_housing = fetch_california_housing()
print(california_housing.data.shape)

# 加载 20 Newsgroups 数据集
newsgroups = fetch_20newsgroups()
print(len(newsgroups.data))

# 加载 Olivetti Faces 数据集
faces = fetch_olivetti_faces()
print(faces.data.shape)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/688054.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

将web项目打包成electron桌面端教程(二)vue3+vite+ts

说明:我用的demo项目是vue3vitets,如果是vue2/cli就不用往下看啦,建议找找其他教程哦~下依赖npm下载不下来的,基本换成cnpm/pnpm/yarn就可以了 一、项目准备 1、自己新创建一个,这里就不过多赘述了 2、将需要打包成…

[matlab]折线图之多条折线如何绘制实心圆作为标记点

使用MarkerFaceColor是标记点填充的颜色,b,表示blue,蓝色 plot(x, a, d--, MarkerFaceColor, b); % 绘制仿真结果的曲线如果一张图多条曲线那么每条曲线需要单独调用一次plot,每个plot间用hold on 连接 plot(x, a, d--, MarkerF…

sick0s1.1 靶机实战

sick0s1.1 信息收集 nmap存活及端口: nmap服务扫描: web 80和8080都没有开放,,无法访问,gobuster等工具也跑不了,访问一下3128试试 根据端口服务扫描也能得知这是个http的代理服务器,&#x…

6.6SSH的运用

ssh远程管理 ssh是一种安全通道协议,用来实现字符界面的远程登录。远程复制,远程文本传输。 ssh对通信双方的数据进行了加密 用户名和密码登录 密钥对认证方式(可以实现免密登录) ssh 22 网络层 传输层 数据传输的过程中是加密的 …

js解析成语法树以及还原

const {parse} require("babel/parser"); const traverse require("babel/traverse").default; const generator require("babel/generator").default;// 1.定义要处理的代码 const jscode function square(n) {return n * n; };// 2.使用ba…

逻辑过期解决缓存击穿

我先说一下正常的业务流程:需要查询店铺数据,我们会先从redis中查询,判断是否能命中,若命中说明redis中有需要的数据就直接返回;没有命中就需要去mysql数据库查询,在数据库中查到了就返回数据并把该数据存入…

恢复误删和格式化的文件的利器

一、简介 1、一款由Piriform开发的免费文件恢复工具,它能够帮助用户恢复那些不小心从电脑上删除的文件,包括从回收站清空的文件,以及因用户错误操作而从存储设备中删除的图片、音乐、文档等多种格式的文件。Recuva支持对硬盘、闪存卡、U盘等多种存储介质进行扫描与恢复,并且…

CodeMeter助力Hilscher,推动实现全球智能制造连接解决方案

Hilscher的旗舰店为开放工业4.0联盟(OI4)社区提供了应用商店的便捷和开放性,将这一概念引入工业领域。该商店依托CodeMeter的许可证管理和加密保护,为工业用户提供了丰富的应用和解决方案库,满足他们在车间自动化和连接…

【问题分析】WMS无焦点窗口的ANR问题 + transientLaunch介绍【Android 14】

问题描述 Monkey跑出的Camera发生ANR的问题,其实跟Camera无关,任意一个App都会在此场景下发生ANR,场景涉及到Launcher的RecentsActivity界面,和transientLaunch相关。 1 log分析 看问题发生的场景: 1、Camera App的…

python基础实例

下一个更大的数 定义一个Solution类,用于实现next_great方法 class Solution: def next_great(self, nums1, nums2): # 初始化一个空字典answer,用于存储答案 answer {} # 初始化一个空列表stack,用于存储待比较的数字 stack [] # 遍历nu…

RK3568技术笔记之三 SAIL-RK3568开发板板卡功能测试

从这里开始,就是老生常谈系列之一:板卡功能测试。 放一张图镇一下帖 按照我自己顺手的方式,把这板子功能测一下。 先把开发板串口信息打印出来。 工具 功能 备注 电脑(必备) 提供使用终端软件环境 需要具备至少…

《精通ChatGPT:从入门到大师的Prompt指南》第1章:认识ChatGPT

第1章:认识ChatGPT 1.1 ChatGPT是什么 ChatGPT,全称为Chat Generative Pre-trained Transformer,是由OpenAI开发的一种先进的自然语言处理模型。它利用了深度学习中的一种技术——Transformer架构,来生成类人文本。ChatGPT通过对…

计算机组成原理(一)

冯诺依曼机器的特征: 指令和数据以同等的地位存储在存储器当中指令和数据都是二进制指令和数据都是保存在存储器当中的 存储字 每个存储单元中的数据,称为存储字 存储字长 存储单元能够存储的二进制数据的长度 在一个8位系统中,字长是…

中学生学人工智能系列:如何用AI学政治

经常有读者朋友给公众号《人工智能怎么学》留言咨询如何使用人工智能学习语文、数学、英语等科目。这些都是中学教师、中学生朋友及其家长们普遍关注的问题。仅仅使用留言回复的方式,不可能对这些问题做出具体和透彻的解答,因此本公众号近期将推出中学生…

最大矩形问题

柱状图中最大的矩形 题目 分析 矩形的面积等于宽乘以高,因此只要能确定每个矩形的宽和高,就能计算它的面积。如果直方图中一个矩形从下标为 i 的柱子开始,到下标为 j 的柱子结束,那么这两根柱子之间的矩形(含两端的柱…

EE trade:通货膨胀时期投资什么最好

当通货膨胀来袭,货币购买力下降,闲置资金贬值速度加快。为了有效抵御通货膨胀,投资者需要选择能够保值甚至增值的投资工具。以下是几种在通货膨胀环境下较为理想的投资选择: 1. 投资股票 收益性和风险性:股票虽然风险…

访问成员变量(反射)

文章目录 前言一、访问成员变量的方法二、Field类 1.常用方法2.实操展示总结 前言 为了实现随时随地调用某个类的某个成员变量,我们可以通过反射的Field类进行调用。这其中需要我们获取该类的Class对象,再调用Field类的相关方法,实时地灵活地…

时间序列新范式!多尺度+时间序列,刷爆多项SOTA

当我们面对复杂模式和多变周期的应用场景(比如金融市场分析)时,采用多尺度时间序列来做分析和预测是个更好的选择。 这是因为:传统时序方法通常只用固定时间窗口来提取信息,难以适应不同时间尺度上的模式变化。但多尺…

Ezsql(buuctf加固题)

开启环境 SSH连接 第一个为页面地址WEB服务 or 11# 利用万能密码登录 密码可以随便输入或者不输入 这里就可以判断这个题目是让我们加固这个登录页面 防止sql注入 查看index.php 添加以下代码 $username addslashes($username); $password addslashes($password);…

【C++】STL中List的基本功能的模拟实现

前言:在前面学习了STL中list的使用方法,现在我们就进一步的讲解List的一些基本功能的模拟实现,这一讲博主认为是最近比较难的一个地方,各位一起加油。 💖 博主CSDN主页:卫卫卫的个人主页 💞 👉 …