sklearn【AUC-ROC】原理，以及绘制ROC曲线！

一、AUC-ROC 介绍

在分类任务中，特别是当数据集中的类别分布不平衡时，评估模型的性能变得尤为重要。AUC-ROC（Area Under the Receiver Operating Characteristic Curve，受试者工作特征曲线下的面积）是一种有效的评估指标，能够全面反映模型在不同分类阈值下的性能，并特别适用于不平衡类别的场景。本文将介绍如何使用sklearn库来计算AUC-ROC，并解释其背后的计算原理。

首先，我们需要理解AUC-ROC的计算方式和其背后的含义。AUC-ROC是通过绘制ROC曲线并计算其下的面积来得到的。

ROC曲线是真正例率（True Positive Rate，TPR）和假正例率（False Positive Rate，FPR）在不同分类阈值下的关系曲线。TPR是真正例占所有正例的比例，FPR是假正例占所有反例的比例。

AUC-ROC的值越接近1，表示模型的性能越好，能够更好地区分正例和反例。

在sklearn库中，我们可以使用roc_auc_score函数来计算AUC-ROC。下面我们将通过一个简单的例子来演示如何使用这个函数。

二、案例学习

首先，我们需要准备数据集和分类模型。在这个例子中，我们将使用sklearn自带的乳腺癌数据集（Breast Cancer Wisconsin dataset），并使用逻辑回归作为分类器。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 加载乳腺癌数据集
cancer = datasets.load_breast_cancer()
X = cancer.data
y = cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建逻辑回归模型
model = LogisticRegression(solver='liblinear')

# 使用训练数据进行训练
model.fit(X_train, y_train)

接下来，我们将使用模型对测试集进行预测，并计算预测为正例的概率。这些概率将用于绘制ROC曲线。

# 对测试集进行预测概率的估计
y_pred_prob = model.predict_proba(X_test)[:, 1]

然后，我们可以使用roc_curve函数来计算真正例率和假正例率，并使用这些值来绘制ROC曲线。

# 计算真正例率（TPR）和假正例率（FPR）
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)

# 计算AUC-ROC的值
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure()
lw = 2
plt.plot(fpr, tpr, color='darkorange', lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic Example')
plt.legend(loc="lower right")
plt.show()