Python在AI中的应用--使用决策树进行文本分类
- 文本分类
- 决策树
- 什么是决策树
- scikit
- 算法
- 使用scikit的决策树进行文章分类
- 一个文本分类的Python代码
- 使用的scikit APIs说明
- 装入数据集
- 决策树算法类
- 类构造器:
- 构造决策树分类器
- 产生输出
- 评估输出结果
- 分类准确度
- 分类文字评估报告
文本分类
文本分类是将文本文档分类为预定义类别的过程。
文本分类涉及,根据文本文档的内容,为其分配预定义的类别或标签。
决策树
决策树是分层树结构,它根据输入特征的值,递归地划分特征空间。由于其简单性、可解释性和处理非线性关系的能力,它们特别适合分类任务。
决策树为文本分类提供了清晰易懂的模型,使其成为可解释性与预测能力同样重要的任务的绝佳选择。然而,它们固有的简单性,可能会在处理非常复杂,或微妙的文本数据时,带来挑战。
什么是决策树
决策树是一种非参数监督学习算法,可用于分类和回归任务。它具有分层的树结构,由根节点、分支、内部节点和叶节点组成。
看下列的一个例子,假设您正在尝试评估是否一个动物是家猫,您可以使用以下决策规则来做出选择:
这种类型的流程图结构还创建了一种易于理解的决策表示形式,使组织中的不同团队能够更好地理解做出决策的原因。
决策树学习采用分而治之的策略,通过进行贪婪搜索,识别树内的最佳分裂点。然后以自上而下、递归的方式,重复此拆分过程,直到所有,或大多数记录都被分类到特定的类标签下。是否所有数据点都被分类为同质集,很大程度上取决于决策树的复杂性。较小的树更容易获得纯叶节点,即单个类中的数据点。
随着树的大小增长,保持这种纯度变得越来越困难,并且通常会导致给定子树内的数据太少。发生这种情况时,称为数据碎片,通常会导致过度拟合。因此,决策树对小树有偏好,这与奥卡姆剃刀中的简约原则是一致的;也就是说,“如无必要,不应增加实体”。换句话说,决策树仅在必要时,才应增加复杂性,因为最简单的解释通常是最好的。为了降低复杂度,并防止过度拟合,通常会采用剪枝的方法;这是一个过程,它删除了在重要性较低的特征上分裂的分支。然后可以通过交叉验证过程来评估模型的拟合度。
决策树保持准确性的另一种方法是通过随机森林算法形成集成;该分类器可以预测更准确的结果,特别是当各个树彼此不相关时。
scikit
Scikit-learn 是一个流行且强大的机器学习库,拥有大量算法,以及用于 ML 可视化、预处理、模型拟合、选择和评估的工具。
- 算法:包括各种分类、回归和聚类算法,例如支持向量机、随机森林、梯度提升、k-means 和 DBSCAN
- 工具:提供模型拟合、选择、评估和数据预处理的工具
- 集成:与其他 Python 库集成良好,例如 NumPy、SciPy、Pandas 和 Matplotlib
- 易于使用:拥有一致的 API、广泛的文档和许多在线教程
- 平台:适用于 Linux、MacOS 和 Windows
算法
Scikit-learn 基于 NumPy、SciPy 和 matplotlib 构建,具有许多用于分类、回归和聚类的有效算法。
其中包括支持
-
支持向量机(Support Vector Machines),支持向量机 (SVM) 算法是一种监督机器学习算法,通过查找,将数据点分为不同类的超平面,来对数据进行分类。目标是,最大化超平面和每个类最近的数据点之间的距离。
-
雨林(rain forests), 是一种当数据集太大,而无法容纳在内存中时,通过分割分割数据集,构建决策树的说法,不需要整个数据集,来做出分裂决策,只需要一些汇总信息,比如·一个属性的AVC集,如果有更多内存,可以使为属性 AVC组。
-
梯度提升(Gradient boosting),梯度提升是一种机器学习算法,它结合多个弱模型,来创建更准确、更高效的预测模型。这是一种强大的技术,用于解决复杂的回归和分类问题。
-
k 均值(K-means),K-means 是一种无监督学习算法。它试图在数据中找到离散的分组,在同一组中的成员彼此尽可能相似,并且与其他组的成员尽可能不同。
-
DBSCAN(Density-based spatial clustering of applications with noise),DBSCAN是一种基于密度的聚类算法,它根据数据点彼此的接近程度,将数据点分组在一起。它的工作原理是,识别核心点,并在它们周围扩展集群,核心点就是指定半径内,具有最少数量相邻点的点。
AVC(Attribute-Value Class)集是RainForest提供了一个重要的概念。 AVC特定n个节点的属性集合,由具有不同属性值a和的数据的数量来表征不同的班级。第n个节点的AVC组是由具有第n个节点的所有AVC集合组成的组合集合。和AVC 集的定义,RainForest 算法设法区分决策树中的可扩展性问题来自决策树的质量问题。
Scikit-learn 因其一致且高效设计的 API、大多数算法的广泛文档,以及大量在线教程而拥有相对易于开发的优势。
当前版本可用于流行的平台,包括 Linux、MacOS 和 Windows。
使用scikit的决策树进行文章分类
在 Python 中使用决策树进行文本分类,我们将使用流行的 20 Newsgroups 数据集。该数据集包含大约 20,000 个新闻组文档,分为 20 个不同的新闻组。我们将使用 scikit-learn 获取数据集,预处理文本,使用 TF-IDF 向量化将其转换为特征向量,然后应用决策树分类器进行分类。
一个文本分类的Python代码
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt
import numpy as np
class TEXT_CATALOG():
DATA_HOME='C:\devs\python_devs\server_client\multi_threads\scikit_dataset'
def load_dataset(self):
self.categories = ['sci.crypt', 'rec.autos', 'comp.graphics', 'sci.med', 'misc.forsale']
data = self.newsgroups_train = fetch_20newsgroups(data_home=TEXT_CATALOG.DATA_HOME, subset='train', categories=self.categories, remove=('headers', 'footers', 'quotes'))
self.newsgroups_test = fetch_20newsgroups(data_home=TEXT_CATALOG.DATA_HOME, subset='test', categories=self.categories, remove=('headers', 'footers', 'quotes'))
def feature_extraction(self):
vectorizer = TfidfVectorizer(stop_words='english')
self.X_train = vectorizer.fit_transform(self.newsgroups_train.data)
self.X_test = vectorizer.transform(self.newsgroups_test.data)
self.y_train = self.newsgroups_train.target
self.y_test = self.newsgroups_test.target
def class_plot(self):
class_distribution = np.bincount(self.y_train)
plt.bar(range(len(class_distribution)), class_distribution)
plt.xticks(range(len(class_distribution)), self.newsgroups_train.target_names, rotation=45)
plt.title('Distribution of Classes in Training Set')
plt.xlabel('Class')
plt.ylabel('Number of Documents')
plt.show()
def decision_tree(self):
self.clf = DecisionTreeClassifier(random_state=42)
self.clf.fit(self.X_train, self.y_train)
def apply_metrics(self):
y_pred = self.clf.predict(self.X_test)
# Evaluate the model
print("Accuracy:", accuracy_score(self.y_test, y_pred))
print("\nClassification Report:\n", classification_report(self.y_test, y_pred, target_names=self.newsgroups_test.target_names))
def run_catalog(self):
self.load_dataset()
self.feature_extraction()
self.decision_tree();
self.apply_metrics();
self.class_plot()
if __name__ == "__main__":
cat = TEXT_CATALOG()
cat.run_catalog()
使用的scikit APIs说明
装入数据集
scikit-learn提供了20个新闻组文本数据集。该数据集包含关于20个主题的,约18000个新闻组帖子,分为两个子集:一个用于训练,一个用于测试。
为了简单并降低计算成本,我们选择 7 个主题的子集并仅使用训练集。
scikit-learn提供了下列的Python API装入数据集
词法: sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset=‘train’, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False)
参数说明
- data_home,str 或类似路径,默认=无,指定数据集的下载和缓存文件夹。如果没有,所有 scikit-learn 数据都存储在“~/scikit_learn_data”子文件夹中。
- subset,子集{‘训练’,‘测试’,‘全部’},默认=‘训练’,选择要加载的数据集:“train”表示训练集,“test”表示测试集,“all”表示两者,并且排序已打乱。
- categories,类数组,dtype=str,默认=None如果无(默认),则加载所有类别。如果不是“无”,则要加载的类别名称列表(忽略其他类别)。
- shufflebool,默认=True,是否对数据进行洗牌:对于假设样本独立且同分布 (i.i.d.) 的模型可能很重要,例如随机梯度下降。
- random_state,int,RandomState实例或None,默认= 42 确定数据集改组的随机数生成。传递一个 int 以在多个函数调用中实现可重现的输出。请参阅术语表。
- remove,删除元组,默认=() 可以包含(“页眉”、“页脚”、“引号”)的任何子集。每一种文本都会被检测到并从新闻组帖子中删除,以防止分类器过度拟合元数据。“headers”删除新闻组标题,“footers”删除帖子末尾看起来像签名的块,“quotes”删除似乎引用其他帖子的行。“标题”遵循精确的标准;其他过滤器并不总是正确的
- download_if_missingbool,默认=True, 如果为 False,则在数据在本地不可用时引发 OSError,而不是尝试从源站点下载数据。
- return_X_y,bool,默认=False。如果为 True,则返回 (data.data, data.target) 而不是 Bunch 对象。
返回值说明
类似字典的对象,具有以下属性。
- datalist,形状数据列表 (n_samples,) 学习资料清单。
- target:,形状为 (n_samples,) 的 ndarray目标标签。
- filenames,形状列表(n_samples,)数据位置的路径。
- DESCR, str 数据集的完整描述。
- target_names:形状列表(n_classes,)目标类的名称。
- (data, target),元组如果 return_X_y=True,两个 ndarray 的元组。第一个包含形状 (n_samples, n_classes) 的二维数组,每行代表一个样本,每列代表特征。第二个形状数组 (n_samples,) 包含目标样本。
决策树算法类
类构造器:
词法:class sklearn.tree.DecisionTreeClassifier(*, criterion=‘gini’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0, monotonic_cst=None)
参数说明
-
criterion,可选择的值为,{“gini”,“entropy”,“log_loss”},默认值为“gini”。测量分割质量的函数。支持:
“gini”, 基尼杂质
“log_loss”,香农信息增益
“entropy”,香农信息增益 -
splitter,可选择的值为,{“best”, “random”},默认值为“best”。用于在每个节点选择分裂的策略。支持的策略是
“best”,选择最佳分割
“random”,选择最佳随机分割 -
max_depth,该变量类型是int,默认值为None。表示树的最大深度。如果值为None,则扩展节点,直到所有叶子都是纯的,或直到所有叶子包含少于 min_samples_split 样本。
-
min_samples_split,该变量类型是int 或 float,默认值为2。分裂一个内部节点所需的最小样本数。
如果是 int,则将 min_samples_split 视为最小数量。
如果是浮点数,则 min_samples_split 是一个分数,而 ceil(min_samples_split * n_samples) 是每次分割的最小样本数。 -
min_samples_leaf,该变量类型是int 或 float,默认值为1。叶节点所需的最小样本数。任何深度的分割点,只有在左右分支中,至少留下min_samples_leaf训练样本时,才会考虑分割。
如果是 int,则将 min_samples_leaf 视为最小数量。
如果是浮点数,则 min_samples_leaf 是一个分数,ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。 -
min_weight_fraction_leaf,该变量类型是float,默认值为0.0。叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。
-
max_features,该变量类型是int、float 或 {“sqrt”、“log2”},默认值为None。寻找最佳分割时,要考虑的特征数量:
如果是int,则考虑每次分割的max_features个特征。
如果是浮点型,则 max_features 是一个分数,每次分割考虑 max(1, int(max_features * n_features_in_)) 个特征。
如果“sqrt”,则 max_features=sqrt(n_features)。
如果“log2”,则 max_features=log2(n_features)。
如果None,则 max_features=n_features。 -
random_state,该变量类型是int,RandomState实例或None,默认值为None。控制估计器的随机性。即使分割器设置为“best”,在每次拆分时,总是随机排列这些特征。当 max_features < n_features 时,在找到最佳分割之前,算法将在每次分割时,随机选择 max_features个特征。但是,即使 max_features=n_features,找到的最佳分割,也可能在不同的运行中,有所不同。为了在拟合过程中,获得确定性行为,random_state 必须固定为一个整数。
-
max_leaf_nodes,该变量类型是int,默认值为None。以最佳优先的方式,产生具有 max_leaf_nodes 的树。最佳节点定义为,相对杂质更少的节点。如果值为None,则叶节点数量不受限。
-
min_impurity_decrease,该变量类型是float,默认值为0.0。如果分裂导致杂质减少大于或等于该值,则节点将被分裂。加权杂质减少方程如下:
N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)
其中N是样本总数,N_t是当前节点的样本数,N_t_L是左子节点中的样本数,N_t_R是右子节点中的样本数。
如果传递了sample_weight,则N、N_t、N_t_R和N_t_L均指加权和 -
class_weightdict,dict, list of dict or “balanced”,默认值为None。以{class_label:weight}形式,与类关联的权重。如果值是None,则所有类别的权重都应该为1。对于多输出问题,可以按照与 y 的列相同的顺序,提供字典列表。
对于多输出,应为其自己的字典中,每列的每个类定义权重。例如,对于四类多标签分类,权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}],而不是 [{1:1}、{2:5}、{3:1}、{4:1}]。
“balanced”模式,使用 y 的值自动调整权重,它们与输入数据中的类别频率成反比,即 n_samples / (n_classes * np.bincount(y))
对于多输出,y的每一列的权重都会相乘。
如果指定了sample_weight,这些权重将与sample_weight相乘。 -
ccp_alpha,non-negative float,默认值为0.0。是一个复杂性参数,用于最小成本复杂性剪枝。选择具有最大成本复杂度小于ccp_alpha的子树。默认情况下,不执行剪枝。
-
monotonic_cst,array-like of int of shape (n_features),默认值为None。指示对每个特征强制执行的单调性约束。
1:单调增加
0:无限制
-1:单调递减
如果 monotonic_cst 为 None,则没有任何约束。不支持单调性约束:
多类分类(即当 n_classes > 2 时),
多输出分类(即当 n_outputs_ > 1 时),
对缺失值的数据进行分类训练。
构造决策树分类器
fit(X, y, sample_weight=None, check_input=True),从训练数据集 (X, y) ,构建决策树分类器。
参数说明
-
X,{array-like, sparse matrix} of shape (n_samples, n_features)。X是训练输入样本。在内部,它将转换为 dtype=np.float32 并且如果将稀疏矩阵提供给稀疏 csc_matrix。
-
y,array-like of shape (n_samples,) or (n_samples, n_outputs)。y是目标值或类标签,值为整数,或字符串。
-
sample_weight,形状类似数组 (n_samples,),默认值为None。是样本权重。如果值是None,则样本的权重相等。在每个节点中搜索分割时,如果分割产生的子节点的权重为零或负值,则不进行分割。如果拆分会导致,任何子节点中的任何单个类有负权重,则也不进行分割。
-
check_input,该变量类型是bool,默认值为True。允许绕过多个输入检查。除非您知道自己在做什么,否则不要使用此参数。
产生输出
词法:predict(X, check_input=True)
predict对测试数据集X做出预测,返回类,或回归值。
对于分类模型,返回 X 中每个样本的预测类别。对于回归模型,返回基于 X 的预测值。
参数说明
-
X,{array-like, sparse matrix} of shape (n_samples, n_features)。X是测试的输入样本。在内部,它将转换为 dtype=np.float32。
-
check_input,该变量类型是bool,默认值为True。允许绕过多个输入检查。除非您知道自己在做什么,否则不要使用此参数。
-
返回值,array-like of shape (n_samples,) or (n_samples, n_outputs)。它是预测类别,或预测值。
评估输出结果
分类准确度
sklearn.metrics.accuracy_score(y_true, y_pred, *, normalize=True, sample_weight=None)
accuracy_score给出分类准确度分数。
在多标签分类中,此函数计算子集精度:为样本预测的标签集,必须与 y_true 中相应的标签集完全匹配。
参数说明
-
y_true,1d array-like, or label indicator array / sparse matrix。正确的标签。
-
y_pred,1d array-like, or label indicator array / sparse matrix。预测标签,由分类器返回。
-
normalize,该变量类型是bool,默认值为True。如果为 False,则返回正确分类的样本数。否则,返回正确分类样本的分数。
-
sample_weight,array-like of shape (n_samples,),默认值为None。样本权重。
-
返回,返回值类型是float or int。
如果normalize == True,则返回正确分类样本的分数(float),否则,返回正确分类样本的数量(int)。最佳性能为 1。
分类文字评估报告
词法:sklearn.metrics.classification_report(y_true, y_pred, *, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False, zero_division=‘warn’)
classification_report构建显示主要分类指标的文字报告。
参数说明
-
y_true,1d array-like, or label indicator array / sparse matrix。正确的目标值。
-
y_pred,1d array-like, or label indicator array / sparse matrix。分类器返回的估计目标。
-
labels,array-like of shape (n_labels,),默认值为None。报告中的可选标签索引列表。
-
target_names,array-like of shape (n_labels,), 默认值为None。与标签匹配的可选显示名称,相同顺序。
-
sample_weight,array-like of shape (n_samples,),默认值为None。样本权重。
-
digits,该变量类型是int,默认值为2。用于格式化输出浮点值的位数。当output_dict为True时,这将被忽略,并且返回的值,将不会被舍入。
-
Zero_division,{“warn”, 0.0, 1.0, np.nan},默认值为“warn”。当除零时,zero_division就是返回值。如果设置为“warn”,则其作用为 0,但也会产生警告。
-
output_dict,该变量类型是bool,默认值为False。如果为 True,则以 dict 形式,返回输出。
-
返回,该返回类型是str 或 dict。每个类别的准确率、召回率、F1 分数的文本摘要。如果 output_dict 为 True,则返回字典。字典具有以下结构:
下面展示一些 内联代码片
。
{'label 1': {'precision':0.5,
'recall':1.0,
'f1-score':0.67,
'support':1},
'label 2': { ... },
...
}