选择题
-
下面属于决策树的后剪枝的是?【 正确答案: A】
A. 把数据集分成测试集和训练集,用测试集构建一个足够大的决策树,用测试集判断叶节点合并是否能降低误差。
B. 当树到达一定深度的时候停止生长。
C. 当前节点的样本数量小于某个阈值时,停止生长
D. 计算每次分裂后的准确率,当小于某个阈值时,停止生长 -
请简要解释什么是信息增益比(Gain Ratio)? 【 正确答案: C】
A. 信息增益比是一种用于衡量在特定特征条件下减少的不确定性或熵的指标。
B. 信息增益比是一种算法,用于决策树分类中的特征选择。
C. 信息增益比是信息增益除以分裂信息的比值。
D. 信息增益比是一种用于计算数据集中样本数量的方法。 -
在决策树分类中,如何使用基尼指数进行特征选择? 【 正确答案: B】
A. 选择基尼指数最高的特征作为根节点。
B. 选择基尼指数最低的特征作为根节点。
C. 随机选择一个特征作为根节点。
D. 根据样本数量选择特征作为根节点。 -
请简要介绍ID3算法的基本思想和步骤。 【 正确答案: A】
A. ID3算法基于信息增益选择最佳特征,并递归构建决策树。
B. ID3算法基于基尼指数选择最佳特征,并递归构建决策树。
C. ID3算法基于信息增益比选择最佳特征,并递归构建决策树。
D. ID3算法随机选择一个特征,并递归构建决策树。 -
【 正确答案: D】
A.2
B.3
C.无值
D.1 -
决策树的预剪枝是什么条件下完成的 【 正确答案: BCD】
A.把数据集分成测试集和训练集,用测试集构建一个足够大的决策树,用测试集判断叶节点合并是否能降低误差
B.当树到达一定深度的时候停止生长
C.当前节点的样本数量小于某个阈值时,停止生长
D.计算每次分裂后的准确率,当小于某个阈值时,停止生长 -
关于基尼系数GINI,正确的是 【 正确答案: ABD】
A. 基尼系数表示样本集合中一个随机选中的样本被分错的概率
B. 越低基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率
C. Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越低
D. 基尼系数的计算公示为 -
下面关于CART算法正确的是 【 正确答案: A】
A. CART算法是分类与回归树的简称 —— 使用二元切分法来处理连续型数值
B. 使用信息增益比作为分割属性选择的标准,选择信息增益比最大的作为当前数据集的分割属性
C. 基于训练数据集生成决策树,生成的决策树要尽量大
D. 用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准 -
C4.5还使用信息增益比来代替信息增益,主要是为了解决ID3的什么问题 【 正确答案: A】
A. 在使用信息增益的时候,如果某个特征有很多取值,使用这个取值多的特征会的大的信息增益
B. 数据划分更细,模型复杂度高,出现过拟合的机率更大
C. 使用信息增益比就是为了解决偏向于选择取值较多的特征的问题
D. 用信息增益比对取值多的特征加上的惩罚,对这个问题进行了校正 -
以下说法哪些是正确的 【 正确答案: B】
A.
B.
C.
D. -
【 正确答案: BC】
A.
B.
C.
D. -
K-means 是一种迭代算法,在每次迭代中必须完成两个步骤是? 【 正确答案: CD】
A.
B.
C.
D. -
【 正确答案: AB】
A.
B.
C.
D.
判断题
-
决策树算法可以用于分类和回归问题。【正确答案:正确】
-
集成学习是一种无监督学习算法。【正确答案:错误】
-
集成学习的主要目标是降低模型的方差。【正确答案:正确】
-
集成学习中的"集成"是指将多个弱学习器组合成一个强学习器。【正确答案:正确】
-
集成学习中的"袋装" (Bagging) 技术用于减小模型的偏差。【正确答案:错误】
-
集成学习中的"提升" (Boosting) 技术是通过降低模型的方差来提高整体性能。【正确答案:错误】
-
集成学习中的随机森林是一种基于"提升(Boosting) "技术的算法。【正确答案:错误】
-
在集成学习中,基学习器之间应该是相互独立的。【正确答案:正确】
-
集成学习中的投票法 (Voting) 是一种基于多数投票原则的集成方式。【正确答案:正确】
-
决策树算法的目标是最小化信息增益。【正确答案:错误】
-
决策树算法对数据集中特征的尺度敏感。【正确答案:错误】
-
决策树算法容易过拟合,特别是在树的深度较大时。【正确答案:正确】
-
决策树算法中的节点深度越大,表示模型越简单。【正确答案:错误】
-
决策树算法可用于特征选择,提供了各特征的重要性评估。【正确答案:正确】
-
决策树算法生成的树是唯一的,不受随机因素的影响。【正确答案:错误】
-
在决策树算法中,信息增益用于选择最优划分特征。【正确答案:正确】
-
集成学习的优势之一是一定能够提高单个模型的性能。【正确答案:错误】
简答题
-
决策树如何处理过拟合问题?
- 剪枝(Pruning)
- 限制树的深度
-
决策树是如何进行特征选择的?
- 信息增益
- 基尼指数
- 均方差
-
什么是决策树算法,它是如何进行分类或回归的?
- 决策树算法是一种基于树状结构的监督学习算法,用于解决分类和回归问题。
- 分类时,通过对输入样本的特征进行逐层测试,根据测试结果沿着相应的分支移动,最终到达叶节点,从而确定样本的类别。对于回归问题,叶节点上存储的是该叶节点上所有样本的平均值或其他汇总值。