3.5 认识决策树
3.5.1 认识决策树
如何高效的进行决策? 特征的先后顺序
3.5.2 决策树分类原理详解
已知有四个特征,预测 是否贷款给某个人。
先看房子,再看工作,是否贷款。
年龄,信贷情况,工作,是否贷款
1 原理
信息熵,信息增益等。
需要用到信息论的知识!问题:通过例子引入信息熵
信息论基础:
1)信息
香农:消除随机不定性的东西
小明 年龄 “我今年18岁” 是信息
小华 “小明明年19岁” (不是信息,因为我已经知道小明18岁)
2) 信息的衡量 ——信息量—— 信息熵
2 信息熵的定义
H的专业术语之为信息熵,单位为比特 bit
3 决策树的划分依据之一信息增益
4 决策树的划分依据——信息增益
当然决策树的原理不止信息增益这一种,还有其他方法,但是原理都类似,我们就不去举例计算。
3.5.3 决策树API
3.5.4 案例:泰坦尼克号乘客生存预测
流程分析:
特征值 目标值
1)获取数据
2)数据处理
缺失值处理
特征值——>字典类型
3)准备好特征值 目标值
4)划分数据集
5)特征工程:字典特征抽取
6)决策树预估器流程
7)模型评估
3.5.5 决策树可视化
1 保存树的结构到dot文件
3.5.6 决策树总结
优点:
简单的理解和解释,树木可视化
缺点:
决策树学习者可以创建不能很好推广数据的过于复杂的树,这被称为过拟合。
改进:
减枝cart算法(决策树API当中已经实现,随意森林参数调优有相关介绍)
随机森林
注意:企业重要决策,由于决策树很好的分析能力,在决策过程中应用较多,可以选择特征
3.5.7 总结
信息熵,信息增益的计算
DecisonTreeClassifier进行决策树的划分
export_graphviz导出到dot文件