线性模型:
离散转为连续的变换:
检查是否有“序”的变化,若有“序”,则连续化;否则,转化为k维向量
最小二乘解:
多元线性回归:
广义线性模型:
线性判别分析:
由于将样例投影到一条直线(低维空间),因此也被视为一种"监督降维"技术。
多分类学习:
拆解法:将一个多分类任务拆分为若干个二分类任务求解
类别不平衡:
当要丢掉的小类的价值更好时我们才需要处理
常见的类别不平衡学习方法:
过采样:使小类增加,增加到与大类一样多
欠采样:使大类变小,使得与小类一样多
阙值移动:少数算法才能做到,比如支持向量机
决策树:
策略:“分而治之”;自根至叶的递归过程;在每个中间结点寻找一个“划分”属性
三种停止条件:
1.当前结点包含的样本全属于同一类别,无需划分
2.当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
3.当前结点包含的样本集合为空,不能划分
信息增益划分:
信息熵是度量样本集合“纯度”是常用的一种指标
其他属性划分准则:
信息增益:对可取值数目较多的属性有所偏好
增益率:
基尼指数:
决策树剪枝:
剪枝是决策树对付“过拟合”的主要手段。
预剪枝:提前终止某些分支的生长。
后剪枝:生成一颗完全树,再“回头”剪枝。
缺失值的处理:
使用带缺失值的样例,需处理:
Q1:如何进行划分属性选择
Q2:给定划分属性,若样本在该属性上的值缺失,如何进行划分
基本思路:样本赋权,权重划分