---数据分析师---
十、决策树算法

🔸决策树算法原理
决策树
- 一个树形的结构
- 内部节点上选用一个属性进行分裂(决策节点)
- 每个分叉都是分裂的一个部分
- 叶子节点表示一个分布
- 节点的子节点个数跟算法相关
决策树原理
- 决策树的输入
- 一组带有类别标签的样本(训练集)
- 决策树的构造
- 采用自上而下的递归构造
- 决策树的输出
- 一棵二叉或多叉树
- 决策树的测试评估
- 一组带有类别标记的样本(测试集)
生成决策树示意

决策树等价于一组关联规则
- 用IF-THEN这种形式来表现规则
- 每个叶子节点都创建一条规则
- 每个分割都成为一个规则中的一个条件
- 叶子节点中的类别就是THEN的内容
- 规则对于人来说更容易理解
- 例子
- IF age = "青年" AND 学生 = "否" THEN buys_computer = "不买"
- IF age = "青年" AND 学生 = "是" THEN buys_computer = "买"
- IF age = "中年" THEN buys_computer = "不买"
- IF age = "老年" AND 信誉 = "优" THEN buys_computer = "不买"
- IF age = "老年" AND 信誉 = "良" THEN buys_computer = "买"
决策树分类的特点
- 优点
- 容易生成可以理解的规则
- 计算量相对来说不大
- 可以处理离散和连续字段
- 可以清晰显示那些字段比较重要
- 缺点
- 对连续性的字段难以预测
- 类别太多的时候,错误的可能性会加大
- 一般情况下,标签属性的个数有限
🔸决策树剪枝
决策树规模越大效果越好吗?
- 不对,一般情况下,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。
- 另外,过于茂盛的树可能导致过拟合(OVERFITTING),即对训练数据的完全拟合反而不具有很好的预测性能。
决策树的剪枝
- 剪枝技术
- 是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。
- 剪枝的类型
- 前剪枝(forward pruning)在生成树的同时进行剪枝。
- 后剪枝(backward pruning)先生成决策树,然后从树叶逐步向根的方向剪枝。
- 剪枝注意事项
- 对于小树或稀疏数据,防止过渡剪枝
--END--