Skip to main content

Command Palette

Search for a command to run...

---数据分析师---

十、决策树算法

Published
1 min read
---数据分析师---

🔸决策树算法原理

决策树

  • 一个树形的结构
  • 内部节点上选用一个属性进行分裂(决策节点)
  • 每个分叉都是分裂的一个部分
  • 叶子节点表示一个分布
  • 节点的子节点个数跟算法相关

决策树原理

  • 决策树的输入
    • 一组带有类别标签的样本(训练集)
  • 决策树的构造
    • 采用自上而下的递归构造
  • 决策树的输出
    • 一棵二叉或多叉树
  • 决策树的测试评估
    • 一组带有类别标记的样本(测试集)

生成决策树示意

image.png

决策树等价于一组关联规则

  • 用IF-THEN这种形式来表现规则
  • 每个叶子节点都创建一条规则
  • 每个分割都成为一个规则中的一个条件
  • 叶子节点中的类别就是THEN的内容
  • 规则对于人来说更容易理解
  • 例子
    • IF age = "青年" AND 学生 = "否" THEN buys_computer = "不买"
    • IF age = "青年" AND 学生 = "是" THEN buys_computer = "买"
    • IF age = "中年" THEN buys_computer = "不买"
    • IF age = "老年" AND 信誉 = "优" THEN buys_computer = "不买"
    • IF age = "老年" AND 信誉 = "良" THEN buys_computer = "买"

      决策树分类的特点

  • 优点
    • 容易生成可以理解的规则
    • 计算量相对来说不大
    • 可以处理离散和连续字段
    • 可以清晰显示那些字段比较重要
  • 缺点
    • 对连续性的字段难以预测
    • 类别太多的时候,错误的可能性会加大
    • 一般情况下,标签属性的个数有限

🔸决策树剪枝

决策树规模越大效果越好吗?

  • 不对,一般情况下,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。
  • 另外,过于茂盛的树可能导致过拟合(OVERFITTING),即对训练数据的完全拟合反而不具有很好的预测性能。

    决策树的剪枝

  • 剪枝技术
    • 是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。
  • 剪枝的类型
    • 前剪枝(forward pruning)在生成树的同时进行剪枝。
    • 后剪枝(backward pruning)先生成决策树,然后从树叶逐步向根的方向剪枝。
  • 剪枝注意事项
    • 对于小树或稀疏数据,防止过渡剪枝

--END--

More from this blog

营销知识汇总

MTL (Market To Lead)价值 实现以客户为中心的思考主要描述上市的产品到客户购买意向。一般而言,产品上市要尽快衔接后续的营销活动,使得客户有购买意向,或是购买线索,为此企业会进行展会、宣传、品牌推广等营销活动。然而有了购买意向和线索,客户也未必会购买整个MTL的变革与其说是流程,不如说是方法论,MTL流程不承载资金流、不承载物流,哪一步做哪一步不做是不影响运营的;LTC流程是承载资金流和物流,IPD流程是要把产品做出来,而MTL流程最终产生的输出并不是实体,但它教会了我们在市场细...

Jun 11, 20221 min read

面向对象是怎么一回事

三大基本特征和五大基本原则 前言面向对象的三个特征:封装、继承、多态。那么面向对象是怎么体现这三个特征呢?关于五大基本原则,这是我找到的对新手(如我)来说还是比较容易理解的表述。 面向对象的三大基本特征 1. 封装 封装,就是将客观事物抽象为逻辑实体,实体的属性和功能相结合,形成一个有机的整体。并对实体的属性和功能实现进行访问控制,向信任的实体开放,对不信任的实体隐藏。,通过开放的外部接口即可访问,无需知道功能如何实现。 也就是说,封装主要有以下目的: 可隐藏实体实现的细节。 提高安全性,设定...

Jun 9, 20221 min read

什么是dns ?

域名系统 (DNS) 将人类可读的域名 (例如,laofu.ipio.cf) 转换为机器可读的 IP 地址 (例如,172.67.143.172)。 DNS 基础知识 Internet 上的所有计算机,从您的智能手机或笔记本电脑到可提供大量零售网站内容的服务器,均通过使用编号寻找另一方并相互通信。这些编号称为 IP 地址。当您打开 Web 浏览器并前往一个网站时,您不必记住和输入长编号。而是输入域名(如 example.com),然后在正确的位置结束。 Amazon Route 53 等 DNS...

Jun 5, 20222 min read

IPv6应用背景

什么是互联网协议? IP 是 Internet 协议,是过去 40 年来发展起来的一套标准化的通信机制。IP 以计算机代码的形式存在于任何需要连接到 Internet 的设备、服务或系统中,任何 IP 的实现都需要符合其标准才能正确可靠地工作。 顾名思义,IP 是互联网的核心。事实上,它的具体特征是当今互联网成功的核心。特别是,IP 至少直接实现了 Internet 的以下三个基本特征: 全局性:在互联网上任意一对不同位置(IP 地址)的任意一对设备之间交换数据的能力 中立性:应用程序和内容与...

Jun 2, 20222 min read

老傅笔记

22 posts