Skip to main content

Command Palette

Search for a command to run...

---数据分析师---

五、聚类分析

Updated
1 min read
---数据分析师---

🔸聚类分析概述

聚类及其典型应用

聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性

Untitled.png

聚类应考虑多维度

传统细分纬度:客户价值(ARPU)、地域
新的细分纬度:客户生命周期的五个阶段、多维度的数据(大数据)

聚类分析的核心:物以类聚

  • 聚类分析的特点
    • 不指定分类依据、无指导/无监督学习
  • 典型应用
    • 作为一个独立的分析工具,用于了解数据的分布
    • 图片检索:图片内容相似度
    • 图片分割:图片像素相似度
    • 网页聚类:文本内容相似度
    • 社交网络聚类:(被)关注人群、兴趣
    • 电商用户聚类:点击/加车/购买商品、行为序列
    • 作为其他算法的一个数据预处理步骤

      聚类记过评判标准

  • 如何评价聚类结果
    • 同一个聚类中,对象之间具有尽可能大的相似性
    • 不同聚类的对象之间具有尽可能大的相异性

      距离的度量

  • 二元变量之间的距离:
    • 简单匹配系数(simple matching coefficient)
    • 杰卡德相似系数(Jaccard similarity coefficient)

      连续变量之间的距离:

    • 欧几里得距离(Euclidean Distance)
    • 曼哈顿距离(Manhattan Distance)
    • 闵可夫斯基距离(Minkowski Distance)
    • 切比雪夫距离(Chebyshev Distance)

      向量之间距离:

    • 余弦相似度

🔸K-均值算法

聚类经典算法:K-均值算法原理

  • 给定K,算法处理流程如下:
  • 随机的把所有对象分配到K个非空簇中
  • 计算每个簇的平均值,并用该平均值代表相应的簇
  • 将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中
  • 回到第二步,直到不再有新的分配发生

    优势

  • 算法简单
  • 执行和收敛过程相对较快,是一种常见的聚类算法

    局限性

  • 必须事先知道聚类数
  • 算法要求簇是密集的、簇和簇之间的差异比较大
  • 数据集的平均值的计算必须有适当的定义
  • 对于某些孤立数据和“噪声”点敏感

    其他聚类算法

  • 两步聚类法
  • KOHONEN网络
  • 聚类分析注意事项
  • 要排除异常点影响
  • 选用的变量应该能反映对象特征
  • 不同对象差异较大
  • 使用的变量和目标相关性要高
  • 变量之间相关性较低
  • 尽量减少二元值或离散值

More from this blog

营销知识汇总

MTL (Market To Lead)价值 实现以客户为中心的思考主要描述上市的产品到客户购买意向。一般而言,产品上市要尽快衔接后续的营销活动,使得客户有购买意向,或是购买线索,为此企业会进行展会、宣传、品牌推广等营销活动。然而有了购买意向和线索,客户也未必会购买整个MTL的变革与其说是流程,不如说是方法论,MTL流程不承载资金流、不承载物流,哪一步做哪一步不做是不影响运营的;LTC流程是承载资金流和物流,IPD流程是要把产品做出来,而MTL流程最终产生的输出并不是实体,但它教会了我们在市场细...

Jun 11, 20221 min read

面向对象是怎么一回事

三大基本特征和五大基本原则 前言面向对象的三个特征:封装、继承、多态。那么面向对象是怎么体现这三个特征呢?关于五大基本原则,这是我找到的对新手(如我)来说还是比较容易理解的表述。 面向对象的三大基本特征 1. 封装 封装,就是将客观事物抽象为逻辑实体,实体的属性和功能相结合,形成一个有机的整体。并对实体的属性和功能实现进行访问控制,向信任的实体开放,对不信任的实体隐藏。,通过开放的外部接口即可访问,无需知道功能如何实现。 也就是说,封装主要有以下目的: 可隐藏实体实现的细节。 提高安全性,设定...

Jun 9, 20221 min read

什么是dns ?

域名系统 (DNS) 将人类可读的域名 (例如,laofu.ipio.cf) 转换为机器可读的 IP 地址 (例如,172.67.143.172)。 DNS 基础知识 Internet 上的所有计算机,从您的智能手机或笔记本电脑到可提供大量零售网站内容的服务器,均通过使用编号寻找另一方并相互通信。这些编号称为 IP 地址。当您打开 Web 浏览器并前往一个网站时,您不必记住和输入长编号。而是输入域名(如 example.com),然后在正确的位置结束。 Amazon Route 53 等 DNS...

Jun 5, 20222 min read

IPv6应用背景

什么是互联网协议? IP 是 Internet 协议,是过去 40 年来发展起来的一套标准化的通信机制。IP 以计算机代码的形式存在于任何需要连接到 Internet 的设备、服务或系统中,任何 IP 的实现都需要符合其标准才能正确可靠地工作。 顾名思义,IP 是互联网的核心。事实上,它的具体特征是当今互联网成功的核心。特别是,IP 至少直接实现了 Internet 的以下三个基本特征: 全局性:在互联网上任意一对不同位置(IP 地址)的任意一对设备之间交换数据的能力 中立性:应用程序和内容与...

Jun 2, 20222 min read

老傅笔记

22 posts