---数据分析师---
五、聚类分析

🔸聚类分析概述
聚类及其典型应用
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性

聚类应考虑多维度
传统细分纬度:客户价值(ARPU)、地域
新的细分纬度:客户生命周期的五个阶段、多维度的数据(大数据)
聚类分析的核心:物以类聚
- 聚类分析的特点
- 不指定分类依据、无指导/无监督学习
- 典型应用
- 作为一个独立的分析工具,用于了解数据的分布
- 图片检索:图片内容相似度
- 图片分割:图片像素相似度
- 网页聚类:文本内容相似度
- 社交网络聚类:(被)关注人群、兴趣
- 电商用户聚类:点击/加车/购买商品、行为序列
- 作为其他算法的一个数据预处理步骤
聚类记过评判标准
- 如何评价聚类结果
- 同一个聚类中,对象之间具有尽可能大的相似性
- 不同聚类的对象之间具有尽可能大的相异性
距离的度量
- 二元变量之间的距离:
- 简单匹配系数(simple matching coefficient)
- 杰卡德相似系数(Jaccard similarity coefficient)
连续变量之间的距离:
- 欧几里得距离(Euclidean Distance)
- 曼哈顿距离(Manhattan Distance)
- 闵可夫斯基距离(Minkowski Distance)
- 切比雪夫距离(Chebyshev Distance)
向量之间距离:
- 余弦相似度
🔸K-均值算法
聚类经典算法:K-均值算法原理
- 给定K,算法处理流程如下:
- 随机的把所有对象分配到K个非空簇中
- 计算每个簇的平均值,并用该平均值代表相应的簇
- 将每个对象根据其与各个簇中心的距离,重新分配到与它最近的簇中
- 回到第二步,直到不再有新的分配发生
优势
- 算法简单
- 执行和收敛过程相对较快,是一种常见的聚类算法
局限性
- 必须事先知道聚类数
- 算法要求簇是密集的、簇和簇之间的差异比较大
- 数据集的平均值的计算必须有适当的定义
- 对于某些孤立数据和“噪声”点敏感
其他聚类算法
- 两步聚类法
- KOHONEN网络
- 聚类分析注意事项
- 要排除异常点影响
- 选用的变量应该能反映对象特征
- 不同对象差异较大
- 使用的变量和目标相关性要高
- 变量之间相关性较低
- 尽量减少二元值或离散值