Skip to main content

Command Palette

Search for a command to run...

---数据分析师---

三、关联规则分析

Updated
2 min read
---数据分析师---

🔸关联规则的提出与应用

关联与关联规则

  • 自然界中某种事物发生时其他事物也会发生,则这种联系称之为关联。
  • 反映事件之间依赖或关联的知识称为关联规则。

规则形式举例:
萧敬腾开演唱会@下雨
Body @ Head 【support,confidence】

关联规则的提出

  • 20世纪90年代沃尔玛超市管理员分析销售数据时,发现了一个很奇怪的现象“啤酒和尿布”两样毫无相关性的数据会经常出现在同一各购物车里。美国学者通过Aprior算法(分析购物篮中的商品集合,找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为)分析了真实情况。
  • 了解到新生儿母亲在家照看孩子,就让年轻的父亲去超市购买孩子需要的尿布。这些父亲会选择既有尿布又有自己喜欢的啤酒的超市,从而能提高买东西的效率。所以说这两样商品齐全的超市会更受年轻父亲喜爱。更有早发现该规律的超市,将啤酒和尿布摆在相邻位置,更加节省了年轻父亲买东西的时间,也就间接提升了超市营业额。

关联规则挖掘的作用

  • 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯

    • 那些物品经常被顾客购买?
    • 同义词购买中,那些商品经常会被一起购买?
    • 一般用户的购买过程中是否存在一定的购买时间序列?
  • 具体应用:利润最大化

    • 商品货架设计:更加适合客户的购物路径
    • 货存安排:实现超市的零库存管理
    • 用户分类:提供个性化的服务

关联规则已广泛应用

  • 个性化商铺搜索
  • 基于顾客全网购买历史记录的猜您喜欢
  • 商品列表的个性化排序
  • 经常与本商品一起购买的商铺
  • 基于顾客全网浏览历史的猜您喜欢
  • 浏览过本商品的顾客最终购买了

电信业务中的应用示例

  • 分析用户定制的数据业务

    • 购物篮 = 用户每月使用的所有数据业务
    • 项 目 = 单项数据业务(彩信、手机邮箱等)
    • 分析目的 : 发现数据业务经常被同时使用,有助于关联销售及套餐制定
  • 分析用户使用的第三方应用

    • 购物篮 = 用户每月的访问记录
    • 项 目 = 单个第三方应用(微信、支付宝、微博)
    • 分析目的:发现用户使用习惯,引导流量经营

🔸关联规则评价指标

支持度

支持度(SUPPORT):规则X -> Y在交易集合中的支持度是交易集中包含X和Y的交易数与交易数之比,记为SUPPORT(X -> Y),即SUPPORT(X -> Y)= |{T:X∩Y⊆T,T∈D}|/|D|,它是概率P(X∩Y) S = (同时购买X和Y的交易数)/ (总交易数)

置信度

置信度(CONFIDENCE),规则X -> Y在交易集中的置信度是指包含X和Y的交易数与包含X的交易数之比,记为CONFIDENCE(X -> Y)即
CONFIDENCE(X -> Y)= |{T:X∩Y⊆T,T∈D}|/|{T:X⊆T,T∈D}|他是概率P(X|Y)
C = (同时购买X和Y的交易数)/ (购买商铺X的交易数)

支持度、置信度的解释

  • 例如:
    • 5G-> VoNR (S=30%,C=70%)
  • 同时开通5G和VoNR的用户占总体的30%,开通5G的用户有70%使用了VoNR

置信度高就一定有用吗 ?

某类疾病轻症患者进行中药治疗,得到如下规则

吃中药 -> 治愈 (S=45%,C=90%)

*吃中药喝白开水合计
治愈9095185
死亡100100200

关联规则的提速度(Lift)

提升的大于1才有意义,意味着X的出现对Y的出现有促进作用。规则提升度越大越好
L x->y = C x->y/Sy ={ |T(X∩Y)|/|T(X)|}/{|T(Y)|/|T|} Lift(吃中药 -> 治愈) = 90% /92.5% < 1

🔸关联规则经典算法--Apriori

Apriori.png

关联规则挖掘的优缺点

  • 优点

    • 它可以产生清晰有用的结果
    • 它支持间接数据挖掘
    • 可以处理变长的数据
    • 它的计算的消耗量是可以预见的
  • 缺点

    • 当问题变大时,计算量增长得厉害
    • 难以决定正确的数据
    • 容易忽略稀有的数据

🔸 关联规则举例

订单编号购买商品
1牛奶、面包、尿不湿、啤酒、榴莲
2可乐、面包、尿不湿、啤酒、牛仔裤
3牛奶、尿不湿、啤酒、鸡蛋、咖啡
4面包、牛奶、尿不湿、啤酒、睡衣
5面包、牛奶、尿不湿、可乐、鸡翅

01)支持度

  • 支持度 (Support):指某个商品组合出现的次数与总次数之间的比例。
  • 在这个例子中,我们可以看到“牛奶”出现了 4 次,那么这 5 笔订单中“牛奶”的支持度就是 4/5=0.8。
  • 同样“牛奶 + 面包”出现了 3 次,那么这 5 笔订单中“牛奶 + 面包”的支持度就是 3/5=0.6
  • 这样理解起来是不是非常简单了呢,大家可以动动手计算下 '尿不湿+啤酒'的支持度是多少

02)置信度

  • 置信度 (Confidence):指的就是当你购买了商品 A,会有多大的概率购买商品 B
  • 置信度(牛奶→啤酒)= 3/4=0.75,代表如果你购买了牛奶,有多大的概率会购买啤酒
  • 置信度(啤酒→牛奶)= 3/4=0.75,代表如果你购买了啤酒,有多大的概率会购买牛奶?
  • 置信度(啤酒→尿不湿)= 4/4=1.0,代表如果你购买了啤酒,有多大的概率会买尿不湿
  • 由上面的例子可以看出,置信度是个条件概念,就是说在 A 发生的情况下,B 发生的概率是多少。

03)提升度

  • 提升度 (Lift):我们在做商品推荐或者策略的时候,重点考虑的是提升度,因为提升度代表的是商品 A 的出现,对商品 B 的出现概率提升的程度。
  • 提升度 (A→B) = 置信度 (A→B)/ 支持度 (B)
  • 所以提升度有三种可能:
  • 提升度 (A→B)>1:代表有提升;
  • 提升度 (A→B)=1:代表有没有提升,也没有下降;
  • 提升度 (A→B)<1:代表有下降。
  • 提升度 (啤酒→尿不湿) =置信度 (啤酒→尿不湿)/支持度 (尿不湿)=1.0/0.8=1.25
  • 可见啤酒对尿不湿是有提升的,提升度为1.25,其实可以简单理解为:在全集的情况下,尿不湿的概率为0.8,而在包含啤酒这个子集中,尿不湿的概率为1,因此,子集的限定,提高了尿不湿的概率。

04)频繁项集

  • 频繁项集(frequent itemset) :就是支持度大于等于最小支持度 (Min Support) 阈值的项集,所以小于最小值支持度的项目就是非频繁项集,而大于等于最小支持度的的项集就是频繁项集。项集可以是单个商品,也可以是组合

--END--

More from this blog

营销知识汇总

MTL (Market To Lead)价值 实现以客户为中心的思考主要描述上市的产品到客户购买意向。一般而言,产品上市要尽快衔接后续的营销活动,使得客户有购买意向,或是购买线索,为此企业会进行展会、宣传、品牌推广等营销活动。然而有了购买意向和线索,客户也未必会购买整个MTL的变革与其说是流程,不如说是方法论,MTL流程不承载资金流、不承载物流,哪一步做哪一步不做是不影响运营的;LTC流程是承载资金流和物流,IPD流程是要把产品做出来,而MTL流程最终产生的输出并不是实体,但它教会了我们在市场细...

Jun 11, 20221 min read

面向对象是怎么一回事

三大基本特征和五大基本原则 前言面向对象的三个特征:封装、继承、多态。那么面向对象是怎么体现这三个特征呢?关于五大基本原则,这是我找到的对新手(如我)来说还是比较容易理解的表述。 面向对象的三大基本特征 1. 封装 封装,就是将客观事物抽象为逻辑实体,实体的属性和功能相结合,形成一个有机的整体。并对实体的属性和功能实现进行访问控制,向信任的实体开放,对不信任的实体隐藏。,通过开放的外部接口即可访问,无需知道功能如何实现。 也就是说,封装主要有以下目的: 可隐藏实体实现的细节。 提高安全性,设定...

Jun 9, 20221 min read

什么是dns ?

域名系统 (DNS) 将人类可读的域名 (例如,laofu.ipio.cf) 转换为机器可读的 IP 地址 (例如,172.67.143.172)。 DNS 基础知识 Internet 上的所有计算机,从您的智能手机或笔记本电脑到可提供大量零售网站内容的服务器,均通过使用编号寻找另一方并相互通信。这些编号称为 IP 地址。当您打开 Web 浏览器并前往一个网站时,您不必记住和输入长编号。而是输入域名(如 example.com),然后在正确的位置结束。 Amazon Route 53 等 DNS...

Jun 5, 20222 min read

IPv6应用背景

什么是互联网协议? IP 是 Internet 协议,是过去 40 年来发展起来的一套标准化的通信机制。IP 以计算机代码的形式存在于任何需要连接到 Internet 的设备、服务或系统中,任何 IP 的实现都需要符合其标准才能正确可靠地工作。 顾名思义,IP 是互联网的核心。事实上,它的具体特征是当今互联网成功的核心。特别是,IP 至少直接实现了 Internet 的以下三个基本特征: 全局性:在互联网上任意一对不同位置(IP 地址)的任意一对设备之间交换数据的能力 中立性:应用程序和内容与...

Jun 2, 20222 min read

老傅笔记

22 posts