R= { I1,I2 …Im} 是一组物品集。
理解为:总的 Material List。
W 是一组事务集。
理解为:所有的订单(So)
W 中的每个事务 T 是一组物品,T 是 R 的子集。
理解为:T 是某一个订单中包含的所有 SKU,所以 T 是 R 的子集。
假设有一个物品集A,一个事务 T,关联规则是如下形式的一种蕴含:A→B,其中A、B 是两组物品,A属于R子集,B属于R子集。
注意:
- A 和 B 都是一组 SKU,一组 SKU 可能是1个 SKU,也可能是多个 SKU。
1.置信度(confidence)
**定义:**设 W 中支持物品集 A 的事务中,有 C% 的事务同时也支持物品集B,C% 称为关联规则 A→B 的可信度。
**通俗解释:**简单地说,可信度就是指在出现了物品集 A 的事务 T 中,物品集 B 也同时出现的概率有多大。
**实例说明:**例如:如果一个顾客购买了 ELV0012,那么他也购买 VAL0001 的可能性有多大呢?如果,购买 ELV0012 的顾客中有 65% 的人购买了VAL0001, 那么可信度是 65%。
**概率描述:**物品集A对物品集B的置信度confidence(A→B)= P(A|B)
2.支持度(support)
**定义:**设 W 中有 S% 的事务同时支持物品集 A 和 B,S%称为关联规则 A→B 的支持度。支持度描述了 A 和 B 这两个物品集的并集 C 在所有的事务中出现的概率有多大。
**通俗解释:**简单地说,A→B 的支持度就是指物品集 A 和物品集 B 同时出现的概率。
**实例说明:**某天共有 1000 个订单,其中有150个订单同时购买了 ELV0012 和 VAL0001 那么上述的关联规则的支持度就是15%。
**概率描述:**物品集A对物品集B的支持度 support(A→B)=P(A n B)
3.期望置信度(Expected confidence)
**定义:**设 W 中有 E% 的事务支持物品集 B,E% 称为关联规则 A→B 的期望可信度。
**通俗解释:**期望可信度描述了在没有任何条件影响时,物品集 B 在所有事务中出现的概率有多大。
**实例说明:**如果某天共有 1000 个顾客到商场购买物品,其中有 250 个顾客购买了 ELV0001,则上述的关联规则的期望可信度就是 25%。
**概率描述:**物品集A对物品集B的期望置信度为 support(B)=P(B)
4.提升度(lift)
**定义:**提升度是可信度与期望可信度的比值
**通俗解释:**提升度反映了“物品集 A 的出现”对物品集 B 的出现概率发生了多大的变化。
**实例说明:**上述的关联规则的提升度 = 65%/25% =2.6
**概率描述:**物品集 A 对物品集 B 的期望置信度为lift(A→B)=confidence(A→B)/support(B)=p(B|A)/p(B)
总之,可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。