关联规则
关联规则挖掘发现大量数据项之间有趣的关联和关系。此规则显示项集在事务中出现的频率。一个典型的例子是基于市场的分析。
基于市场的分析是大关系用来显示物品之间关联的关键技术之一。它允许零售商识别人们经常一起购买的物品之间的关系。
给定一组交易,我们可以找到规则,根据交易中其他项目的出现来预测一个项目的出现。
TID | Items |
---|---|
1 | Bread, Milk |
2 | Bread, Diaper, Beer, Eggs |
3 | Milk, Diaper, Beer, Coke |
4 | Bread, Milk, Diaper, Beer |
5 | Bread, Milk, Diaper, Coke |
在开始定义规则之前,让我们先看看基本定义。
支持数( ) –项集出现的频率。
这里 ({牛奶、面包、尿布})=2
频繁项集——支持度大于或等于 minsup 阈值的项集。
关联规则——X -> Y 形式的蕴涵表达式,其中 X 和 Y 是任意 2 个项集。
Example: {Milk, Diaper}->{Beer}
规则评估指标 –
- 支持 –
包含规则的 {X} 和 {Y} 部分中的项目的交易数量占交易总数的百分比。它是衡量项目集合一起出现的频率占所有交易的百分比。 - 支持 = (X+Y) 全部的 -
它被解释为包含 X 和 Y 的交易的一部分。 - 信心(c) –
它是包含{B}中所有项目的交易数量以及包含{A}中所有项目的交易数量与包含{A}中所有项目的交易数量之比。 - Conf(X=>Y) = Supp(X 是) 供应(X) –
它衡量 Y 中的每个项目出现在包含 X 中项目的交易中的频率。 - 升降机(l) –
规则X=>Y的提升是规则的置信度除以期望置信度,假设项集X和Y相互独立。期望置信度是置信度除以{Y}的频率。 - 提升(X=>Y) = Conf(X=>Y) 供应(Y) –
接近 1 的提升值表示 X 和 Y 几乎经常按预期一起出现,大于 1 表示它们一起出现的次数多于预期,小于 1 表示它们出现的次数少于预期。升力值越大表示关联越强。
示例 –从上表中,{牛奶、尿布}=>{啤酒}
s= ({牛奶、尿布、啤酒}) |T| = 2/5 = 0.4 c= (牛奶、尿布、啤酒) (牛奶、尿布)= 2/3 = 0.67 l= 补给({牛奶、尿布、啤酒}) 补充({牛奶,尿布})*补充({啤酒})= 0.4/(0.6*0.6)= 1.11
关联规则在分析数据集时非常有用。数据是使用超市中的条形码扫描仪收集的。此类数据库由大量交易记录组成,其中列出了客户在单次购买时购买的所有商品。因此,经理可以知道某些商品组是否一直一起购买,并根据统计使用这些数据来调整商店布局、交叉销售、促销。