关联规则

关联规则挖掘发现大量数据项之间有趣的关联和关系。此规则显示项集在事务中出现的频率。一个典型的例子是基于市场的分析。

基于市场的分析是大关系用来显示物品之间关联的关键技术之一。它允许零售商识别人们经常一起购买的物品之间的关系。

给定一组交易，我们可以找到规则，根据交易中其他项目的出现来预测一个项目的出现。

TID	Items
1	Bread, Milk
2	Bread, Diaper, Beer, Eggs
3	Milk, Diaper, Beer, Coke
4	Bread, Milk, Diaper, Beer
5	Bread, Milk, Diaper, Coke

在开始定义规则之前，让我们先看看基本定义。

支持数( $\sigma$ ) –项集出现的频率。

这里 $\sigma$ ({牛奶、面包、尿布})=2

频繁项集——支持度大于或等于 minsup 阈值的项集。

关联规则——X -> Y 形式的蕴涵表达式，其中 X 和 Y 是任意 2 个项集。

Example: {Milk, Diaper}->{Beer}

规则评估指标 –

支持 –
包含规则的 {X} 和 {Y} 部分中的项目的交易数量占交易总数的百分比。它是衡量项目集合一起出现的频率占所有交易的百分比。
支持 = $\sigma$ (X+Y) $\div$ 全部的 -
它被解释为包含 X 和 Y 的交易的一部分。
信心(c) –
它是包含{B}中所有项目的交易数量以及包含{A}中所有项目的交易数量与包含{A}中所有项目的交易数量之比。
Conf(X=>Y) = Supp(X $\cup$ 是) $\div$ 供应(X) –
它衡量 Y 中的每个项目出现在包含 X 中项目的交易中的频率。
升降机(l) –
规则X=>Y的提升是规则的置信度除以期望置信度，假设项集X和Y相互独立。期望置信度是置信度除以{Y}的频率。
提升(X=>Y) = Conf(X=>Y) $\div$ 供应(Y) –
接近 1 的提升值表示 X 和 Y 几乎经常按预期一起出现，大于 1 表示它们一起出现的次数多于预期，小于 1 表示它们出现的次数少于预期。升力值越大表示关联越强。

示例 –从上表中，{牛奶、尿布}=>{啤酒}

s= $\sigma$ ({牛奶、尿布、啤酒}) $\div$ |T| = 2/5 = 0.4 c= $\sigma$ （牛奶、尿布、啤酒） $\div$ $\sigma$ （牛奶、尿布）= 2/3 = 0.67 l= 补给（{牛奶、尿布、啤酒}） $\div$ 补充（{牛奶，尿布}）*补充（{啤酒}）= 0.4/（0.6*0.6）= 1.11

关联规则在分析数据集时非常有用。数据是使用超市中的条形码扫描仪收集的。此类数据库由大量交易记录组成，其中列出了客户在单次购买时购买的所有商品。因此，经理可以知道某些商品组是否一直一起购买，并根据统计使用这些数据来调整商店布局、交叉销售、促销。