📜  关联规则

📅  最后修改于: 2022-05-13 01:57:14.228000             🧑  作者: Mango

关联规则

关联规则挖掘发现大量数据项之间有趣的关联和关系。此规则显示项集在事务中出现的频率。一个典型的例子是基于市场的分析。

基于市场的分析是大关系用来显示物品之间关联的关键技术之一。它允许零售商识别人们经常一起购买的物品之间的关系。

给定一组交易,我们可以找到规则,根据交易中其他项目的出现来预测一个项目的出现。

TIDItems
1Bread, Milk
2Bread, Diaper, Beer, Eggs
3Milk, Diaper, Beer, Coke
4Bread, Milk, Diaper, Beer
5Bread, Milk, Diaper, Coke



在开始定义规则之前,让我们先看看基本定义。

支持数( \sigma ) –项集出现的频率。

这里\sigma ({牛奶、面包、尿布})=2

频繁项集——支持度大于或等于 minsup 阈值的项集。

关联规则——X -> Y 形式的蕴涵表达式,其中 X 和 Y 是任意 2 个项集。

Example: {Milk, Diaper}->{Beer} 

规则评估指标 –

  • 支持 –
    包含规则的 {X} 和 {Y} 部分中的项目的交易数量占交易总数的百分比。它是衡量项目集合一起出现的频率占所有交易的百分比。
  • 支持 = \sigma (X+Y) \div全部的 -
    它被解释为包含 X 和 Y 的交易的一部分。
  • 信心(c) –
    它是包含{B}中所有项目的交易数量以及包含{A}中所有项目的交易数量与包含{A}中所有项目的交易数量之比。

  • Conf(X=>Y) = Supp(X \cup是) \div供应(X) –
    它衡量 Y 中的每个项目出现在包含 X 中项目的交易中的频率。
  • 升降机(l) –
    规则X=>Y的提升是规则的置信度除以期望置信度,假设项集X和Y相互独立。期望置信度是置信度除以{Y}的频率。
  • 提升(X=>Y) = Conf(X=>Y) \div供应(Y) –
    接近 1 的提升值表示 X 和 Y 几乎经常按预期一起出现,大于 1 表示它们一起出现的次数多于预期,小于 1 表示它们出现的次数少于预期。升力值越大表示关联越强。

示例 –从上表中,{牛奶、尿布}=>{啤酒}

s= \sigma ({牛奶、尿布、啤酒}) \div |T| = 2/5 = 0.4 c= \sigma (牛奶、尿布、啤酒) \div\sigma (牛奶、尿布)= 2/3 = 0.67 l= 补给({牛奶、尿布、啤酒}) \div补充({牛奶,尿布})*补充({啤酒})= 0.4/(0.6*0.6)= 1.11

关联规则在分析数据集时非常有用。数据是使用超市中的条形码扫描仪收集的。此类数据库由大量交易记录组成,其中列出了客户在单次购买时购买的所有商品。因此,经理可以知道某些商品组是否一直一起购买,并根据统计使用这些数据来调整商店布局、交叉销售、促销。