频繁项集:
区分数据的主要技术系列之一是发现频繁项集。主要问题很少被视为“关联规则”的发现,其发现从根本上依赖于频繁项集的发现。
常见模式:
- 频繁模式是数据集中频繁出现的模式(例如,项集或子结构)。
例子 –
例如,一组项目,例如面包和黄油,在作为频繁项目集的交易数据集中经常一起出现。 - 子结构可以暗示不同的结构形式,例如子树或子格,它们可以与子序列组合。
- 如果子结构频繁出现,则称为结构化模式。
- 发现频繁模式在挖掘数据之间的关联、相关性和许多其他创新关系方面起着至关重要的作用。
- 此外,它有助于数据分类、聚类和其他数据挖掘工作。
频繁项集的应用:
- 市场篮子模型的原生应用是对真实市场篮子的分析。也就是说,超市和连锁店记录了带到登记册进行检查的每个购物篮的内容。
- 这里的“物品”是市场和商店出售的各种产品,“篮子”是单个市场篮子中的一组物品。一家大型连锁店可能会销售 10、000、000 种商品,并收集有关数十亿个购物篮的数据。
- 通过识别频繁项集,零售商可以找出通常一起购买的东西。重要的部分是成对或更大的物品集,它们比单独购买的物品更频繁地出现。
- 通过这种分析,我们可以确定许多人一起购买面包和黄油,但这没什么吸引力,因为我们已经知道有个别受欢迎的商品。我们可能会发现很多人一起买热狗和奶酪。
- 这不会让购买热狗的人感到震惊,但它让超市有机会通过巧妙的营销获得丰厚的利润。他们可以出售热狗,并会抬高奶酪的价格。当人们来购买热狗时,他们必然会购买奶酪而不考虑其高昂的价格。
- 另一个例子是啤酒和尿布。超市销售人员通过数据分析观察到,买纸尿裤的人,家里很可能有小孩,如果买纸尿裤,一般不会买啤酒,也不太可能去酒吧喝酒。
特征 :
现在,您将看到数据分析中频繁项集的特征。同一个模型可以用来挖掘很多其他种类的数据 下面列出了一些例子。
- 相关概念:
让我们将项目视为单词,将篮子视为文档。如果我们寻找在许多文档中一起出现的词组,这些词组将被最常见的词所支配。 - 抄袭:
在抄袭的情况下,让我们考虑文档的项目和句子的篮子。如果句子在文档中,则文档“在”句子中。这个范围看起来落后,但正是我们所需要的。在这个应用程序中,我们寻找同时出现在几个篮子中的一对项目。如果我们得到了那对,那么我们就准备好了两个共享几个共同句子的文档。在实践中,即使是一个或多个共同的句子也是抄袭的信号。 - 生物制造商:
例如,我们将生物制造商视为血液蛋白质和疾病。每个篮子都是关于患者及其基因组和血液的一组数据——化学分析,以及他们的病史。由一种疾病和一个或多个生物制造者组成的频繁项集建议对疾病进行测试。