频繁项集:
区分数据的主要技术之一是“频繁项集”的发现。主要问题很少被视为“关联规则”的发现,其发现从根本上取决于频繁项目集的发现。
常见模式:
- 频繁模式是数据集中经常出现的模式(例如,项目集或子结构)。
例子 –
例如,诸如面包和黄油之类的一组项目在作为频繁项目集的交易数据集中经常一起出现。 - 子结构可以暗示不同的结构形式,例如子树或子格,它们可以与子序列组合。
- 如果子结构频繁发生,则称为结构化模式。
- 查找频繁模式在挖掘数据之间的关联,相关性和许多其他创新关系中起着至关重要的作用。
- 此外,它还有助于数据分类,聚类和其他数据挖掘工作。
常用项目集的应用:
- 市场-篮子模型的本机应用是对真实市场篮子的分析。也就是说,超市和连锁店将每个市场篮子的内容带到收银机中进行检查。
- 这里的“项目”是市场和商店出售的各种产品,“篮子”是单个市场篮子中的一组项目。一个主要的连锁店可能出售10、000、000种商品,并收集有关数十亿个购物篮的数据。
- 通过识别频繁的商品集,零售商可以找出通常一起购买的商品。重要的是成对的物品或更大的物品组比单独购买的物品出现的频率要高得多。
- 通过这种分析,我们可以确定很多人一起购买面包和黄油,但这没什么吸引力,因为我们已经知道单独有受欢迎的食品。我们可能发现许多人一起买热狗和奶酪。
- 这不会使购买热狗的人感到震惊,但是它使超市有机会通过明智的营销赚取丰厚的利润。他们可以把热狗卖掉,并会抬高奶酪的价格。当人们来买热狗时,他们必然会在不考虑奶酪价格高昂的情况下购买奶酪。
- 再比如啤酒和尿布。通过数据分析,超市营业员观察到,购买尿布的人可能在家中生一个孩子,如果购买尿布,他们通常不会购买啤酒,那么他们不太可能在酒吧里喝酒。
特征 :
现在,您将在数据分析中看到频繁项集的功能。可以使用相同的模型来挖掘许多其他类型的数据。下面列出了一些示例。
- 相关概念:
让我们将项目视为文字,将篮子视为文件。如果我们希望单词集合在许多文档中一起出现,那么这些集合将被最常见的单词所统治。 - 窃:
考虑consider窃时,请考虑文件的项目和句子的篮子。如果句子在文档中,则该文档在该句子中。此范围向后出现,但正是我们所需要的。在此应用程序中,我们寻找在多个购物篮中一起出现的一对物品。如果我们有一对,那么我们准备好两个文档,它们共享几个共同的句子。在实践中,即使是一个或多个共同的句子也是to窃的信号。 - 生物制造者:
例如,我们将生物制造者视为血液蛋白和疾病。每个篮子都包含一组有关患者及其基因组和血液的数据-化学分析以及他们的疾病历史。由一种疾病和一个或多个生物制造商组成的频繁项目集建议进行疾病测试。