📜  数据挖掘 | 2套

📅  最后修改于: 2021-09-09 11:17:13             🧑  作者: Mango

数据挖掘可能是应用科学的一个术语。通常,它也被称为数据库中的数据发现 (KDD)。数据处理涉及在大量知识中寻找新信息。从数据处理中获得的数据希望每一个都是新的和有用的。

在职的:
在一些情况下,信息会被保留;因此,它可以在以后使用。数据是有目标的。例如,商店需要保存大量已购买的东西。他们需要尝试这样做,以掌握自己应该购买的数量,以拥有足够的数量以备后用。保存这些信息可以获得大量的知识。信息有时被保存在超量信息中。为什么要保留信息的解释称为主要用途。

后来,也可能不会使用常量信息来获取主要用途不需要的替代信息。商店当前可能需要掌握个人在商店购物后购买的合理的东西。 (比如很多买菜的人还买蘑菇。)那种{信息|信息|知识}在数据中,是有益的,但并不是数据被保存的原因。此信息是新信息,可能会有所帮助。这是恒定信息的第二个用途。从信息中寻找甚至有用的新信息被称为数据处理。

对于数据,有大量的各种数据处理来获取新信息。通常,有关预测;预期结果存在不确定性。随后的观察依赖于有一点缺乏经验的苹果,在此期间我们可以在结构上改变我们的信息。许多类型的数据处理是:

模式识别(试图在报告中的行中找出相似之处,在规则类型内。微小 – > 缺乏经验。(小苹果平方通常是绿色的))
使用定理网络(尝试创建一件事,它会说,但是,各种信息属性平方度量相互连接/影响。维度,因此,颜色平方度量相关。因此,如果您认识到有关方面的一件事,您会猜颜色。)

使用神经网络(试图创建一个难以掌握的大脑模型;但是,如果苹果没有经验,那么电脑会告诉我们,如果我们倾向于对电脑说苹果缺乏经验。因此,这通常是一种录音机模型,我们倾向于不精明它的工作原理;但是,它确实有效。)
使用分类树(所有替代数据都试图提及有关该问题的一个替代问题,我们倾向于对观察结果进行平方测量。这是苹果与大小、颜色和光泽的关联度,它的风格如何? )

数据挖掘需要信息准备,这可能会发现可能危及机密性和隐私义务的信息或模式。发生这种情况的标准方法是通过信息聚合。信息聚合涉及将信息(可能来自众多来源)以一种非常有助于分析的方式组合在一起(但另外可能会建立对个人、个人级别信息的演绎或其他明显的识别)。 信息聚合涉及将信息(可能来自众多来源)组合在一起,以促进分析(但另外可能会建立对个人,个人级别信息的演绎或其他明显的识别)。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .这可以不是本质上的数据处理,而是在分析之前准备数据的结果——并且是为了分析的需要。

一旦信息被编译,对个人隐私的威胁就开始发挥作用,导致信息体力劳动者或任何联合国机构可以访问最近编译的信息集,准备好确定特定的人,特别是一旦信息从前匿名的。

数据也可能被更改;因此,要匿名,这样人们可能不会立即被知道。然而,即使是“去标识化”/“匿名化”信息集也无疑会包含足够的信息来识别人,就像当记者准备好意识到许多人支持一组被 AOL 在不知不觉中免费的搜索历史记录时发生的那样。