数据挖掘 | 2套 - 芒果文档

数据挖掘可能是应用科学的一个术语。通常，它也被称为数据库中的数据发现 (KDD)。数据处理涉及在大量知识中寻找新信息。从数据处理中获得的数据希望每一个都是新的和有用的。

在职的：
在一些情况下，信息会被保留；因此，它可以在以后使用。数据是有目标的。例如，商店需要保存大量已购买的东西。他们需要尝试这样做，以掌握自己应该购买的数量，以拥有足够的数量以备后用。保存这些信息可以获得大量的知识。信息有时被保存在超量信息中。为什么要保留信息的解释称为主要用途。

后来，也可能不会使用常量信息来获取主要用途不需要的替代信息。商店当前可能需要掌握个人在商店购物后购买的合理的东西。 (比如很多买菜的人还买蘑菇。)那种{信息|信息|知识}在数据中，是有益的，但并不是数据被保存的原因。此信息是新信息，可能会有所帮助。这是恒定信息的第二个用途。从信息中寻找甚至有用的新信息被称为数据处理。

对于数据，有大量的各种数据处理来获取新信息。通常，有关预测；预期结果存在不确定性。随后的观察依赖于有一点缺乏经验的苹果，在此期间我们可以在结构上改变我们的信息。许多类型的数据处理是：

模式识别(试图在报告中的行中找出相似之处，在规则类型内。微小 – > 缺乏经验。(小苹果平方通常是绿色的))
使用定理网络(尝试创建一件事，它会说，但是，各种信息属性平方度量相互连接/影响。维度，因此，颜色平方度量相关。因此，如果您认识到有关方面的一件事，您会猜颜色。)

使用神经网络(试图创建一个难以掌握的大脑模型；但是，如果苹果没有经验，那么电脑会告诉我们，如果我们倾向于对电脑说苹果缺乏经验。因此，这通常是一种录音机模型，我们倾向于不精明它的工作原理；但是，它确实有效。)
使用分类树(所有替代数据都试图提及有关该问题的一个替代问题，我们倾向于对观察结果进行平方测量。这是苹果与大小、颜色和光泽的关联度，它的风格如何? )

数据挖掘需要信息准备，这可能会发现可能危及机密性和隐私义务的信息或模式。发生这种情况的标准方法是通过信息聚合。信息聚合涉及将信息(可能来自众多来源)以一种非常有助于分析的方式组合在一起(但另外可能会建立对个人、个人级别信息的演绎或其他明显的识别)。信息聚合涉及将信息(可能来自众多来源)组合在一起，以促进分析(但另外可能会建立对个人，个人级别信息的演绎或其他明显的识别)。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .这可以不是本质上的数据处理，而是在分析之前准备数据的结果——并且是为了分析的需要。

一旦信息被编译，对个人隐私的威胁就开始发挥作用，导致信息体力劳动者或任何联合国机构可以访问最近编译的信息集，准备好确定特定的人，特别是一旦信息从前匿名的。

数据也可能被更改；因此，要匿名，这样人们可能不会立即被知道。然而，即使是“去标识化”/“匿名化”信息集也无疑会包含足够的信息来识别人，就像当记者准备好意识到许多人支持一组被 AOL 在不知不觉中免费的搜索历史记录时发生的那样。