📜  数据挖掘与机器学习的关系

📅  最后修改于: 2021-10-20 12:09:33             🧑  作者: Mango

对于“数据挖掘”所暗示的内容,没有普遍的共识。机器学习对数据预测的关注并不总是正确的,尽管对数据属性发现的强调无疑总是适用于数据挖掘。

所以,让我们从这个开始:数据处理可能是一个跨学科领域,专注于发现知识集的属性。 (忘记它是“数据库中的知识发现”KDD 的分析步骤,这可能在几年前有效,现在不再有效)。

区域单元有不同的方法来发现知识集的属性。机器学习就是其中之一。另一种只是注视信息集受害图像技术或拓扑信息分析。

另一方面,机器学习可能是知识科学的一个子领域,专注于规划算法,这些算法可以从信息中学习并创建预测。机器学习包括监督学习和无监督学习两种方式。无监督方式从未标记的信息集中起飞,因此,在某种程度上,它们与寻找其中的未知属性(例如,集群或规则)直接相关。

很明显,机器学习将用于数据处理。但是,除了机器学习之外,数据处理还将使用不同的技术。

为了创造更复杂的东西,目前,我们有一个替代术语,信息科学,它与注意力竞争,特别是在数据处理和 KDD 方面。甚至 ACM 的 SIGKDD 集群也在慢慢走向受害信息科学。在他们的网站上,他们目前将自己描述为“数据处理、信息科学和分析社区”。根据预测,KDD在冗长的版本之前可以作为一个漂亮的术语消失,而数据处理只能合并为一门信息科学。

假设问题是从您的信息中过滤异常值(异常检测),这可能是一项知识挖掘任务。可以在聚类分析中使用标准机器学习技术(如 K-means 算法规则)来发现这些异常值,并在执行此操作时构建算法规则以进行学习。

现在,这些异常值的平方度量“以前未知”,因此任务与信息挖掘相同,而机器学习进入具有算法规则的“学习”属性的图像,不会找到异常值。

要“教机器”,您需要信息。举个例子,如果你想训练一个神经网络来预测超级碗的获胜者,你不能只对联合国机构在今年赢得的比赛进行排序。这还不够。你会希望得到很多信息,比如你能得到的最大数量。您希望每个球员的每个统计数据都适合他或她的整个职业生涯。你有很多信息,很多神经网络都会从相同的细节中学习。我尝试训练一个神经网络来形成恶作剧,并且我有大约 10kb 的信息。我认为那是负载,然后在有人受害超过 3mb 的地方找到了日记。这就是您希望进行数据处理的原因。如果您将个人电脑视为某人,那么需要多长时间才能让某人说话?他们观察了几次谈话;他们不只是听到十个对话然后就好像被魔法变流利了。因此,从本质上讲,数据处理是机器学习的最早步骤之一。由于指导神经网络的初始阶段,您可以挖掘信息,然后组织、规范化等。