介绍:
数据清洗是机器学习的重要组成部分之一。它在构建模型中起着重要作用。它肯定不是机器学习中最精彩的部分,同时也没有任何隐藏的技巧或秘密需要揭开。然而,一个项目的成败取决于适当的数据清理。专业数据科学家通常会在这一步上投入大量时间,因为他们坚信“更好的数据胜过更好的算法” 。
如果我们有一个清理良好的数据集,我们也有可能通过简单的算法获得良好的结果,这有时证明是非常有益的,尤其是在数据集规模很大时的计算方面。
显然,不同类型的数据将需要不同类型的清理。然而,这种系统的方法总是可以作为一个很好的起点。
数据清洗涉及的步骤:
- 去除不需要的观察
这包括从数据集中删除重复/冗余或不相关的值。在数据收集过程中最常出现重复的观察结果,而不相关的观察结果实际上并不适合您要解决的特定问题。- 随着数据的重复,冗余观察在很大程度上改变了效率,并且可能会向正确的一侧或向不正确的一侧添加,从而产生不可靠的结果。
- 不相关的观察是对我们没有用的任何类型的数据,可以直接删除。
- 修复结构错误
在测量、数据传输或其他类似情况下出现的误差称为结构误差。结构性错误包括特征名称中的拼写错误、具有不同名称的相同属性、错误标记的类,即实际上应该是相同或不一致的大写的单独类。- 例如,模型将 America 和 America 视为不同的类或值,尽管它们代表相同的值或红色、黄色和红黄色作为不同的类或属性,但一个类可以包含在其他两个类中。因此,这些是一些结构性错误,使我们的模型效率低下,结果质量不佳。
- 管理不需要的异常值
异常值可能会导致某些类型的模型出现问题。例如,线性回归模型对异常值的鲁棒性不如决策树模型。通常,在我们有正当理由删除异常值之前,我们不应删除它们。有时,删除它们会提高性能,有时则不会。因此,必须有充分的理由去除异常值,例如不太可能成为真实数据一部分的可疑测量值。 - 处理缺失数据
丢失数据是机器学习中一个看似棘手的问题。我们不能只是忽略或删除缺失的观察。它们必须小心处理,因为它们可能表明某些重要的事情。处理缺失数据的两种最常见方法是:- 删除带有缺失值的观察值。
删除缺失值是次优的,因为当您删除观察值时,您会删除信息。
- 值丢失的事实本身可能提供信息。
- 另外,在现实世界中,即使缺少某些特征,您也经常需要对新数据进行预测!
- 从过去的观察中估算缺失值。
插补缺失值是次优的,因为该值最初是缺失的,但您填写了它,无论您的插补方法多么复杂,这总是会导致信息丢失。
- 同样,“缺失”本身几乎总是提供信息,如果某个值缺失,您应该告诉算法。
- 即使您构建了一个模型来估算您的值,您也不会添加任何真实信息。您只是在加强其他功能已经提供的模式。
这两种方法都是次优的,因为丢弃观察意味着丢弃信息,从而减少数据和输入值也是次优的,因为我们填充了实际数据集中不存在的值,这会导致信息丢失。
- 删除带有缺失值的观察值。
丢失数据就像丢失一块拼图。如果你放下它,就像假装拼图插槽不存在一样。如果你归咎于它,那就像试图从拼图的其他地方挤进一块。
因此,缺失的数据总是提供信息并表明重要的事情。我们必须通过标记来了解我们的算法丢失数据。通过使用这种标记和填充技术,您实际上是在允许算法估计缺失的最佳常数,而不仅仅是用平均值填充它。一些数据清理工具
- 打开精炼
- Trifacta 牧马人
- TIBCO 净度
- 云金哥
- IBM 信息圈质量阶段
结论:
因此,我们讨论了数据清理的四个不同步骤,以使数据更可靠并产生良好的结果。正确完成数据清理步骤后,我们将拥有一个强大的数据集,可以避免许多最常见的陷阱。这一步不应该仓促,因为它在进一步的过程中证明是非常有益的。