📜  数据预处理及其类型

📅  最后修改于: 2021-08-27 06:37:49             🧑  作者: Mango

预处理只是指执行一系列操作来转换或更改数据。它是先转换后应用于我们的数据,然后再提供给算法。数据处理是指对数据执行操作以检索,转换或更改数据,尤其是通过计算机。它是用于将原始数据转换为干净数据集的技术。

换句话说,无论何时从不同来源收集数据,数据都以原始格式收集,这对于分析是不可行的。然后,它将原始格式转换为可读格式(图形,文档等),以便可以由计算机解释并由整个组织的员工使用。

需要数据预处理:

  • 它将原始数据转换为有意义的信息。数据处理服务需要熟练的专业人员将不同的技术应用于分析和数据处理。
  • 诸如ML(机器学习)之类的新技术高度依赖于数据。由于数据是这些技术的核心,因此必须以使技术更易于理解的方式或格式来表示数据。
  • 它仅用于通过应用模型获得更好的结果。在ML中,数据格式必须采用适当的方式。一些指定的ML模型需要指定的格式。例如,随机森林算法不支持NULL值。因此,要执行随机森林算法,必须从原始数据集中管理NULL值。
  • 数据集应采用以下格式进行格式化:在一个数据集中执行多个ML和深度算法,然后从中进行选择。
  • 它提高了ML模型的准确性和效率,因为数据预处理需要清理数据并使其适合ML模型的任务。
  • 它提供并改善了ML模型的通用性。对于任何ML应用,数据都是通过“传感器”收集或收集的。所使用的传感器可以是物理设备,仪器,许多软件程序,例如网络爬虫,手动测量等。

数据预处理技术的类型:

  1. 重新缩放数据–
    当我们的数据由具有不同比例的属性组成时,主要是ML算法可以从重新缩放属性中受益。这意味着数据集的所有属性都具有相同的尺度,从而使数据集的测量参数保持一致。这也用于优化算法以保持数据集的一致性。
  2. 二进制化数据–
    二进制化是用于将任何实体的数据特征转换为二进制数的过程。这样做是为了更有效地对算法进行分类。要转换为二进制,我们可以使用二进制阈值来转换数据。所有高于阈值的值都标记为1,所有等于或低于阈值的值都标记为0。这称为对数据进行二值化。当您拥有想要使Crip增值的价值时,这将很有帮助。
  3. 数据扩充–
    数据扩充是一种策略,允许从业者或科学家在无需收集或收集新数据的情况下,增加用于训练模型的可用数据的多样性。它只是意味着借助培训数据中可用的信息来增加数据量。有时,我们需要更多的数据,并需要尽可能多的数据变化以获得更好的概括性。但是数据集不足以捕获变化。在这种情况下,数据扩充非常有帮助,并且起着非常重要的作用。

    下面提供了各种类型的数据增强:

    • 翻动 :
      我们可以水平或垂直翻转图像。某些框架不提供垂直功能。但是我们可以通过旋转180度的图像来执行垂直翻转,然后执行水平翻转。
    • 规模 :
      图像可以按比例缩放,也可以按比例缩放。在扩展范围时,最终图像的大小比原始图像长。在缩放世界时,最终图像尺寸小于实际图像。
    • 庄稼 :
      与缩放不同,我们只是从原始图像中随机选择部分。之后,我们将所选部分的尺寸调整为原始图像尺寸。此方法也称为随机裁剪。
    • 翻译 :
      它仅涉及沿x轴或y轴或两者的运动图像。这种增强方法非常有用。这是因为对象几乎可以位于图像中的任何位置。