什么是数据清理?
清理也称为数据清理。数据清洗过程检测并消除错误和异常并提高数据质量。由于数据输入过程中的拼写错误、缺失值或任何其他无效数据,都会出现数据质量问题。
从根本上说,数据清理是保证准确和正确收集信息的过程。此流程尤其适用于在业务运营期间依赖电子数据的公司。在此过程中,会使用多种工具来检查文档的稳定性和准确性。
通过使用数据清理软件,您的系统将受够了减少系统的不必要的材料。
“脏”数据虚拟值的原因:
- 缺乏数据
- 多用途领域
- 神秘数据
- 矛盾的数据
- 地址线使用不当
- 违反业务规则
- 重用主键
- 非唯一标识符
- 数据整合问题
- 为什么需要数据清理或清理?
- 源系统数据不干净;它包含某些错误和不一致之处。
- 有专门的工具可用于清理数据。
- 一些领先的数据清理供应商包括 Validity (integrity)、Harte-Hanks (Trillium) 和 First brick。
数据清理作为一个过程
1 .数据清理作为一个过程的第一步是差异检测。差异可能由多种因素引起,包括数据输入中的人为错误、故意错误和数据延迟。一致的数据表示和不一致的代码使用也可能导致差异。
在检测到差异后,我们将使用我们已经掌握的关于数据属性的知识来查找需要调查的噪声、外在和异常值。
还应检查有关唯一规则、一致规则和空规则的数据。
- 唯一的规则规定给定属性的每个值必须不同于该属性的所有其他值。
- 连续规则规定属性的最小值和最大值之间不能有缺失值,并且所有值必须是唯一的。
- 空规则指定使用空格、问号、特殊字符或其他表示空条件的字符串以及应如何处理这些值。
- 空规则应指定如何记录空条件。
2 .一旦我们发现差异,我们通常需要定义并应用转换来纠正它们。异常检测和数据转换的两个阶段过程。某些更改可能会引入更多差异。
数据清理的新方法强调越来越不人道。在此工具中,可以将更改指定为下划线。结果立即显示在屏幕上出现的记录上。用户可以选择撤消更改,以便可以删除引入额外错误的更改。
数据清理/擦洗步骤
1. 解析:解析是在源系统中定位和识别单个数据元素,然后将这些元素分离到目标文件中的过程。例如,将名称解析为名字、中间名和姓氏,或者将地址解析为街道名称、城市、州和国家/地区。
2. 更正:这是解析后的下一步,其中使用数据算法和辅助数据源修复单个数据元素。例如,在地址属性中替换虚地址并添加邮政编码。
3. 标准化:在标准化中,流程转换例程用于使用标准和自定义业务规则转换数据一致格式。例如,添加前名、替换昵称和使用首选名称。
4. 匹配:匹配过程包括通过使用某些标准业务规则搜索具有已解析、更正和标准化数据的记录来消除重复。例如,识别相似的名称和地址。
5. 合并:合并涉及通过分析和识别记录的记录之间的关系将记录合并为一个表示。
6. 数据清理必须处理多种类型的最终错误:
- 数据中可能存在许多错误,例如缺少数据或一个来源的数据不正确。
- 当涉及多个来源时,可能会出现不一致和冲突的数据。所以数据清理必须处理所有这些类型的错误。
7. 数据分期:
- 数据分段是数据提取和其余步骤之间的中间步骤。
- 数据是从异步源存储的,使用各种流程,例如本机接口、平面文件、FTP 会话。
- 在某个预定义的时间间隔后,数据在转换过程之后被加载到仓库中。
- 暂存文件没有最终用户访问权限。
- 对于数据分级,可以使用操作数据存储。
数据清理的重要性
- 更多存储空间:鉴于我们正在删除所有那些不必要的条目,我们正在为所有其他数据释放大量存储空间。
- 更准确:通过使用此软件程序,我们的数据库适合执行更准确和准确的数据。这也将帮助您在更短的时间内获得更多相关信息。
- 营销成本低:这是通过执行从数据源中提取重复文档的方法来实现的,从而降低了广告运输成本。