📜  数据清洗的挑战和问题

📅  最后修改于: 2022-05-13 01:58:09.110000             🧑  作者: Mango

数据清洗的挑战和问题

在这一部分中,我们绘制了信息净化中的一些悬而未决的问题和困难,到目前为止,目前的方法论肯定无法解决这些问题。这主要涉及管理不同的可选质量作为潜在的调整,监控清除祖先以有效响应二手信息源的变化,以及支持信息净化周期的适当结构的细节和改进。

纠错和冲突解决:

最考验内幕信息清除的问题仍然是质量整改,以消除空间设计错误、限制侵权、复制和无效元组。在许多情况下,可访问的数据和信息不足以决定正确更改元组以消除这些异常。这使得擦除这些元组成为主要的实际安排。如果元组作为一个整体不是无效的,则元组的这种擦除会提示丢失数据。

这种数据丢失可以通过将元组保留在信息分类中来避免,而且可以覆盖不正确的质量,直到可以访问用于错误调整的合适数据。然后,管理人员框架负责授权客户在准备和检查中合并和禁止不正确的元组所需的信息。

在不同的情况下,最好的可能的补救措施是众所周知的。这会提示很多选项值。在解决逻辑不一致和混合副本时,在不确切地知道哪些拒绝尊重是正确的情况下,等效是真实的。监督选修课的能力允许承认错误的修改,直到选择一个选项作为正确的纠正。保持选修素质主要影响监督和处理信息。考虑到这些选项根本不相关这一事实,每个选项都合法地构成了信息分类的特定改编。这是一项专门的测试,以处理各种连贯形式的巨大度量,并仍然赋予精英获取和处理它们的能力。



在进行信息净化时,需要监控所使用的信息形式,因为得出的质量可以依赖于有效选择安排的特定激励。如果这个显性价值后来变得无效,可能是因为另一个价值被选为正确的选择,所有依赖于现在无效价值的发现和调整的品质都必须被处理掉。因此,需要跟上修改后的品质的清除祖先。清除祖先是指在净化某个元组时使用的全部质量和元组。如果谱系中的任何激励无效或更改,则需要修改执行的任务以检查结果是否合法。净化血统的管理也是对伴随的两个部分中描绘的净化困难的热情。

清理数据的维护:

清除信息是一项繁琐且成本高昂的工作。在进行了信息净化并完成了从错误中解放出来的信息分类之后,人们不希望在信息分类的部分质量发生变化后完全执行整个信息净化周期。只是净化周期的某些部分应该被重新播放,这部分是受改变的价值影响的。

这种爱可以通过检查净化遗传来控制。沿着这些路线清除祖先是为已调整的元组保留的,但对于那些在净化循环中被确认为正确的元组也是如此。在信息分类中的质量之一发生变化后,必须为那些包含更改的激励作为其净化祖先的主要方面的元组重新散列净化工作过程。

广阔的含义需要大量额外元信息的分类和管理人员来监控净化祖先。必须创造处理清除遗传的有效方法。同样重要的是,确定必须收集哪些由于底层工作流程执行而产生的额外数据,以便可以选择加速后续的清除工作流程执行。