📜  大数据系统的预期属性

📅  最后修改于: 2021-10-20 12:08:18             🧑  作者: Mango

先决条件 – 大数据简介,大数据的好处
根据大数据中的可扩展性,有各种属性主要依赖于复杂性。根据这些特性,大数据系统也应该表现良好、高效和合理。让我们逐步探索这些属性。

  1. 稳健性和容错性 –
    从分布式系统中遇到的障碍来看,构建一个“做正确的事”的系统是相当艰巨的。尽管机器随机停机、分布式数据库中的一致性的复合语义、冗余、并发等等,系统仍需要以正确的方式运行。这些障碍使系统功能的推理变得复杂。大数据系统的健壮性是克服与之相关的障碍的解决方案。

    容忍人为错误的制度是霸道的。这是系统的一个经常被忽视的属性,不容忽视。在生产系统中,系统运算符可能会犯错误的霸道,例如提供可能会中断数据库功能的错误程序。如果在大数据系统的核心中构建了重新计算和不变性,那么该系统将通过提供相关且非常简单的恢复机制,对人为错误具有独特的鲁棒性。

  2. 可调试性——
    当不公平的事情发生时,系统必须通过大数据系统传递的所需信息进行调试。密钥必须能够识别系统中的每个值。 Debuggability 通过批处理层的功能行为并在需要时借助重新计算算法精通 Lambda 架构。
  3. 可扩展性——
    这是通过向系统添加资源来处理数据和负载不断增长的情况下的性能的趋势。 Lambda 架构可以直接对角扩展到系统堆栈的所有层:扩展是通过包含更多机器来实现的。

  4. 概括——
    宽范围的应用程序可以是在一般的系统的函数。由于 Lambda 架构基于所有数据的函数,因此可以在一个通用系统中运行多个应用程序。此外,Lambda 架构可以泛化社交网络、应用程序等。
  5. 临时查询 –
    对数据执行即席查询的能力非常重要。每个大型数据集都包含意想不到的价值。拥有数据挖掘能力,不断为新的应用和业务优化提供机会。
  6. 可扩展性——
    可扩展的系统能够有效地增加函数。有时,新功能或对现有系统功能的更改需要将预先存在的数据重新分配为新的数据格式。大规模数据传输变得容易,因为它是构建可扩展系统的一部分。
  7. 低延迟读取和更新 –
    许多应用程序需要在几毫秒和百毫秒内以低延迟读取。相反,更新延迟因应用程序而异。一些需要的应用程序,以低时延的播出,而与潜伏期数小时有的能函数。在大数据系统中,需要低延迟的应用程序或短时间传播的更新。
  8. 最少的维护 –
    维护就像对开发人员的惩罚。这是保持系统功能流畅所需的操作。这包括阻止何时增加要扩展的机器数量,保持进程在调试的同时运行良好。

    选择可能不太复杂的组件在最少维护方面发挥着重要作用。开发人员总是愿意依赖组件以及非常相关的机制。值得注意的是,分布式数据库更可能出现复杂的内部结构。