📜  现场可靠性工程

📅  最后修改于: 2021-08-29 11:40:08             🧑  作者: Mango

站点可靠性工程,这是技术巨头如今正在实践的一种实践,在这种情况下,将组织的运营问题视为软件工程问题,或者以分配开发人员来解决运营问题的其他方式。基本上,SRE是软件工程师,他们构建各种软件来构建更可靠的系统。出现的问题不是DevOps吗?还是SRE与DevOps哪个更好?

历史 :
这个名词最早是由Google的软件工程师Ben treynor于2003年创造的,这种实践的开始时间早于DevOps运动。不久之后,在他们的场所实施SRE之后,treynor的团队就发布了SRE电子书,以使业界了解这种做法。

站点可靠性工程师(SRE)的职责:

  • SRE对生产中运行的系统负责,并承担呼叫职责。
  • SRE负责开发可提高系统可靠性的软件。
  • 他们负责对发生故障的系统进行事后审查。

SRE vs DevOps:哪个更好?
有一个很好的类比可以更好地理解这两个术语。因此,让我们来看一下DevOps作为接口,即类似于包含没有定义的方法的抽象类,而将SRE视为实现DevOps的具体类。

Interface DevOps{
Reduce Organizational silos();
Accepting failures();
Implement gradual changes();
Leverage Automation();
Measure Everything();
}

现在,SRE作为一个具体的类将实现DevOps,并将所有方法定义为:

  • 通过使用同一套工具在软件工程师,产品团队和SRE之间共享所有权来减少组织孤岛。
  • 接受故障,因为没有系统是100%可靠的,所以故障就在那里,因此SRE执行系统的无懈可击,并为系统生成元数据。
  • 实施小的更改,更改越小,发现问题就越容易,或者解决更改或回滚就越快。从而,降低了故障成本。
  • 利用自动化,在生产系统上尽可能地自动执行手动任务,例如用户创建,安装软件包,警报或日志记录等。
  • 衡量一切,最后监视已实施的正确事情,例如,一天结束时,您应该拥有支持成功的数字或清晰的指标。

    因此,SRE和DevOps并不是相互竞争的标准,而是两者并存。因此,它是带有DevOps的SRE