📅  最后修改于: 2023-12-03 15:05:21.309000             🧑  作者: Mango
作为一名程序员,想要在SRE方向上有所发展,就需要了解SRE的相关知识和应聘面试经验。下面是本人在Linkedin实习面试中的一些经验,供大家参考。
SLA是什么?为什么要有SLA?你熟悉的服务的SLA是什么?
SLA是服务水平协议,是一份合同式的文件,约定了服务提供商与服务使用者之间关于服务质量的保证和规范。在SRE中,SLA是一个重要的概念,需要确保服务在一定时间内保持可用性、性能、容错能力等各方面的稳定性。
你了解哪些应对流程?在遇到紧急问题的时候,你会采取什么措施?你有哪些应对经验?
SRE负责的服务在运行过程中,难免会遇到各种意外情况,如:服务宕机、磁盘损坏、DPDK运行出错等。在这些状况中,你需要能够快速反应,并采取有效措施,确保服务的快速恢复。
通常的应对流程如下:
你对Reliability Engineering(可靠性工程)有哪些理解?理解可靠性的定量指标有哪些?
Reliability Engineering就是快速发现问题并解决,并在未来改进服务以预防类似问题发生的工程化过程。可靠性工程需要定义清晰的监视指标,以便快速定位问题影响并在时间压力下做出准确的解决方案。常用的指标包括:可靠性、可用性、容错性、可维护性等。
机器学习和人工智能是SRE重要的研究领域之一,本人在面试中被问到的问题是:如何利用机器学习/人工智能来改进服务的质量?
本人给出的解决方案是:
在面试中,你需要清晰简单地表达你的思路和解决方案。在介绍解决方案之前,你需要仔细分析面试问题,并准确理解问题。然后,以易于理解的语言,分步说明你的思路。
在SRE领域,你需要掌握SLA、响应流程、可靠性工程等相关知识,并准备好应聘时可能遇到的问题。面试时,要清晰简洁地表达你的解决方案,并为面试官提供问题和设想,展示你的团队合作和沟通能力。希望这篇文章对你的SRE职业发展有所帮助!