什么是站点可靠性工程师 (SRE)?

站点可靠性工程师(SRE)是一个涵盖软件工程和运营/基础设施各个方面的角色。 它还包含一系列跨服务产品的战略、实践和原则,与 DevOps 和运营密切相关。 术语站点可靠性工程于 2003 年在 Google 首次出现,当时成立了一个站点可靠性团队。 当时,该团队由软件工程师组成。 自那时以来,站点可靠性工程的概念已经演变,并逐渐进入更广泛的软件开发行业,现在它自己在组织中的角色。

站点可靠性工程师弥合了运营和软件开发人员之间的差距。 虽然没有一种大小适合网站可靠性工程师从组织到组织的工作的所有方法,但从广义上讲,站点可靠性工程师的职责可以涵盖广泛的目标,例如管理和监控系统可用性、延迟、性能、效率、事件响应以及组织服务的能力规划。 让我们深入探讨这一点,以进一步了解这个角色及其在组织内的运作方式。

 

什么是站点可靠性工程?

换一种方式来思考这个问题,站点可靠性工程是传统 IT 角色或系统管理角色与 DevOps 交汇的地方。 在传统的 IT 环境中,组织可能拥有一组管理复杂系统的系统管理员。 重点和责任是确保软件部署得当,为最终用户提供可靠的服务。 此外,他们的职责包括管理软件部署后发生的任何问题或发生的问题。

但是,系统管理员并不关注实际的软件开发,而实际软件开发与系统管理员角色可能会产生分歧。 开发人员专注于生产软件并将其交到用户手中,而不一定关注软件部署的各个方面或影响。 正是在这个交汇点,现场可靠性工程师的角色进来。 站点可靠性工程师专注于创建可扩展和可靠的软件系统,因此这也包括确保开发工作高效可靠,因此当成品准备生产时,不会出现意外。

 

站点可靠性工程师是做什么的?

站点可靠性工程涉及在操作和开发之间划分时间。 例如,站点可靠性工程师可能涉及帮助台票、随叫随到的事件、手动任务等。 除此之外,站点可靠性工程师还可以将时间花在主动项目上,如自动化、提高系统可靠性等,努力减少人工工作量,并确保保持软件部署的有效运行所需的所有组件(基础设施/硬件、中间件、软件等)。

 

什么是一些共同的 SRE 责任?

实际 SRE 责任因公司而异,但在大多数情况下,SRE 或 SRE 团队负责其服务提供的所有方面,并且可能需要一项、全部或超过下列以下职责:

  • 容量规划
  • 可用性
  • 性能
  • 监测
  • 事件响应
  • 待命支持
  • 验尸

因此,正如您所看到的,SRE 角色往往是所有行业的千斤顶。 一分钟 SRE 可能会在 AWS 中预配存储,下一分钟 SRE 可能需要与客户交谈或为新项目编写一些 Python 代码。 这真的取决于一天。

 

SREs 使用哪些工具?

网站可靠性工程师的工具和软件解决方案可能因组织而异。 其中一个主要原因是,在较大的组织中,SRE 团队中通常会有更多的人员,因此,每个 SRE 的责任和范围将分配给团队,从而产生更集中的角色。 反过来,这也将减少他们将使用的工具和平台的范围。 因此,例如,在较大的企业组织中,SRE 可能每天在 Jenkins 工作一整天。

另一方面,小型组织的站点可靠性工程团队或个人可能必须戴更多的帽子,因为人员可能有限,因此,他们的工具组必须包括从配置管理平台和自动事件响应系统到监控和分析工具等所有内容。 您可能已经熟悉了 SRE 使用的一些工具,例如多克、地形、普罗米修斯和基巴纳。

阅读前 13 名站点可靠性工程师 (SRE) 工具,以了解更多有关网站可靠性工程师当前使用的最流行的工具。

 

我在哪里可以了解更多有关站点可靠性工程的了解?

“站点可靠性工程师”一词归于本·特雷诺·斯洛斯,他现在是谷歌工程副总裁。 2003年,他被要求创建和管理一个由七名工程师组成的团队,最终导致他创造了新的角色/头衔。 Ben 和其他几位 Google 工程团队成员编写了一些 伟大的在线资源 ,涵盖了从 SRE 的原则和原则、SRE 角色和责任到站点可靠性工程角色的演变以及它在当今 DevOps 环境中所处的位置等所有内容。 没有比从最初创建该角色的个人和组织更多地了解站点可靠性工程更好的方法了,对吗?

GitHub 上还有大量 站点可靠性工程资源

 

结论:什么是站点可靠性工程师 (SRE)?

正如我们所涵盖的,SRE 不仅仅是您的传统操作或系统管理员角色。 SRE 利用其丰富的经验和知识,帮助其软件服务和组织实现自动化并提高效率。 一个好的 SRE 是一个总的来说是一个很好的问题解决者的人。 他们不必成为他们所做的一切的专家,但他们必须掌握许多不同的学科,并知道当问题出现时要采取什么步骤和技术。 他们还必须了解其组织内的不同角色如何协同工作,以便有效地执行任务和项目。 这就像不断拼凑一个大的,复杂的谜题。 它有时可能非常令人沮丧和苛刻,有时碎片可能会丢失,但一旦你完成了它,有大量的骄傲和成就。

作为 SRE 职责的一部分,监控和可观察性是其职责的一个关键组成部分。 Dotcom-Monitor 的 合成监控解决方案 允许 SREs 和 DevOps 团队通过系统或服务模拟和监控用户。 Dotcom-Monitor 平台允许 SREs 设置定制的监控警报,并与寻呼机、VictorOps、AlertOps 等事件和警报平台 以及许多其他平台集成。 此外,SRE 还可以查看 实时仪表板、访问报告和查看分析 ,以便快速识别性能问题。 SREs 和团队必须持续监控应用程序和基础设施的健康状况,以确保了解其基础设施的可靠性、可访问性和整体性能。

了解更多有关 Dotcom-Monitor 的信息,以及如何利用该平台深入到监控和可观察性中,以便更好地了解您的应用程序和基础设施。

 

Facebook
Twitter
LinkedIn
电子邮件
打印
server monitoring tools

Top 25 Server Monitoring Tools

In this article we give our expert picks of the top 25 server monitoring tools to help monitor your website’s uptime and give your users the best experience, starting with our own solution at Dotcom-Monitor. Learn why server monitoring is an essential part of any monitoring strategy.

阅读更多 »
synthetic monitoring tools

前 20 名综合监控工具

综合监控允许团队从每个可以想象的有利位置全天候监控和测量网站和 Web 应用程序性能,并在问题开始影响实际用户之前接收警报。 以下是我们对综合监控工具的首选,以我们自己的 Dotcom 监视器为首。

阅读更多 »