¿Qué es un ingeniero de confiabilidad del sitio (SRE)?

Un ingeniero de confiabilidad del sitio, o SRE, es un rol que abarca aspectos tanto de la ingeniería de software como de las operaciones / infraestructura. También abarca una estrategia y un conjunto de prácticas y principios en todas las ofertas de servicios y está estrechamente vinculado a DevOps y operaciones. El término ingeniería de confiabilidad del sitio surgió por primera vez en Google en 2003 cuando se creó un equipo de confiabilidad del sitio. En ese momento, el equipo estaba formado por ingenieros de software. Desde entonces, el concepto de ingeniería de confiabilidad del sitio ha evolucionado y se ha abierto camino en la industria de desarrollo de software más amplia y ahora es su propio papel dentro de las organizaciones.

Los ingenieros de confiabilidad del sitio cierran la brecha entre las operaciones y los desarrolladores de software. Si bien no existe un enfoque único para lo que hace un ingeniero de confiabilidad del sitio de una organización a otra, en términos generales, la responsabilidad de un ingeniero de confiabilidad del sitio puede abarcar una amplia gama de objetivos, como administrar y monitorear la disponibilidad del sistema, la latencia, el rendimiento, la eficiencia, la respuesta a incidentes, así como la planificación de la capacidad de los servicios de una organización. Profundicemos en esto para comprender más sobre este papel y cómo funciona dentro de las organizaciones.

 

¿Qué es la ingeniería de confiabilidad del sitio?

Para pensarlo de otra manera, la ingeniería de confiabilidad del sitio es donde se encuentran el rol tradicional de TI, o el rol de administración del sistema, y DevOps. En un entorno de TI tradicional, las organizaciones pueden haber tenido un equipo de administradores de sistemas que administran sistemas complejos. El enfoque y la responsabilidad son garantizar que el software se implemente correctamente y brindar un servicio confiable a los usuarios finales. Además, su función incluye la gestión de cualquier problema o que ocurra después de la implementación del software.

Sin embargo, los administradores de sistemas no se centran en el desarrollo de software real, que es donde los roles de desarrollo y administrador de sistemas pueden estar en desacuerdo. Los desarrolladores se centran en producir software y ponerlo en manos de los usuarios, no necesariamente preocupados por los aspectos o efectos de la implementación de software. Es en este cruce donde entra en juego el rol de ingeniero de confiabilidad del sitio. Los ingenieros de confiabilidad del sitio se centran en la creación de sistemas de software escalables y confiables, por lo que esto también incluye garantizar que el trabajo de desarrollo sea eficiente y confiable, para que cuando el producto terminado esté listo para la producción, no haya sorpresas.

 

¿Qué hace un ingeniero de confiabilidad del sitio?

La ingeniería de confiabilidad del sitio implica dividir el tiempo entre las operaciones y el desarrollo. Por ejemplo, un ingeniero de confiabilidad del sitio puede estar involucrado con tickets de mesa de ayuda, incidentes de guardia, tareas manuales, etc. Además de eso, un ingeniero de confiabilidad del sitio también puede dedicar su tiempo a proyectos proactivos, como automatización, mejora de la confiabilidad del sistema, etc., tratando de reducir la cantidad de trabajo manual y asegurando que todos los componentes (infraestructura / hardware, middleware, software, etc.) que se requieren para mantener las implementaciones de software en vivo se ejecuten de manera eficiente.

 

¿Cuáles son algunas responsabilidades comunes de SRE?

Las responsabilidades reales de SRE varían de una empresa a otra, pero en su mayor parte, un equipo de SRE o SRE es responsable de todos los aspectos de sus ofertas de servicios, y puede requerir una, todas o más que las siguientes responsabilidades que se enumeran a continuación:

  • Planificación de la capacidad
  • Disponibilidad
  • Rendimiento
  • Monitoreo
  • Respuesta a incidentes
  • Soporte de guardia
  • Post-Mortem

Entonces, como puede ver, un rol de SRE tiende a ser un gato de todos los oficios. Un minuto un SRE podría estar aprovisionando almacenamiento en AWS, al minuto siguiente un SRE podría tener que hablar con los clientes o ir a escribir código Python para un nuevo proyecto. Realmente depende del día.

 

¿Qué herramientas utilizan los SRO?

Las herramientas y soluciones de software que los ingenieros de confiabilidad del sitio pueden variar mucho de una organización a otra. Una de las principales razones es que en las organizaciones más grandes, normalmente habría más personal dentro de un equipo de SRE, por lo tanto, las responsabilidades y el alcance de cada SRE se dividirían entre el equipo, lo que resultaría en un papel más enfocado. A su vez, esto también reduciría la gama de herramientas y plataformas que utilizarían. Así, por ejemplo, en una organización empresarial más grande, un SRE puede trabajar en Jenkins todo el día, todos los días.

Por otro lado, un equipo de ingeniería de confiabilidad del sitio o un individuo en una organización más pequeña puede tener que usar muchos más sombreros, ya que el personal probablemente sería limitado, por lo tanto, su conjunto de herramientas tendría que incluir todo, desde plataformas de gestión de configuración y sistemas automatizados de respuesta a incidentes hasta herramientas de monitoreo y análisis. Es posible que ya esté familiarizado con algunas de las herramientas que utiliza un SRE, como Docker, Terraform, Prometheus y Kibana.

Lea: Las 13 mejores herramientas de ingenieros de confiabilidad del sitio (SRE)para obtener más información sobre las herramientas más populares que los ingenieros de confiabilidad del sitio usan hoy en día.

 

¿Dónde puedo obtener más información sobre la ingeniería de confiabilidad del sitio?

El término “Ingeniero de confiabilidad del sitio” se atribuye a Ben Treynor Sloss, ahora vicepresidente de ingeniería de Google. Se le pidió en 2003 que creara y administrara un equipo de siete ingenieros, lo que finalmente lo llevó a crear el nuevo rol / título. Hay algunos excelentes recursos en línea escritos por Ben y varios otros miembros del equipo de ingeniería de Google que cubren todo, desde los principios y principios de los SRE, los roles y responsabilidades de SRE, hasta la evolución del rol de Ingeniería de confiabilidad del sitio y dónde se encuentra en los entornos DevOps actuales. No hay mejor manera de aprender más sobre la ingeniería de confiabilidad del sitio que del individuo y la organización que creó el rol en primer lugar, ¿verdad?

También hay una gran lista de recursos de ingeniería de confiabilidad del sitio ubicados en GitHub.

 

Conclusión: ¿Qué es un Ingeniero de Confiabilidad del Sitio (SRE)?

Como hemos cubierto, un SRE es más que solo su rol tradicional de administrador de operaciones o sistemas. Un SRE utiliza su amplia experiencia y conocimiento para ayudar a automatizar y crear eficiencias en sus servicios de software y organización. Un buen SRE es alguien que es, en general, un excelente solucionador de problemas. No tienen que ser necesariamente los expertos en todo lo que hacen, pero deben tener una comprensión de muchas disciplinas diferentes y saber qué pasos y técnicas llevar a cabo cuando surgen problemas. También tienen que entender cómo los diferentes roles dentro de su organización trabajan juntos para llevar a cabo tareas y proyectos de manera efectiva. Es como armar constantemente un rompecabezas grande y complicado. Puede ser muy frustrante y exigente a veces, y las piezas a veces pueden perderse, pero una vez que lo has terminado, hay una gran cantidad de orgullo y logro.

Como parte de la responsabilidad de una SRE, el monitoreo y la observabilidad son un componente clave de sus funciones. Las soluciones de monitoreo sintético de Dotcom-Monitor permiten a los equipos de SRO y DevOps simular y monitorear a los usuarios a través de un sistema o servicio. La plataforma Dotcom-Monitor permite a los SRO configurar alertas de monitoreo personalizadas y se integra con plataformas de incidentes y alertas como PagerDuty, VictorOps, AlertOps, así como muchas otras. Además, los SRO pueden ver paneles en tiempo real, acceder a informes y revisar análisis para identificar rápidamente los problemas de rendimiento. Es vital que los SSE y los equipos monitoreen continuamente el estado de las aplicaciones y la infraestructura para garantizar que comprendan la confiabilidad, la accesibilidad y el rendimiento general de su infraestructura.

Obtenga más información sobre Dotcom-Monitor y cómo puede usar la plataforma para profundizar en el monitoreo y la observabilidad para obtener una mejor visión de sus aplicaciones e infraestructura.

 

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on email
Email
Share on print
Impresión