O que é um SRE (Site Reliability Engineer) ?

Um engenheiro de confiabilidade do local, ou SRE, é um papel que abrange aspectos tanto da engenharia de software quanto das operações/infraestrutura. Também engloba uma estratégia e um conjunto de práticas e princípios entre as ofertas de serviços e está intimamente ligado aos DevOps e às operações. O termo engenharia de confiabilidade do site surgiu pela primeira vez no Google em 2003, quando uma equipe de confiabilidade do site foi criada. Naquela época, a equipe era composta por engenheiros de software. Desde então, o conceito de engenharia de confiabilidade do site evoluiu e entrou na indústria de desenvolvimento de software mais ampla e agora é seu próprio papel dentro das organizações.

Os engenheiros de confiabilidade do local fazem a ponte entre as operações e os desenvolvedores de software. Embora não haja um tamanho que se encaixe em toda a abordagem do que um engenheiro de confiabilidade do site faz de organização para organização, em linhas gerais, a responsabilidade de um engenheiro de confiabilidade do site pode abranger uma ampla gama de objetivos, como gerenciamento e monitoramento da disponibilidade do sistema, latência, desempenho, eficiência, resposta a incidentes, bem como planejamento de capacidade dos serviços de uma organização. Vamos aprofundar isso para entender mais sobre esse papel e como ele funciona dentro das organizações.

 

O que é engenharia de confiabilidade do site?

Para pensar de outra maneira, a engenharia de confiabilidade do site é onde o papel tradicional de TI, ou papel de administração do sistema, e Os DevOps se encontram. Em um ambiente tradicional de TI, as organizações podem ter tido uma equipe de administradores de sistemas gerenciando sistemas complexos. O foco e a responsabilidade é garantir que o software seja implantado corretamente e fornecer um serviço confiável aos usuários finais. Além disso, sua função inclui gerenciar quaisquer problemas ou que ocorram implantação de pós-software.

No entanto, os administradores do sistema não estão focados no desenvolvimento real de software, que é onde as funções de desenvolvimento e administrador de sistemas podem estar em desacordo. Os desenvolvedores estão focados em produzir software e obtê-lo nas mãos dos usuários, não necessariamente preocupados com os aspectos ou efeitos da implantação de software. É nesta junção onde entra o papel de engenheiro de confiabilidade do local. Os engenheiros de confiabilidade do local estão focados na criação de sistemas de software escaláveis e confiáveis, por isso isso também inclui garantir que o trabalho de desenvolvimento seja eficiente e confiável, portanto, quando o produto acabado estiver pronto para produção, não há surpresas.

 

O que faz um engenheiro de confiabilidade do site?

A engenharia de confiabilidade do local envolve dividir o tempo entre operações e desenvolvimento. Por exemplo, um engenheiro de confiabilidade do site pode estar envolvido com bilhetes de help desk, incidentes de plantão, tarefas manuais, etc. Além disso, um engenheiro de confiabilidade do site também pode gastar seu tempo em projetos proativos, como automação, melhoria da confiabilidade do sistema, etc., tentando reduzir a quantidade de trabalho manual e garantindo que todos os componentes (infraestrutura/hardware, middleware, software, etc.) que são necessários para manter as implantações de software ao vivo estão funcionando de forma eficiente.

 

Quais são algumas responsabilidades comuns da SRE?

As responsabilidades reais da SRE variam de empresa para empresa, mas, na maioria das vezes, uma equipe SRE ou SRE é responsável por todos os aspectos de suas ofertas de serviços, podendo exigir uma, todas ou mais do que as seguintes responsabilidades listadas abaixo:

  • Planejamento de Capacidade
  • Disponibilidade
  • desempenho
  • monitorização
  • Resposta a Incidentes
  • Suporte de plantão
  • Post-Mortem

Então, como você pode ver, um papel SRE tende a ser um valete de todos os negócios. Em um minuto um SRE pode estar fornecendo armazenamento no AWS, no minuto seguinte um SRE pode ter que falar com os clientes ou ir escrever algum código Python para um novo projeto. Depende muito do dia.

 

Quais ferramentas os SREs usam?

As ferramentas e soluções de software que os engenheiros de confiabilidade do site podem variar muito de organização para organização. Uma das principais razões é que, em organizações maiores, normalmente haveria mais pessoal dentro de uma equipe da SRE, portanto, as responsabilidades e o escopo de cada SRE seriam divididos entre a equipe, resultando em um papel mais focado. Por sua vez, isso também reduziria o leque de ferramentas e plataformas que eles usariam. Então, por exemplo, em uma organização empresarial maior, um SRE pode apenas trabalhar em Jenkins todos os dias, todos os dias.

Por outro lado, uma equipe de engenharia de confiabilidade do site ou indivíduo em uma organização menor pode ter que usar muito mais chapéus, já que o pessoal provavelmente seria limitado, portanto, seu conjunto de ferramentas teria que incluir tudo, desde plataformas de gerenciamento de configuração e sistemas automatizados de resposta a incidentes até ferramentas de monitoramento e análise. Você já deve estar familiarizado com algumas das ferramentas que um SRE usa, como Docker, Terraform, Prometeu e Kibana.

Leia: Top 13 Site Reliability Engineer (SRE) Ferramentapara saber mais sobre as ferramentas mais populares que os engenheiros de confiabilidade do site usam hoje.

 

Onde posso aprender mais sobre engenharia de confiabilidade do site?

O termo “Engenheiro de Confiabilidade do Site” é atribuído a Ben Treynor Sloss, agora vice-presidente de engenharia do Google. Ele foi convidado em 2003 para criar e gerenciar uma equipe de sete engenheiros que eventualmente o levou a criar o novo papel/título. Existem alguns grandes recursos on-line escritos por Ben e vários outros membros da equipe de engenharia do Google que cobrem tudo, desde os princípios e princípios dos SREs, funções e responsabilidades do SRE, até a evolução do papel de Engenharia de Confiabilidade do Site e onde ele está nos ambientes de DevOps atuais. Não há melhor maneira de aprender mais sobre engenharia de confiabilidade do site do que com o indivíduo e organização que criou o papel em primeiro lugar, certo?

Há também uma grande lista de recursos de engenharia de confiabilidade do site localizados no GitHub.

 

Conclusão: O que é um SRE (Site Reliability Engineer) ?

Como cobrimos, um SRE é mais do que apenas sua função de administrador de operações ou sistema tradicional. A An SRE usa sua amplitude de experiência e conhecimento para ajudar a automatizar e criar eficiências em seus serviços de software e organização. Um bom SRE é alguém que é, em geral, um excelente solucionador de problemas. Eles não precisam necessariamente ser os especialistas em tudo o que fazem, mas devem ter uma compreensão de muitas disciplinas diferentes e saber quais passos e técnicas realizar quando surgem questões. Eles também têm que entender como diferentes papéis dentro de sua organização trabalham juntos para realizar efetivamente tarefas e projetos. É como constantemente montar um grande e complicado quebra-cabeça. Pode ser muito frustrante e exigente às vezes, e peças às vezes podem desaparecer, mas uma vez que você terminou, há muito orgulho e realização.

Como parte da responsabilidade de um SRE, o monitoramento e a observância são um componente fundamental de suas funções. As soluções de monitoramento sintético do Dotcom-Monitor permitem que as equipes de SREs e DevOps simulem e monitorem os usuários através de um sistema ou serviço. A plataforma Dotcom-Monitor permite que os SREs configurem alertas de monitoramento personalizados e se integra com plataformas de incidentes e alertas como PagerDuty, VictorOps, AlertOps, bem como muitas outras. Além disso, os SREs podem visualizar painéis em tempo real, relatórios de acesso e análises de revisão para identificar rapidamente problemas de desempenho. É vital que as SREs e equipes monitorem continuamente a saúde das aplicações e da infraestrutura para garantir a compreensão da confiabilidade, acessibilidade e desempenho geral de sua infraestrutura.

Saiba mais sobre o Dotcom-Monitor e como você pode usar a plataforma para aprofundar o monitoramento e a observância para obter uma melhor visão de seus aplicativos e infraestrutura.

 

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on email
Email
Share on print
Print