{"id":22389,"date":"2021-11-16T17:15:21","date_gmt":"2021-11-16T17:15:21","guid":{"rendered":"https:\/\/www.dotcom-monitor.com\/blog\/2021\/11\/16\/principios-da-sre-as-7-regras-fundamentais\/"},"modified":"2026-06-15T15:45:15","modified_gmt":"2026-06-15T15:45:15","slug":"principios-da-sre-as-7-regras-fundamentais","status":"publish","type":"post","link":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/principios-da-sre-as-7-regras-fundamentais\/","title":{"rendered":"Princ\u00edpios da SRE: As 7 Regras Fundamentais"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"22389\" class=\"elementor elementor-22389 elementor-22375\" data-elementor-settings=\"{&quot;ha_cmc_init_switcher&quot;:&quot;no&quot;}\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-7ba9d136 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"7ba9d136\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;jet_parallax_layout_list&quot;:[],&quot;_ha_eqh_enable&quot;:false}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-36cba459\" data-id=\"36cba459\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-616e1a2b elementor-widget elementor-widget-text-editor\" data-id=\"616e1a2b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Em um de <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2021\/10\/06\/what-is-a-site-reliability-engineer-sre\/\">nossos artigos anteriores,<\/a>discutimos o que \u00e9 um SRE, o que eles fazem e algumas das responsabilidades comuns que uma SRE t\u00edpica pode ter, como apoiar opera\u00e7\u00f5es, lidar com multas de problemas e resposta a incidentes, e monitoramento geral do sistema e observabilidade. Neste artigo, vamos dar um mergulho mais profundo nos v\u00e1rios princ\u00edpios e diretrizes da SRE que um engenheiro de confiabilidade do site pratica em seu papel. Como o DevOps, esses princ\u00edpios SRE servem como um guia para impulsionar o alinhamento no que se refere ao alinhamento, reuni\u00e3o e apoio aos objetivos da organiza\u00e7\u00e3o.<\/p><p>O Google foi a primeira empresa a criar, abra\u00e7ar e colocar suporte por tr\u00e1s do papel de engenharia de confiabilidade do site. Desde ent\u00e3o, o papel da SRE evoluiu \u00e0 medida que a ind\u00fastria mudou e passou das estruturas monol\u00edticas tradicionais para grandes redes e microsservi\u00e7os amplamente distribu\u00eddos. No entanto, uma coisa permaneceu em grande parte a mesma coisa \u2013 os princ\u00edpios pelos quais as SREs aderem. Esses princ\u00edpios principais do SRE est\u00e3o focados em uma coisa: sistema de condu\u00e7\u00e3o e confiabilidade do servi\u00e7o. Vamos dar um mergulho mais profundo nesses princ\u00edpios centrais da SRE.<\/p><h2 id='princ\u00edpios-sre'  id=\"boomdevs_1\">Princ\u00edpios SRE<\/h2><h3 id='abra\u00e7ando-e-gerenciando-riscos'  id=\"boomdevs_2\">Abra\u00e7ando e gerenciando riscos<\/h3><p>Abra\u00e7ar o risco \u00e9, na verdade, um dos princ\u00edpios fundamentais do SRE, e \u00e9 f\u00e1cil entender o porqu\u00ea. Para tornar um sistema mais confi\u00e1vel, voc\u00ea deve considerar cen\u00e1rios hipot\u00e9ticos e aprender com poss\u00edveis falhas. Nenhum sistema \u00e9 100% confi\u00e1vel e, em algum momento, algo est\u00e1 fadado a dar errado. Infelizmente, a maioria dos usu\u00e1rios n\u00e3o conhece (ou se preocupa particularmente) com essa realidade. Eles s\u00f3 querem que as coisas funcionem, e sempre h\u00e1 um custo para alcan\u00e7ar essa confiabilidade, seja em dinheiro, tempo ou at\u00e9 mesmo em manter a confian\u00e7a do cliente.<\/p><p>Para os SREs, inclinar-se para o risco e aprender com o fracasso s\u00e3o essenciais para a constru\u00e7\u00e3o de sistemas resilientes. Mas sempre h\u00e1 compensa\u00e7\u00f5es a serem ponderadas. Maximizar a confiabilidade pode significar desacelerar o ritmo de novos recursos ou pode levar a mais custos sem muito aumento na receita. A ideia n\u00e3o \u00e9 tornar um sistema mais confi\u00e1vel do que realmente precisa ser. Afinal, se o esfor\u00e7o e os recursos extras n\u00e3o agregam valor significativo, \u00e9 melhor gast\u00e1-los em outro lugar. No SRE, trata-se de encontrar o n\u00edvel &#8220;certo&#8221; de confiabilidade que equilibra custo, velocidade e valor.<\/p><h3 id='objetivos-de-n\u00edvel-de-servi\u00e7o'  id=\"boomdevs_3\">Objetivos de n\u00edvel de servi\u00e7o<\/h3><p>O princ\u00edpio de abra\u00e7ar o risco est\u00e1 intimamente ligado aos Objetivos de N\u00edvel de Servi\u00e7o (SLOs). Para dividi-lo, os SLOs s\u00e3o metas de desempenho espec\u00edficas dentro de um Acordo de N\u00edvel de Servi\u00e7o (SLA) que s\u00e3o medidas em rela\u00e7\u00e3o aos Indicadores de N\u00edvel de Servi\u00e7o (SLIs), as m\u00e9tricas reais que rastreiam o desempenho do seu servi\u00e7o. Por exemplo, se o seu SLO afirma que o tempo de atividade deve ser de 99,9%, o SLI mede se voc\u00ea est\u00e1 atingindo essa marca. Esses SLIs s\u00e3o monitorados continuamente por SREs, portanto, se o desempenho cair abaixo do limite acordado, a equipe ser\u00e1 alertada e poder\u00e1 responder rapidamente. Os SLIs s\u00e3o, em \u00faltima an\u00e1lise, sobre o que \u00e9 mais importante para os usu\u00e1rios, ajudando as equipes a priorizar os aspectos de servi\u00e7o que afetam diretamente a experi\u00eancia do usu\u00e1rio.<\/p><p>Aqui est\u00e1 um r\u00e1pido detalhamento desses termos:<\/p><ul><li>SLAs: Os acordos gerais com clientes ou clientes sobre o n\u00edvel de servi\u00e7o a ser entregue.<\/li><li>SLOs: metas de desempenho espec\u00edficas dentro do SLA, como tempo de atividade, tempo de resposta ou padr\u00f5es de seguran\u00e7a.<\/li><li>SLIs: as medidas de desempenho reais que rastreiam a conformidade com os SLOs.<\/li><\/ul><p>Em ess\u00eancia, os SLOs permitem que as equipes me\u00e7am o desempenho real em rela\u00e7\u00e3o ao SLA, estabelecendo expectativas claras sobre a qualidade do servi\u00e7o. Essa estrutura refor\u00e7a que h\u00e1 uma toler\u00e2ncia acordada para o risco, definindo quanta variabilidade ou tempo de inatividade um servi\u00e7o pode sustentar enquanto ainda atende \u00e0s necessidades do usu\u00e1rio e \u00e0s metas de neg\u00f3cios.<\/p><p><strong>Leia<\/strong>: Saiba mais sobre <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2020\/06\/16\/sla-compliance-for-saas-businesses\/\">como gerenciar a conformidade com sla<\/a> dentro de sua organiza\u00e7\u00e3o.<\/p><h3 id='eliminar-o-labuta'  id=\"boomdevs_4\">Eliminar o labuta<\/h3><p>O trabalho, como \u00e9 definido com o escopo da fun\u00e7\u00e3o SRE, \u00e9 a quantidade de trabalho manual que \u00e9 necess\u00e1ria para garantir que os servi\u00e7os estejam em execu\u00e7\u00e3o. Um dos principais objetivos de um SRE \u00e9 automatizar o m\u00e1ximo de trabalho poss\u00edvel. Isso permite que os SREs abram mais tempo para tarefas mais importantes. E quando voc\u00ea pensa sobre isso, reduzir a labuta deve realmente ser uma parte do trabalho de qualquer um. Quanto menos tempo necess\u00e1rio em tarefas redundantes \u00e9 garantir melhor produtividade a longo prazo. Sempre que um engenheiro de confiabilidade do local deve se envolver em atividades manuais repetitivas, no que diz respeito \u00e0 gest\u00e3o do servi\u00e7o de produ\u00e7\u00e3o, isso pode ser descrito como labuta.<\/p><p>Em muitos casos, pode haver ocasi\u00f5es em que um SRE tem que realizar atividades manuais e demoradas, mas nem todas devem ser definidas como labuta. No entanto, \u00e9 fundamental definir quais atividades dentro da equipe SRE est\u00e3o consumindo mais tempo. A partir da\u00ed, identifique onde podem ser feitas melhorias para reduzir a quantidade de trabalho para um melhor equil\u00edbrio no trabalho. Quando o Google introduziu pela primeira vez o papel do SRE, eles estabeleceram uma meta de que metade de um tempo de SREs deve ser focado em reduzir o trabalho operacional futuro ou adicionar recursos de servi\u00e7o. O desenvolvimento de novos recursos se correlaciona com a melhoria de m\u00e9tricas como confiabilidade e desempenho, o que acaba por reduzir o potencial de labuta para baixo da linha.<\/p><h3 id='monitoriza\u00e7\u00e3o'  id=\"boomdevs_5\">monitoriza\u00e7\u00e3o<\/h3><p>No Dotcom-Monitor, trata-se de <a href=\"https:\/\/www.dotcom-monitor.com\/solutions\/\">monitorar solu\u00e7\u00f5es<\/a> para rastrear tempo de atividade, disponibilidade, funcionalidade e desempenho total de servidores, sites, servi\u00e7os e aplicativos. O monitoramento \u00e9 um dos princ\u00edpios mais importantes da SRE dentro do papel. O monitoramento cont\u00ednuo garante que os servi\u00e7os estejam funcionando conforme o planejado e pode ajudar a identificar os problemas de momento surgidos para que possam ser corrigidos imediatamente. Como mencionamos na se\u00e7\u00e3o anterior, atender a esses SLOs s\u00e3o fundamentais para os SLAs de neg\u00f3cios definidos e, finalmente, os usu\u00e1rios. O monitoramento pode fornecer \u00e0s SREs e equipes uma tend\u00eancia hist\u00f3rica de desempenho e pode oferecer insights sobre o que \u00e9 um problema pontual versus um problema mais amplo e sist\u00eamico. Conforme definido pela iniciativa Google SRE, os quatro sinais dourados de monitoramento incluem as seguintes m\u00e9tricas:<\/p><ul><li><strong>Lat\u00eancia<\/strong>. Lat\u00eancia \u00e9 a quantidade de tempo, ou atraso, que um servi\u00e7o leva para responder a uma solicita\u00e7\u00e3o. Claramente, tempos de resposta lentos afetar\u00e3o a experi\u00eancia percebida do usu\u00e1rio. O monitoramento pode fornecer uma maneira de diferenciar entre<\/li><li><strong>Tr\u00e2nsito<\/strong>. O tr\u00e1fego refere-se \u00e0 quantidade de demanda do usu\u00e1rio, ou carga, est\u00e1 no sistema. Isso pode ser medido por solicita\u00e7\u00f5es HTTP por segundo ou dependendo do servi\u00e7o real<\/li><li><strong>Erros<\/strong>. Os erros referem-se \u00e0 taxa em que as solicita\u00e7\u00f5es do servi\u00e7o falham. No entanto, \u00e9 importante que as equipes da SRE diferenciem entre falhas dif\u00edceis, como 500 erros de servidor e falhas suaves, como uma resposta de 200 OK que foi cronometrada porque um limite de desempenho espec\u00edfico foi definido. \u00c9 importante considerar como monitorar adequadamente esses diferentes cen\u00e1rios como esses.<\/li><li><strong>Satura\u00e7\u00e3o.<\/strong> Satura\u00e7\u00e3o \u00e9 sobre medir quanto recursos do sistema um determinado servi\u00e7o tem. At\u00e9 certo ponto, a maioria dos servi\u00e7os experimentar\u00e1 degrada\u00e7\u00e3o de desempenho. Entender onde isso ocorre pode ajudar a definir corretamente objetivos e metas de monitoramento, para que a\u00e7\u00f5es corretivas possam ser realizadas.<\/li><\/ul><h3 id='automa\u00e7\u00e3o'  id=\"boomdevs_6\">Automa\u00e7\u00e3o<\/h3><p>Automatizar, automatizar, automatizar. Abordamos esse princ\u00edpio anteriormente quando discutimos a redu\u00e7\u00e3o da labuta, mas ele n\u00e3o pode ser subestimado. A natureza do papel da SRE \u00e9 t\u00e3o diversificada quanto um papel pode ser. A fim de reduzir o potencial de interven\u00e7\u00e3o manual em todas as facetas de suas responsabilidades, automatizar tarefas \u00e9 a chave para um neg\u00f3cio de sucesso. \u00c0 medida que os servi\u00e7os se dimensionam e se tornam mais distribu\u00eddos, torna-se muito mais dif\u00edcil gerenciar. Automatizar tarefas repetitivas em todo o quadro, seja testando, implanta\u00e7\u00e3o de software, resposta a incidentes ou simplesmente comunica\u00e7\u00e3o entre equipes, automatizar fornece benef\u00edcios imediatos, efici\u00eancias e, o mais importante, consist\u00eancia. Desde que o papel da SRE foi concebido, houve uma mudan\u00e7a na forma como as equipes de desenvolvimento, QA e Opera\u00e7\u00f5es colaboram. Para apoiar esses novos ambientes e pr\u00e1ticas DevOps, v\u00e1rias plataformas e ferramentas foram desenvolvidas.<\/p><p><strong>Leia<\/strong>: <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2021\/10\/20\/top-13-site-reliability-engineer-sre-tools\/\">Top 13 Ferramentas de confiabilidade do site (SRE).<\/a><\/p><h3 id='engenharia-de-lan\u00e7amento'  id=\"boomdevs_7\">Engenharia de Lan\u00e7amento<\/h3><p>Liberar engenharia. Parece um assunto complexo, mas na realidade, \u00e9 apenas uma maneira simples de definir como o software \u00e9 constru\u00eddo e entregue. Embora a engenharia de lan\u00e7amento em si seja seu pr\u00f3prio t\u00edtulo e papel, dentro do conceito de SRE, isso significa fornecer servi\u00e7os que sejam est\u00e1veis, consistentes e, claro, repet\u00edveis. Isso remonta \u00e0 se\u00e7\u00e3o anterior sobre automa\u00e7\u00e3o. Se voc\u00ea vai fazer alguma coisa, fa\u00e7a direito e seja capaz de repetir isso novamente, de forma consistente, conforme necess\u00e1rio. Construir um monte de servi\u00e7os pontuais \u00e9 demorado e cria labuta imperdo\u00e1vel.<\/p><p>Se voltarmos \u00e0 hist\u00f3ria da posi\u00e7\u00e3o SRE no Google, eles tinham engenheiros de lan\u00e7amento dedicados que trabalhavam diretamente com SREs. Os engenheiros de vers\u00e3o s\u00e3o normalmente encarregados de definir as melhores pr\u00e1ticas no que se refere ao desenvolvimento de servi\u00e7os de software, implanta\u00e7\u00e3o de atualiza\u00e7\u00f5es, testes cont\u00ednuos e abordagem de problemas de software, al\u00e9m de muitas outras responsabilidades. Esse papel se torna mais cr\u00edtico quando voc\u00ea pensa em como dimensionar servi\u00e7os e implant\u00e1-los rapidamente. Ter um conjunto de melhores pr\u00e1ticas e ferramentas (e aplic\u00e1-las) \u00e9 essencial para poder atender a essas demandas e dar tranquilidade \u00e0s equipes da SRE uma vez que a constru\u00e7\u00e3o \u00e9 colocada em produ\u00e7\u00e3o.<\/p><h3 id='simplicidade'  id=\"boomdevs_8\">Simplicidade<\/h3><p>Com uma posi\u00e7\u00e3o que aparentemente n\u00e3o tem fim para o n\u00famero de responsabilidades e expectativas como o papel SRE tem, o \u00faltimo princ\u00edpio, ironicamente, \u00e9 a simplicidade. Talvez mais f\u00e1cil de dizer do que na pr\u00e1tica, este princ\u00edpio se concentra na ideia de desenvolver um sistema ou servi\u00e7o que seja t\u00e3o complexo quanto necess\u00e1rio. Embora isso possa parecer contra-intuitivo no in\u00edcio, ele realmente se resume a querer um sistema confi\u00e1vel, consistente e previs\u00edvel. Isso pode parecer chato, mas para um SRE, esse \u00e9 um dos objetivos finais finais.<\/p><p>Os SREs se esfor\u00e7am por um sistema ou servi\u00e7o que n\u00e3o seja complexo ou dif\u00edcil de gerenciar. SrEs querem um que simplesmente fa\u00e7a o trabalho que foi projetado para fazer. No entanto, do ponto de vista de um usu\u00e1rio, um servi\u00e7o que fornece uma s\u00e9rie de recursos tamb\u00e9m pode fornecer uma s\u00e9rie de benef\u00edcios, mas para um SRE, isso significa apenas mais dores de cabe\u00e7a potenciais. No entanto, a mudan\u00e7a \u00e9 sempre inevit\u00e1vel se voc\u00ea quiser adicionar novos recursos a um servi\u00e7o web, fa\u00e7a-o cuidadosamente. Mudan\u00e7as menores e incrementais s\u00e3o mais f\u00e1ceis (e mais simples) de gerenciar do que construir e enviar um monte de recursos ao mesmo tempo. Os SREs tamb\u00e9m precisam considerar as necessidades e metas do neg\u00f3cio.<\/p><h2 id='princ\u00edpios-da-sre-as-7-regras-fundamentais-pensamentos-finais'  id=\"boomdevs_9\">Princ\u00edpios da SRE: As 7 Regras Fundamentais &#8211; Pensamentos Finais<\/h2><p>O papel da SRE se concentra na constru\u00e7\u00e3o, entrega e manuten\u00e7\u00e3o de sistemas e servi\u00e7os confi\u00e1veis em escala. Esses sete princ\u00edpios fundamentais de ajuda definem as pr\u00e1ticas para SREs que ajudam a impulsionar o alinhamento dentro das pr\u00e1ticas de DevOps e apoiam os objetivos do neg\u00f3cio. \u00c9 um papel complexo que busca equilibrar a confiabilidade com lan\u00e7amentos de recursos, mantendo n\u00edveis excepcionais de qualidade.<\/p><p>A plataforma Dotcom-Monitor fornece aos SREs todos os <a href=\"https:\/\/www.dotcom-monitor.com\/features\/\">recursos<\/a> de monitoramento necess\u00e1rios para garantir a continuidade de seus servi\u00e7os. Desde alertas e relat\u00f3rios configur\u00e1veis at\u00e9 pain\u00e9is e relat\u00f3rios em tempo real, a plataforma fornece as ferramentas essenciais necess\u00e1rias para gerenciar o desempenho de todos os seus servi\u00e7os a longo prazo. Por exemplo, crie scripts de aplicativos da Web com base no comportamento do usu\u00e1rio, a\u00e7\u00f5es e caminhos e configure tarefas <a href=\"\/blog\/pt-br\/what-is-synthetic-monitoring\/\">de monitoramento sint\u00e9tico<\/a> para garantir uma experi\u00eancia consistente ao longo do tempo. N\u00e3o importa o n\u00edvel de monitoramento que sua equipe precisa, h\u00e1 uma solu\u00e7\u00e3o para atender \u00e0s suas necessidades.<\/p><p>Comece gratuitamente com a <a href=\"https:\/\/userauth.dotcom-monitor.com\/Account\/FreeTrialSignUp\">avalia\u00e7\u00e3o gratuita do Dotcom-Monitor<\/a> ou agende uma <a href=\"https:\/\/www.dotcom-monitor.com\/demo\/\">demonstra\u00e7\u00e3o<\/a> com um de nossos engenheiros de desempenho.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>Em um de nossos artigos anteriores,discutimos o que \u00e9 um SRE, o que eles fazem e algumas das responsabilidades comuns que uma SRE t\u00edpica pode ter, como apoiar opera\u00e7\u00f5es, lidar com multas de problemas e resposta a incidentes, e monitoramento geral do sistema e observabilidade. Neste artigo, vamos dar um mergulho mais profundo nos v\u00e1rios [&hellip;]<\/p>\n","protected":false},"author":21,"featured_media":22382,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5170],"tags":[],"class_list":["post-22389","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-nao-categorizado"],"_links":{"self":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/posts\/22389","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/users\/21"}],"replies":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/comments?post=22389"}],"version-history":[{"count":0,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/posts\/22389\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/media\/22382"}],"wp:attachment":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/media?parent=22389"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/categories?post=22389"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/pt-br\/wp-json\/wp\/v2\/tags?post=22389"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}