{"id":22470,"date":"2021-12-08T16:16:03","date_gmt":"2021-12-08T16:16:03","guid":{"rendered":"https:\/\/www.dotcom-monitor.com\/blog\/?p=22470"},"modified":"2026-06-15T15:43:58","modified_gmt":"2026-06-15T15:43:58","slug":"sre-incident-management-uebersicht-techniken-und-tools","status":"publish","type":"post","link":"https:\/\/www.dotcom-monitor.com\/blog\/de\/sre-incident-management-uebersicht-techniken-und-tools\/","title":{"rendered":"SRE Incident Management: \u00dcbersicht, Techniken und Tools"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"22470\" class=\"elementor elementor-22470 elementor-22458\" data-elementor-settings=\"{&quot;ha_cmc_init_switcher&quot;:&quot;no&quot;}\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-16969f9b elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"16969f9b\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;jet_parallax_layout_list&quot;:[],&quot;_ha_eqh_enable&quot;:false}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-15ab7f6f\" data-id=\"15ab7f6f\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-19ff5f7b elementor-widget elementor-widget-text-editor\" data-id=\"19ff5f7b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>In der Welt eines <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2021\/10\/06\/what-is-a-site-reliability-engineer-sre\/\">Site Reliability Engineer (SRE)<\/a>ist ein Ausfall nicht nur eine Option, sondern auch zu erwarten. Systeme, Webanwendungen, Server, Ger\u00e4te usw. sind alle anf\u00e4llig f\u00fcr Leistungsprobleme und unerwartete Ausf\u00e4lle an einem bestimmten Punkt. Es ist eine unvermeidliche Tatsache. Diese unerwarteten Ausf\u00e4lle k\u00f6nnen zu enormen Umsatzeinbu\u00dfen, Kundenvertrauen und je nach Branche zu Bu\u00dfgeldern f\u00fchren. Gl\u00fccklicherweise ist das SRE-Vorfallmanagement eine der Kernpraktiken, um die durch unerwartete Probleme verursachten St\u00f6rungen zu begrenzen. In einem anderen Artikel haben wir \u00fcber <a href=\"https:\/\/www.loadview-testing.com\/blog\/chaos-engineering-principles-examples-tools\/\" target=\"_blank\" rel=\"noopener\">Chaos Engineering<\/a> gesprochen und dar\u00fcber, wie SRE-Teams proaktiv nach Fehlern suchen und diese testen, um das Schlimmste zu verhindern. Wie wir jedoch alle wissen, k\u00f6nnen Probleme durch die Risse schl\u00fcpfen. Ziel ist es, zu verhindern, dass diese Vorf\u00e4lle zu gro\u00dffl\u00e4chigen kaskadierenden Ausf\u00e4llen werden. SREs und DevOps-Teams k\u00f6nnen diese Vorf\u00e4lle nutzen, um ihre Systeme und Services besser aufzubauen und zu verbessern.<\/p>\n<p><\/p>\n<h2 id='was-ist-ein-vorfall'  id=\"boomdevs_1\">Was ist ein Vorfall?<\/h2>\n<p>Bevor wir uns mehr mit diesem Thema befassen, m\u00fcssen wir zuerst besprechen, was ein Vorfall ist. Wo verl\u00e4uft die Grenze zwischen etwas, das sofortiges Handeln erfordert, und etwas, das sp\u00e4ter untersucht werden kann? Wenn jedes Problem als dringend eingestuft w\u00fcrde, w\u00fcrde niemand eine L\u00f6sung bekommen. Im Kontext der IT (Informationstechnologie) ist ein Vorfall einfach ein Ereignis oder Problem, das den normalen Betrieb oder die Servicequalit\u00e4t st\u00f6rt. Es hat nicht zu einem Fehler gef\u00fchrt, aber wenn es nicht \u00fcberpr\u00fcft wird, hat es die M\u00f6glichkeit, gr\u00f6\u00dfere Auswirkungen auf Ihre Dienste und Abl\u00e4ufe zu haben. Und sie passieren normalerweise um 2:00 Uhr morgens, w\u00e4hrend Sie gl\u00fcckselig schlafen und durch das Ger\u00e4usch Ihres Telefons geweckt werden. Wir machen nat\u00fcrlich Witze, aber Sie wissen, dass etwas schlecht ist, wenn es so fr\u00fch am Morgen passiert. Um 2:00 Uhr morgens passiert nichts Gutes.m, besonders wenn wir \u00fcber die IT-Branche sprechen.<\/p>\n<p><\/p>\n<h2 id='was-ist-incident-management'  id=\"boomdevs_2\">Was ist Incident Management?<\/h2>\n<p>Nun, da wir dar\u00fcber gesprochen haben, was ein Vorfall ist, ist das Incident Management der Prozess, mit dem Teams diese Ereignisse l\u00f6sen und Systeme und Dienste wieder in den normalen Betrieb bringen. Wir sollten auch beachten, dass das Incident Management nur ein Element eines gr\u00f6\u00dferen Konzepts ist, das als IT Service Management oder ITSM bekannt ist. ITSM definiert, wie Teams ihre Services entwerfen, erstellen und bereitstellen. Es ist viel mehr als nur IT-Support. ITSM sind die Richtlinien, Prozesse und Strukturen hinter dem Lebenszyklus von IT-Services. ITSM ist eine der Praktiken der Information Technology Infrastructure Library (ITIL).<\/p>\n<p>ITIL bietet den Rahmen und die Richtlinien f\u00fcr den Aufbau von ITSM-L\u00f6sungen. M\u00f6glicherweise sind Sie bereits mit anderen Frameworks vertraut, z. B. Business Process Framework (eTOM), Control Objectives for Information and Related Technologies (COBIT), FitSM, ISO\/IEC 20000 und Microsoft Operations Framework (MOF).<\/p>\n<p><\/p>\n<h3 id='das-it-service-management-itsm-framework'  id=\"boomdevs_3\">Das IT Service Management (ITSM) Framework<\/h3>\n<p>Wenn wir einen Schritt zur\u00fccktreten und uns nur ein wenig auf die Elemente innerhalb des ITSM-Frameworks konzentrieren, gibt es sechs weitere Komponenten, die das ITSM-&#8220;Rad&#8221; zusammen mit dem Incident Management ausmachen. Wir werden zwar nicht im Detail darauf eingehen, aber es ist wichtig zu verstehen, wie all diese Teile zusammen mit dem Vorfallmanagement zusammenpassen.<\/p>\n<p><\/p>\n<h4 id='servicekatalog'  id=\"boomdevs_4\">Servicekatalog<\/h4>\n<p>Der IT-Servicekatalog ist in der Regel eine Datenbank oder Ressource, die eine Organisation erstellt, um Benutzern Informationen zu ihren betrieblichen Services und Angeboten bereitzustellen. Diese Servicekataloge bieten n\u00fctzliche Informationen zu aktuellen und geplanten Services sowie zu Preisen, Einkaufsprozessen, Ansprechpartnern und anderen Leistungen.<\/p>\n<p><\/p>\n<h4 id='service-desk'  id=\"boomdevs_5\">Service-Desk<\/h4>\n<p>Der Service Desk kann als Kontaktpunkt zwischen dem Dienstleister und den Benutzern wie internen Mitarbeitern, Stakeholdern oder Kunden betrachtet werden. Es ist der zentrale &#8220;Hub&#8221;, an den Benutzer gehen, um Unterst\u00fctzung und Service zu erhalten. Nach ITIL-Definition kann der Service Desk die Form von Incident Resolution oder Service Requests annehmen, aber in jedem Fall ist das Hauptziel des Service Desks, einen schnellen und effizienten Service zu bieten.<\/p>\n<p><\/p>\n<h4 id='problemmanagement'  id=\"boomdevs_6\">Problemmanagement<\/h4>\n<p>Wenn wir \u00fcber Incident Management sprechen, kann ein SRE-Team einen Vorfall m\u00f6glicherweise schnell l\u00f6sen, aber das zugrunde liegende Problem kann immer noch bestehen und noch eine Weile bestehen. Problemmanagement ist der Prozess, durch den die Ursachen von Vorf\u00e4llen dauerhaft behoben werden, was die langfristige Leistung und zuk\u00fcnftige Servicebereitstellungen verbessert.<\/p>\n<p><\/p>\n<h4 id='ver\u00e4nderungsmanagement'  id=\"boomdevs_7\">Ver\u00e4nderungsmanagement<\/h4>\n<p>Jede Art von \u00c4nderung, ob es sich nun um neue Servicebereitstellungen oder pers\u00f6nliche \u00c4nderungen handelt, es besteht immer ein gewisses Risiko. \u00c4nderungsmanagement ist der Prozess, bei dem ermittelt wird, wie sich \u00c4nderungen auf die Servicebereitstellung auswirken und\/oder die Auswirkungen auf das Unternehmen selbst ber\u00fccksichtigt werden. Das \u00c4nderungsmanagement wird manchmal auch mit dem Release-Management gruppiert.<\/p>\n<p><\/p>\n<h4 id='verm\u00f6gensverwaltung'  id=\"boomdevs_8\">Verm\u00f6gensverwaltung<\/h4>\n<p>Man kann nicht alles virtualisieren&#8230; noch. Softwaredienste erfordern immer noch physische Ger\u00e4te und Hardware, damit sie funktionieren. Und Unternehmen m\u00fcssen diese Ger\u00e4te verfolgen, verwalten und kontinuierlich aktualisieren, um sicherzustellen, dass ihre Dienste reibungslos ausgef\u00fchrt werden k\u00f6nnen. Asset Management wird auch als IT Asset Management oder ITAM bezeichnet.<\/p>\n<p><\/p>\n<h4 id='wissens-richtlinien-und-verfahrensmanagement'  id=\"boomdevs_9\">Wissens-, Richtlinien- und Verfahrensmanagement<\/h4>\n<p>Das Ziel des Wissensmanagements ist es, Redundanzen in Bezug auf das Sammeln, \u00dcberpr\u00fcfen und Teilen von Informationen innerhalb einer Organisation zu reduzieren. Dies tr\u00e4gt zur Verbesserung der Effizienz bei und stellt sicher, dass die Informationen konsistent, aktuell und verf\u00fcgbar sind.<\/p>\n<p><\/p>\n<h2 id='incident-management-lifecyle-prozess-und-schritte'  id=\"boomdevs_10\">Incident Management Lifecyle: Prozess und Schritte<\/h2>\n<p>Die Reaktion eines Unternehmens auf einen Vorfall, unabh\u00e4ngig davon, ob es sich um Ausfallzeiten, Sicherheitsverletzungen oder Cyberangriffe oder sogar um l\u00e4ngere Latenzzeiten und wiederholte Fehler handelt, ist entscheidend f\u00fcr den anhaltenden Erfolg des Unternehmens und das Vertrauen des Kunden oder Endbenutzers. SREs m\u00fcssen komplexe verteilte Systeme verwalten. W\u00e4hrend die Vorteile dieser Systeme darin bestehen, dass sie zuverl\u00e4ssiger, skalierbarer und fehlertoleranter sind, sind sie dadurch auch extrem komplex, was zu l\u00e4ngeren Behebungszeiten f\u00fchren kann, da Probleme schwieriger zu erkennen und zu lokalisieren sind. Die besten SRE-Incident-Management-Teams halten sich an einen strengen Incident-Management- und Behebungsprozess. W\u00e4hrend die tats\u00e4chlichen Schritte und Prozesse zwischen den Organisationen variieren k\u00f6nnen, folgen die meisten dem gleichen grundlegenden Pfad. Schauen wir uns den SRE-Incident-Management-Prozess und die SRE-Schritte an.<\/p>\n<p><\/p>\n<h3 id='1-identifizierung-von-vorf\u00e4llen'  id=\"boomdevs_11\">1. Identifizierung von Vorf\u00e4llen<\/h3>\n<p>Sie k\u00f6nnen keine Probleme beheben, die Sie nicht kennen. Die Identifizierung von Vorf\u00e4llen beginnt mit einer Form von \u00dcberwachungs- oder Alarmierungsmechanismus. Wir haben in einem anderen Artikel \u00fcber die <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2021\/11\/24\/monitoring-distributed-systems\/\">\u00dcberwachung verteilter Systeme<\/a> gesprochen und wie sich dies auf SRE-Teams auswirkt. Zu wissen, wann und wo ein Fehler, eine Ausfallzeit oder eine Anwendungslatenz auftritt, ist ein kritischer Faktor, um die Auswirkungen auf Benutzer und Kunden zu begrenzen. In einigen F\u00e4llen wird ein Vorfall jedoch durch ein Support-Ticket, einen Anruf oder sogar soziale Medien bekannt, was nie eine gute Nachricht ist, wenn Probleme \u00f6ffentlich f\u00fcr alle sichtbar ver\u00f6ffentlicht werden.<\/p>\n<p><\/p>\n<h3 id='2-protokollierung-von-vorf\u00e4llen'  id=\"boomdevs_12\">2. Protokollierung von Vorf\u00e4llen<\/h3>\n<p>Unabh\u00e4ngig von der Erkennungsmethode sollte ein Vorfall, sobald er identifiziert wurde, protokolliert werden. Die Ereignisprotokollierung dient mehreren Zwecken. Es stellt sicher, dass ein formaler Datensatz eingereicht wurde, und f\u00fcr die \u00fcberpr\u00fcfung von Vorfalltrends zu einem sp\u00e4teren Zeitpunkt. Wenn derselbe oder ein \u00e4hnlicher Vorfall wiederholt auftritt, kann dies ein Hinweis auf ein komplexeres Problem sein, das angegangen werden muss. Bei der Protokollierung eines Vorfalls werden auch relevante Informationen wie Zeitstempel, Vorfallbeschreibung und wer das Problem entdeckt hat, enthalten. Je detaillierter informationen, desto besser.<\/p>\n<p><\/p>\n<h3 id='3-kategorisierung-von-vorf\u00e4llen'  id=\"boomdevs_13\">3. Kategorisierung von Vorf\u00e4llen<\/h3>\n<p>Als n\u00e4chstes folgt die Kategorisierung des Vorfalls basierend auf Faktoren wie Schweregrad, Dringlichkeit oder betroffenem Funktionsbereich. Wie bei der Protokollierung des Vorfalls k\u00f6nnen je mehr Informationen bereitgestellt werden, sp\u00e4ter bei der Bestimmung des richtigen Teams oder der richtigen Person f\u00fcr die Reaktion auf Vorf\u00e4lle hilfreich sein.<\/p>\n<p><\/p>\n<h3 id='4-priorisierung-von-vorf\u00e4llen'  id=\"boomdevs_14\">4. Priorisierung von Vorf\u00e4llen<\/h3>\n<p>Basierend darauf, wie der Vorfall kategorisiert wurde, besteht der n\u00e4chste Schritt darin, die Priorit\u00e4tsstufe festzulegen. Auch hier treten einige dieser Schritte gleichzeitig auf, so dass sie in einigen F\u00e4llen gleichzeitig ausgef\u00fchrt werden k\u00f6nnen. Unternehmen verwenden in der Regel eine einfache Skala von niedrig, mittel oder hoch, jedoch k\u00f6nnen einige Vorf\u00e4lle automatisch in bestimmte Kategorien fallen, je nachdem, was betroffen ist. Wenn der Vorfall beispielsweise mit einem Ausfall zusammenh\u00e4ngt, w\u00fcrde dies automatisch eine hohe Priorit\u00e4t haben.<\/p>\n<p><\/p>\n<h3 id='5-incident-response-l\u00f6sung-und-abschluss'  id=\"boomdevs_15\">5. Incident Response, L\u00f6sung und Abschluss<\/h3>\n<p>Der letzte Schritt besteht darin, endlich zu reagieren und den Vorfall zu l\u00f6sen, um den Abschluss zu bringen. Dieser letzte Schritt ist eher eine Kunstform als eine Wissenschaft. Hier gibt es keinen einfachen Button. Es kann mehrere Zyklen dauern und versucht zu best\u00e4tigen, dass der Vorfall endlich gel\u00f6st ist. Jeder Versuch kann mehr Informationen und zus\u00e4tzliche Theorien dar\u00fcber liefern, warum der Vorfall passieren k\u00f6nnte. Dies kann auch dazu f\u00fchren, dass weitere M\u00f6glichkeiten identifiziert werden, bei denen Schwachstellen vorhanden sein k\u00f6nnen. Sobald der Vorfall behandelt wurde, ist es an der Zeit, die Anfrage zu schlie\u00dfen und dem urspr\u00fcnglichen Benutzer zu antworten, der den Vorfall gemeldet hat.<\/p>\n<p><\/p>\n<h2 id='postmortems'  id=\"boomdevs_16\">Postmortems<\/h2>\n<p>Nach einer Incident-Reaktion ist es in der Regel eine gute Idee, die Details des Incidents vollst\u00e4ndig zu \u00fcberpr\u00fcfen. Dies wird als Postmortem-Vorfall bezeichnet. Die Bestimmung, welche Vorf\u00e4lle eine Obduktion erfordern, wird in der Regel vom Team oder der Organisation entschieden, die Gr\u00fcnde bleiben jedoch die gleichen. Postmortems helfen dabei, Bereiche zu identifizieren, die verbessert werden k\u00f6nnen, blinde Flecken bei der Leistung zu identifizieren und Ihren Incident-Response-Prozess zu verfeinern. Ein Postmortem sollte alle Aspekte des Vorfalls zusammenfassen und die folgenden Elemente enthalten:<\/p>\n<ul>\n<li>Zusammenfassung und Zeitleiste des Vorfalls auf hoher Ebene.<\/li>\n<li>Ursachenanalyse und Quelle des Vorfalls.<\/li>\n<li>Ma\u00dfnahmen zur L\u00f6sung des Vorfalls und welche wirksam oder nicht wirksam waren.<\/li>\n<li>Zuk\u00fcnftige Vorfallpr\u00e4vention zusammen mit zus\u00e4tzlichen Informationen, die entdeckt wurden.<\/li>\n<\/ul>\n<p>Postmortems sind eine der <a href=\"https:\/\/www.dotcom-monitor.com\/blog\/2021\/11\/16\/sre-principles-the-7-fundamental-rules\/\">Kernregeln der SRE-Kultur.<\/a> Tats\u00e4chlich nennen sie es schuldloses Postmortem. Die Idee hinter diesem Konzept ist, dass jeder im Team mit den besten Absichten gehandelt hat und niemand an dem Vorfall schuld ist. Der Fokus liegt darauf, herauszufinden, warum es passiert ist und wie die Systemleistung in Zukunft verbessert werden kann. Fehler sind ein nat\u00fcrlicher Teil der Branche, daher liegt der Fokus darauf, ein robusteres, widerstandsf\u00e4higeres System zu schaffen, damit Probleme nie wieder auftreten.<\/p>\n<p><\/p>\n<h2 id='fazit-sre-incident-management-\u00fcbersicht-techniken-und-tools'  id=\"boomdevs_17\">Fazit: SRE Incident Management &#8211; \u00dcbersicht, Techniken und Tools<\/h2>\n<p>Das SRE-Incident-Management ist entscheidend, um Systeme, Anwendungen, Standorte und Services am Laufen zu halten. Sekunden sind wichtig, besonders wenn es um die Benutzererfahrung geht. In gro\u00dfen verteilten Systemen kann das kleinste Problem kaskadierende Probleme verursachen. Das proaktive Einrichten der richtigen Warnungen und Benachrichtigungen kann den Unterschied ausmachen, wenn Probleme auftreten, und sicherstellen, dass die Auswirkungen auf die Benutzer begrenzt sind. Weitere Informationen dar\u00fcber, wie sich die Dotcom-Monitor-Plattform in diese Incident-Management-Tools integriert, <a href=\"https:\/\/www.dotcom-monitor.com\/wiki\/knowledge-base\/alert-delivery-mechanisms\/\">finden Sie in unserer Knowledge Base<\/a>.<\/p>\n<p>Testen Sie <a href=\"https:\/\/userauth.dotcom-monitor.com\/Account\/FreeTrialSignUp\">Dotcom-Monitor kostenlos<\/a> und erhalten Sie Zugriff auf alle L\u00f6sungen, Integrationen und Funktionen innerhalb der Plattform.<\/p>\n<p><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>In der Welt eines Site Reliability Engineer (SRE)ist ein Ausfall nicht nur eine Option, sondern auch zu erwarten. Systeme, Webanwendungen, Server, Ger\u00e4te usw. sind alle anf\u00e4llig f\u00fcr Leistungsprobleme und unerwartete Ausf\u00e4lle an einem bestimmten Punkt. Es ist eine unvermeidliche Tatsache. Diese unerwarteten Ausf\u00e4lle k\u00f6nnen zu enormen Umsatzeinbu\u00dfen, Kundenvertrauen und je nach Branche zu Bu\u00dfgeldern f\u00fchren. [&hellip;]<\/p>\n","protected":false},"author":21,"featured_media":22462,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[883],"tags":[],"class_list":["post-22470","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-unkategorisiert"],"_links":{"self":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/posts\/22470","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/users\/21"}],"replies":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/comments?post=22470"}],"version-history":[{"count":0,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/posts\/22470\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/media\/22462"}],"wp:attachment":[{"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/media?parent=22470"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/categories?post=22470"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.dotcom-monitor.com\/blog\/de\/wp-json\/wp\/v2\/tags?post=22470"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}