Best Practices für die Website-Überwachung, die Ingenieure tatsächlich anwenden

Operationsingenieur überprüft ein globales Website-Monitoring-Dashboard mit regionalen Kontrollpunkten, Latenzzeitlinien und aktiven Warnungen
Gutes Monitoring sagt Ihnen, was kaputt ist, wo und warum – bevor es Ihre Kunden tun.

Die meisten Teams haben Website-Monitoring. Deutlich weniger haben Website-Monitoring, das tatsächlich Probleme erkennt, bevor Kunden, Vertrieb und Support das tun. Die Lücke liegt selten am Tool. Es sind die Praktiken darum herum: was überprüft wird, von wo, wie oft, was eine Seite auslöst und wer entscheidet, wann eine Überprüfung fehlerhaft ist versus wann die Seite fehlerhaft ist.

Dieses Playbook sammelt acht bewährte Website-Monitoring-Praktiken, die Setups trennen, denen SRE- und DevOps-Teams vertrauen, von Setups, die stillschweigend zu Lärm werden. Jede davon ist konkret: Schwellenwerte, Intervalle, Anti-Patterns und was weiter zu tun ist, sobald es funktioniert. Dieselben Praktiken gelten, ob Sie Uptime-Monitoring für eine Marketingseite betreiben oder vollständiges synthetisches Transaktionsmonitoring für einen SaaS-Checkout.

Wie „gut“ aussieht (und warum die meisten Setups es verpassen)

Eine funktionierende Definition: Ihr Monitoring ist gut, wenn Ihr Team von jedem kundenrelevanten Problem über ein Monitoring erfährt, bevor es der Kunde tut, und wenn die Seiten, die Sie erhalten, fast immer handlungsfähig sind. Das ist der gesamte Maßstab.

Drei Zahlen messen das. Mittelwert der Erkennungszeit (MTTD) zeigt, ob das Monitoring schnell genug ist. Mittelwert der Lösungszeit (MTTR) zeigt, ob die vom Monitor gelieferten Daten ausreichen, um das Problem zu beheben. Alarmpräzision – der Prozentsatz der Meldungen, die real sind und sofortige Handlung erfordern – zeigt, ob Ihr Team den Warnungen auch in sechs Monaten noch vertraut. Die meisten SRE-Teams messen MTTD und MTTR. Die meisten Teams messen Präzision nicht. Deshalb verfallen viele Bereitschaftsdienste in stille Anerkennung und gelernte Hilflosigkeit.

Der Rest dieses Playbooks dreht sich darum, beide Zahlen gleichzeitig in die richtige Richtung zu drücken.

Überprüfen Sie alle Ebenen entlang des vollständigen Anforderungswegs

Eine einzelne HTTPS-Überprüfung ist ein Rauchmelder mit nur einem Sensor. Sie sagt Ihnen, dass etwas nicht stimmt, nicht aber wo. Wenn ein Nutzer Ihre URL eingibt und auf das Laden der Seite wartet, durchläuft die Anfrage mindestens sechs Ebenen: DNS-Auflösung, TCP-Handshake, TLS-Verhandlung, HTTP-Antwort, Laden von Assets und clientseitiges Rendern der finalen Ansicht. Jede Ebene fällt anders aus und jede hat ihre eigene Fehlerursache.

Diagramm des geschichteten Website-Monitoring-Stacks von DNS bis Transaktion, mit jeder Ebene zugeordnet zu ihrer Ausfallart und empfohlenen Prüftyp
Eine Prüfung pro Ebene. Jede Ebene hat eine eigene Fehleroberfläche und eine eigene Behebung.

Das praktische Setup sieht so aus:

  • DNS: Prüfen Sie, ob A-, AAAA-, CNAME- und MX-Einträge von mehreren Resolvern erwartungsgemäß aufgelöst werden. DNS-Probleme sind am leichtesten zu übersehen und am schmerzhaftesten, nachträglich zu debuggen. Die besten DNS-Monitoring-Tools überwachen unautorisierte Eintragsänderungen, Propagationsverzögerungen und resolver-spezifische Ausfälle.
  • TCP und ICMP: Bestätigen Sie, dass der Port offen und der Netzwerkpfad gesund ist. Eine Firewall-Änderung, die Port 443 blockiert, zeigt sich nicht in einer HTTP-Prüfung aus demselben Netzwerksegment.
  • TLS: Validieren Sie Zertifikatskette, Ablaufdatum, Hostnamenübereinstimmung und Cipher-Unterstützung. Die meisten Zertifikatsausfälle sind vermeidbar — das Zertifikat ist einfach an einem Sonntag abgelaufen. Stellen Sie explizite Ablaufwarnungen bei 60, 30, 14 und 3 Tagen ein. Siehe wie man das Ablaufdatum von SSL-Zertifikaten überwacht für die Konfigurationsdetails.
  • HTTP: Statuscode, Antwortzeit und Inhaltsprüfung. Status 200 mit leerem Body ist ein fehlgeschlagener Check, kein Erfolg.
  • Rendering und Transaktion: Fahren Sie einen echten Browser durch die Nutzerreise, prüfen Sie ein bekanntes Element im finalen Zustand und messen Sie die Zeit bis zur Interaktivität. Synthetisches Monitoring mit echten Browsern fängt ein, was Protokollprüfungen nicht können – kaputtes JavaScript, hängende Drittanbieterskripte, fehlende CSS-Dateien, die den Warenkorbbutton unsichtbar machen.
  • API: Behandeln Sie APIs als erstklassige Endpunkte. Eine Seite, die lädt, aber den Checkout nicht abschließen kann, weil die Zahlungs-API ausfällt, ist immer noch kaputt. API-Monitoring verdient einen eigenen Prüfplan, getrennt von den Seiten, die davon abhängen.

Wenn etwas ausfällt, ist die Ebene, die zuerst warnt, Ihr Startpunkt für die Ursachenanalyse. Ein Team, das nur HTTP überwacht, erhält eine Information: Ausfall. Ein Team, das alle sechs Ebenen überwacht, bekommt einen Fehlerbaum.

Führen Sie synthetisches Monitoring und RUM nebeneinander aus, nicht statt des anderen

Die beiden Methoden beantworten unterschiedliche Fragen und sind keine Ersatzmittel. Die folgende Tabelle fasst die Verteilung zusammen, auf die sich die meisten Teams nach einem Quartal mit beiden Methoden einigen.

Fähigkeit Synthetisches Monitoring Real User Monitoring (RUM)
Datenquelle Gesteuerte Prüfungen von kontrollierten Standorten Browser echter Besucher
Funktioniert mit Null Traffic Ja Nein
Konstante Basislinie Ja – dasselbe Skript, dieselben Standorte Nein – schwankt mit Verkehrsvolumen und Mix
Erkennt Regressionen vor den Nutzern Ja Nein
Spiegelt reale Geräte- und Netzwerkdiversität wider Begrenzt Ja
Am besten geeignet für SLA-Berichte, proaktive Warnungen, Uptime-Überwachung Analyse der realen Nutzererfahrung, Priorisierung von Fehlerbehebungen
Häufige Ausfallart Fehlende Edge Cases, die nicht abgedeckt sind Ausfälle werden erst über Twitter erkannt

Synthetisches Monitoring führt geplante Prüfscripte von festen Standorten aus. Die Daten sind zeitlich konsistent und immun gegen Verkehrsausfälle. Es funktioniert auch um 3 Uhr morgens, wenn keine echten Nutzer da sind, um einen Deploy zu bemerken, der die Login-Seite zerstört hat. Deshalb ist synthetisches Monitoring das richtige Werkzeug für SLA-Reporting, Regressionserkennung und proaktive Warnungen.

RUM sammelt Leistungs- und Fehlerdaten aus tatsächlichen Browsern. Es spiegelt die reale Verteilung von Geräten, Netzwerken und geographischen Standorten Ihrer Nutzer wider. Es ist die einzige Quelle, die Ihnen sagen kann, dass 2 % der Android-Nutzer bei einem bestimmten Provider eine Zeit von 9 Sekunden bis zum ersten Byte sehen. RUM ist das richtige Werkzeug, um die reale Nutzererfahrung zu verstehen und Engineering-Arbeiten zu priorisieren.

Nutzen Sie synthetisches Monitoring, um sicherzustellen, dass die Seite verfügbar ist und normal funktioniert. Nutzen Sie RUM, um zu wissen, wie dieses Verhalten auf Ihre zahlenden Nutzer zutrifft. Teams, die sich für nur eins entscheiden und das andere weglassen, werden entweder von Edge-Cases überrascht (nur synthetisch) oder erfahren Ausfälle per Twitter (nur RUM).

Sehen Sie beide Seiten Ihrer Seite

Dotcom-Monitor führt synthetisches Monitoring mit echten Browsern über ein globales Checkpoint-Netzwerk durch und integriert es mit den RUM-Daten, die Ihr Frontend-Team bereits sammelt. Eine Plattform, zwei Ansichten.

Starten Sie eine kostenlose Testversion →

Überwachen Sie von den Regionen aus, die Umsatz generieren

Eine Prüfung von Ihrem Rechenzentrum nebenan zeigt, ob das Rechenzentrum online ist. Sie zeigt nicht, ob ein Nutzer in São Paulo einen guten Tag hat.

Die Regel ist einfach: Platzieren Sie Checkpoints in jeder Region, die bedeutend zum Umsatz beiträgt, plus ein oder zwei Regionen als Kontrollpunkte. Wenn 35 % Ihres Umsatzes aus EMEA kommen, benötigen Sie mindestens zwei EMEA-Checkpoints – einen in einem Hauptmarkt wie Frankfurt oder London, einen in einem Nebenmarkt wie Madrid oder Stockholm. Eine einzelne Checkpoint-EMEA-Abdeckung verbirgt regionale ISP-Ausfälle und CDN-Edge-Fehler.

Drei Muster lohnen das Einrichten:

  1. Multiregionale Bestätigung für Paging. Erfordern Sie, dass ein Fehler innerhalb von 60 Sekunden aus mindestens zwei verschiedenen Regionen wiederholt auftritt, bevor Sie paginieren. Ein einzelner Ausfall in einer Region ist meist ein regionales Netzwerkproblem oder ein einzelnes Checkpoint-Problem, kein Seiten-Ausfall.
  2. Regionale Basislinien. Tokyo und Iowa laden Ihre Seite nicht mit derselben Geschwindigkeit und sollten daher nicht denselben Schwellenwert teilen. Verfolgen Sie p95-Latenz pro Region und benachrichtigen Sie bei regionalen Abweichungen, nicht beim globalen Durchschnitt.
  3. Private Agenten in Unternehmensnetzwerken. Wenn Sie an Unternehmen verkaufen, die Ihre App hinter ihrer eigenen Firewall nutzen, betreiben Sie einen Checkpoint innerhalb dieser Umgebung. Private Agenten erfassen Probleme, die durch das Kundennetzwerk verursacht werden, nicht durch Ihres, was für den Kunden dennoch Ihr Problem ist.

Das Dotcom-Monitor Checkpoint-Netzwerk umfasst über 30 Länder; die spezifische Liste, die Sie aktivieren sollten, richtet sich danach, wo Ihr Geld herkommt, nicht wo Ihr Rechenzentrum steht.

Setzen Sie Schwellenwerte basierend auf Basislinien, nicht auf runden Zahlen

Die häufigste Sünde im Monitoring ist „Alarm, wenn Antwortzeit > 3 Sekunden.“ Drei Sekunden ist eine runde Zahl. Ihre Seite interessiert sich nicht für runde Zahlen. Wenn Ihr tatsächlicher p95 stabil bei 4,2 Sekunden liegt, werden Sie 24 Mal am Tag wegen normaler Leistung angerufen. Wenn Ihr tatsächlicher p95 bei 0,8 Sekunden liegt und auf 2,5 Sek. verschlechtert, passiert nichts, weil 2,5 noch unter 3 liegt.

Die Lösung ist ein schwellenwertabhängiger, an die Basislinie angepasster Schwellenwert:

Alarm, wenn der anhaltende p95 über ein 10-Minuten-Fenster (Basislinie p95 × 1,5) oder (Basislinie p95 + 2σ) überschreitet, je nachdem, was größer ist, und die Bedingung über zwei aufeinanderfolgende Auswertungsfenster besteht.

Diese Formel macht drei Dinge zugleich. Der Faktor 1,5 skaliert mit der Seite, sodass schnelle und langsame Seiten dieselbe Regel teilen können. Der 2σ-Term unterdrückt normale Schwankungen. Das „zwei aufeinanderfolgende Fenster“-Kriterium eliminiert Spike-und-Erholung-Fehlalarme, die den größten Teil des Paging-Lärms ausmachen.

Die Baseline-Berechnung ist der Teil, den die meisten Teams überspringen. Berechnen Sie Baselines wöchentlich basierend auf den letzten 14 Tagen neu, ohne Zeitfenster von Deployments und bekannten Vorfallzeiten. Anomalie-Erkennungstools mit automatischer Baseline sind eine gute Abkürzung, wenn Sie das nicht manuell machen wollen, aber prüfen Sie, was sie ausschließen. Eine Baseline, die durch den Vorfall der letzten Woche verfälscht ist, ist schlechter als keine Baseline.

Für Uptime-Checks gilt die entsprechende Regel: Erfordern Sie zwei aufeinanderfolgende Ausfälle aus zwei unterschiedlichen Regionen, bevor Sie paginieren. Ein einzelner Fehl-Check von einem Standort ist fast immer ein Checkpoint-Fehler. Zwei aus zwei sind real.

Entwickeln Sie nicht nur die Prüfung, sondern den Alarm

Eine Prüfung sagt Ihnen, dass etwas passiert ist. Ein Alarm sagt einem Menschen, dass er etwas dagegen tun soll. Das sind unterschiedliche Probleme, und die meisten Teams entwickeln nur das erste.

Die Aufgabe des Alarm-Engineerings ist es, die richtigen Informationen in einem Format an die richtige Person zu bringen, sodass sie binnen 60 Sekunden handeln kann. Die Hindernisse sind meistens:

  • Zu viele Alarme. Wenn der durchschnittliche Bereitschaftsingenieur mehr als dreimal pro Schicht gerufen wird, wird die nächste Benachrichtigung weniger aufmerksam behandelt. Das ist kein moralisches Versagen, sondern wie menschliche Aufmerksamkeit funktioniert.
  • Alarme ohne Kontext. „Checkout langsam“ ist nicht handlungsfähig. „Checkout p95 4,8 s (Baseline 1,1 s) aus EU-Regionen, gestartet 14:32 UTC, korreliert mit Deploy abc123 um 14:30“ ist handlungsfähig.
  • Falscher Kanal. Slack ist kein Paging. E-Mail ist kein Paging. SMS, Push oder Telefonanruf sind Paging. Eine Mischung verwässert das Signal.

Das Muster, das funktioniert:

  1. Drei Schweregrade, drei Kanäle. Kritisch (Seite down, Bezahlung kaputt) → SMS oder Telefon. Warnung (anhaltende Verschlechterung) → Push oder Chat mit Bereitschaftserwähnung. Info (einzelner fehlgeschlagener Check, Baseline-Drift) → Dashboard oder tägliche Zusammenfassung. Info nie zum Paging verwenden.
  2. Abhängigkeitssuppression. Wenn DNS ausfällt, dann nicht auch bei den 14 abhängigen HTTP-Checks paginieren. Alarmgruppierung und Abhängigkeitssuppression sind Standard; hat Ihre Plattform das nicht, zahlen Sie mit Schlaf.
  3. Mehrstufige Eskalation, keine lineare Kette. Wenn der primäre Bereitschaftsdienst nach 5 Minuten nicht bestätigt, rufen Sie den sekundären Dienst und benachrichtigen Sie den Kanal. Serielle Eskalationen kosten Sie 5 Minuten pro Stufe, während die Seite down ist.
  4. Ruhezeiten für nicht-kritische Alarme. Performance-Einbrüche um 2 Uhr nachts am Sonntag brauchen meist keinen Weckruf um 2 Uhr nachts. Kritische schon. Seien Sie ehrlich, welche Regel wann gilt.

Und messen Sie die Präzision. Zählen Sie jeden Monat die ausgelösten Seitenalarme und markieren Sie jeden: echter Vorfall, Fehlalarm, keine Handlung erforderlich. Liegt die Präzision unter 80 %, beheben Sie die lautesten Alarme, bevor Sie neue hinzufügen.

Überwachen Sie auch die Komponenten, die Sie nicht kontrollieren

Ihre Seite ist nicht nur Ihr Code. Eine moderne Checkout-Seite lädt Skripte von einem Zahlungsanbieter, einem Tag Manager, einem Analyseanbieter, einem Chat-Widget, einem A/B-Test-Tool, einem CDN und manchmal einem Betrugserkennungsdienst. Jeder davon kann die Seite lahmlegen.

Drittanbieterabhängigkeiten brauchen eigene Monitoring-Checks:

  • Antwortzeit des CDN-Edge pro Region. CDNs fallen aus, besonders bei regionalen Ereignissen.
  • Zahlungsgateway-Round-Trip-Zeit als synthetische API-Prüfung am Status-Endpunkt oder Sandbox.
  • Tag-Manager- und Analyse-Skriptladezeit gemessen als Teil der synthetischen Transaktion. Ein blockierendes Analyse-Tag fügt jeder Seite 2 Sekunden Ladezeit hinzu; das sollten Sie wissen.
  • Externe Authentifizierungsanbieter (OAuth, SSO). Wenn Ihr „Mit Google einloggen“-Button nicht funktioniert, müssen Sie es wissen, bevor Ihre Support-Warteschlange es tut.
  • DNS-Provider. Führen Sie DNS-Monitoring von mehreren Resolvern aus, um Propagationsverzögerungen und Teil-Ausfälle beim Provider zu erfassen.

Dokumentieren Sie, welche Drittanbieter welche Nutzerreisen blockieren. Wenn ein Drittanbieter ausfällt, sollte das Runbook angeben, ob die richtige Vorgehensweise „Fallback“, „Abwarten“ oder „Vendor-Bereitschaft alarmieren“ ist. Ohne diese Karte wird jeder Drittanbieter-Vorfall zu einer Improvisationsübung.

Verknüpfen Sie jeden Monitor mit einem Runbook

Die fünf teuersten Minuten eines Vorfalls sind die, in denen der Bereitschaftsingenieur herausfindet, was der Alarm bedeutet.

Lösen Sie das einmal: Jeder Monitor verlinkt auf einen Runbook-Eintrag. Das Runbook muss nicht aufwendig sein. Drei Abschnitte reichen:

  1. Was diese Prüfung abdeckt in einem Satz („Validiert, dass die EU-Checkout-Transaktion unter 5 Sekunden von Frankfurt und Amsterdam abgeschlossen wird.“)
  2. Die ersten fünf Dinge, die zu prüfen sind, wenn dieser Alarm ausgelöst wird. Statusseitenlinks, Dashboards, letzte Deployments, verwandte Alarme, Statusseite des Vendors.
  3. Bekannte Fehlalarm-Muster, falls vorhanden („Frankfurt-Checkpoint läuft gelegentlich während der Wartung des Vendors samstags 02:00-02:30 UTC aus. Wird ignoriert.“)

Das erste Mal ein Runbook zu schreiben, dauert 15 Minuten. Jeder weitere Vorfall auf diesem Monitor benötigt 15 Minuten weniger. Die Rechnung ist offensichtlich, und doch machen es die meisten Teams nicht.

Validieren Sie die Monitore und prüfen Sie die Abdeckung vierteljährlich

Ein ungetesteter Monitor ist ein Wunsch, keine Garantie. Zwei Praktiken decken Lücken auf.

Chaos-Tests der Alarme. Einmal im Quartal zerbrechen Sie absichtlich eine Prüfung – schalten eine Test-API ab, lassen ein Zertifikat in einer Staging-Umgebung ablaufen, setzen die Antwortzeit-Schwelle auf 0 – und prüfen, ob der Alarm ausgelöst, eskaliert und die richtige Person erreicht. Etwa ein Drittel der Alarme scheitert beim ersten Test. Häufige Ursachen: veraltete Bereitschaftspläne, abgelaufene Integrationstokens, Slack-Kanäle, die niemand mehr liest.

Vierteljährliche Überprüfung der Abdeckung. Führen Sie ein Dokument, das jede Nutzerreise, jede externe Abhängigkeit und jede URL-Kategorie listet. Für jede Zeile listen Sie die Monitore, die sie abdecken. Leere Zeilen sind Lücken. Neue Features, die im letzten Quartal hinzugefügt wurden, stehen normalerweise in leeren Zeilen.

Die Prüfung liefert auch die gegenteilige Erkenntnis: Monitore, die URLs abdecken, die es nicht mehr gibt. Löschen Sie sie. Ein Monitor an einer 410-Endpunkt erzeugt ewig Lärm und schützt nichts.

Diagramm, das die Beziehung zwischen Alarmvolumen und Reaktionsqualität zeigt, mit Markierungen für die Schwelle der Alarmmüdigkeit bei etwa drei Seiten pro Schicht
Ab drei Seiten pro Schicht sinkt die Reaktionsqualität schneller als das Alarmvolumen wächst.

Worauf sollte man bei einer Monitoring-Plattform achten?

Die meisten Plattformen können eine URL anpingen. Die Unterschiede zeigen sich in schwierigeren Fällen. Wenn Sie Tools bewerten, schauen Sie über die Dashboard-Demos hinaus und fragen Sie:

  • Kann sie eine echte Browser-Transaktion mit bedingter Logik skripten? Statische Aufnahmen brechen, wenn sich die Seite ändert. Skriptbares Transaktionsmonitoring (Selenium-Stil oder proprietär) übersteht normale Produktentwicklungen.
  • Wie viele native Protokolle unterstützt sie? HTTP, HTTPS, DNS, FTP, SMTP, IMAP, POP3, TCP, UDP, ICMP. Jedes ausgelagerte Protokoll an ein separates Tool bedeutet eine weitere Vendor-Beziehung und ein weiteres Login.
  • Wie sieht die globale Checkpoint-Verteilung tatsächlich aus? Ein Vendor mit 200 „Checkpoints“, die alle in drei Cloud-Regionen gehostet sind, ist nicht global. Fragen Sie nach der Städteliste.
  • Kann sie aus Ihrem Netzwerk heraus betrieben werden? Private Agenten sind notwendig für Monitoring von Staging-Umgebungen, internen Apps und Kunden-internen Deployments.
  • Wie handhabt sie Alarme-Abhängigkeiten und Gruppierung? Eine Plattform, die 14 Meldungen bei einem DNS-Ausfall raushaut, belastet Sie mit Cortisol.
  • Wie sieht der Datenexport aus? Wenn Sie Roh-Check-Ergebnisse nicht in Ihre eigene Analytics-Umgebung importieren können, werden Sie schwierige Vorfälle kaum untersuchen können.
  • Integrationen mit Ihren Incident-Tools. PagerDuty, Opsgenie, Slack, Microsoft Teams, ServiceNow, Jira. Native Integrationen sind Webhook-Kleber immer überlegen.

Für eine ausführlichere Kauf-Checkliste mit Bewertungsrubriken siehe Wie Sie das beste Website-Monitoring-Tool auswählen und Datadog-Konkurrenten und Alternativen für Kontext, wo jeder Anbieter hinpasst.

Häufige Ausfallarten

Die untenstehenden Muster treten bei fast jeder Monitoring-Überprüfung auf. Keine benötigt neue Tools zur Behebung.

  • Ein globaler Schwellenwert für eine Multi-Region-Seite. Die schnelle Region driftet nach oben, die langsame Region verschlechtert sich, der globale Durchschnitt sieht in Ordnung aus und der Alarm löst nie aus.
  • Status-200-Prüfungen ohne Inhaltsbestätigung. Ein leeres 200 von einer CDN-Fehlerseite besteht den Check und geht so in Produktion.
  • Synthetische Transaktionen, die von einem echten Kundenkonto abhängen. Passwort läuft ab, MFA wird aktiviert, Konto wird gesperrt. Verwenden Sie ein Service-Konto mit explizitem Monitoring-Zeitraum.
  • Zertifikatsalarme nur bei 7 Tagen. Sieben Tage sind die Deadline, nicht die Warnung. Bis dahin kämpft man schon. Alarmieren Sie bei 60, 30, 14 und 3 Tagen. Das SSL-Zertifikat-Monitoring sollte vorbereitet sein.
  • Keine Deployment-Korrelation. Wenn Ihre Alarme nicht anzeigen, dass sie „3 Minuten nach Deployment abc123“ ausgelöst wurden, beginnt jeder Vorfall mit einer manuellen Git-Log-Überprüfung. Verknüpfen Sie Ihre CI mit Ihren Monitoring-Anmerkungen.
  • Alarm-Schwellenwerte, die nie verschärft werden. Wenn Sie vor zwei Jahren „> 5 Sekunden“ eingestellt haben und die Seite jetzt doppelt so schnell ist, ist der Schwellenwert funktionslos.
  • Monitoring der Homepage, aber nicht der Geld-Route. Die Verfügbarkeit der Homepage ist ein Eitelkeits-Metrik. Checkout, Anmeldung und Login-Verfügbarkeit sind das Geschäft.

Für Anwendungsschicht-Spezifika – insbesondere APIs, skriptgestützte Nutzerreisen und Mikroservice-Topologien – kombinieren Sie dies mit Best Practices für Webanwendungs-Monitoring. Für den SEO-Aspekt, warum Latenzbudgets wichtig sind, siehe Wie Website-Geschwindigkeit SEO beeinflusst.

Setzen Sie das Playbook in die Praxis um

Wählen Sie drei Praktiken aus dieser Liste, die Ihr aktuelles Setup nicht abdeckt. Implementieren Sie diese im aktuellen Sprint. Führen Sie den Chaos-Test an den neuen Monitoren durch, bevor Sie sie als fertig betrachten. Prüfen Sie dann die Präzision in 30 Tagen.

Wenn die Plattform der Engpass ist, deckt Dotcom-Monitor den kompletten Stack an einem Ort ab: echtes Browser-basiertes synthetisches Monitoring, Multi-Protokoll-Checks, ein globales Checkpoint-Netzwerk mit privaten Agenten und Alarm-Engineering-Features, die auf die oben genannten Muster abgestimmt sind. Siehe Webanwendungs-Monitoring, API-Monitoring, DNS-Monitoring und SSL-Zertifikat-Monitoring oder springen Sie direkt zur Enterprise Monitoring-Übersicht für größere Umgebungen.

Probieren Sie die Plattform, auf der dieses Playbook geschrieben wurde

Echtes Browser-Monitoring aus über 30 Ländern, Multi-Protokoll-Checks, skriptbare Transaktionen und Alarm-Engineering, das Ihren Schlaf respektiert.

Starten Sie Ihre kostenlose Dotcom-Monitor-Testversion → Keine Kreditkarte erforderlich. Oder Preise ansehen.

Häufig gestellte Fragen

Wie oft sollte ich synthetische Überprüfungen auf einer Produktionsseite durchführen?
Passen Sie die Prüfintervalle an die Auswirkungen einer Minute Ausfallzeit auf den Umsatz an. Checkout- und Zahlungswege erfordern 1-Minuten-Checks von mehreren geografischen Standorten. Standard-Transaktionsabläufe eignen sich für 5-Minuten-Intervalle. Marketingseiten und Blogs können 10 bis 15 Minuten betragen. Alles unter 1 Minute erzeugt in der Regel Lärm statt Signale, da die meisten Ausfälle ohnehin länger als eine Minute benötigen, um erkannt, eingeordnet und behoben zu werden.
Was ist der Unterschied zwischen synthetischem Monitoring und Real User Monitoring?
Das synthetische Monitoring führt geplante Prüfungen von gesteuerten Standorten aus durch, sodass die Daten konsistent sind und auch bei Null Traffic funktionieren. RUM erfasst Leistungsdaten von tatsächlichen Besuchern, die die reale Mischung aus Geräten, Netzwerken und Geografie widerspiegeln, aber nur das sehen, was die Nutzer erleben. Verwenden Sie synthetisches Monitoring für proaktive Erkennung und SLA-Berichterstattung. Verwenden Sie RUM, um das realweltliche Erlebnis zu verstehen und Prioritäten bei Korrekturen zu setzen.
Wie vermeide ich Alarmmüdigkeit, ohne echte Vorfälle zu übersehen?
Seite nur bei Bedingungen, die innerhalb von Minuten einen Menschen erfordern. Alles andere geht in eine Warteschlange, ein Dashboard oder eine Zusammenfassung. Erfordern Sie zwei aufeinanderfolgende Fehler aus mindestens zwei geografischen Regionen, bevor Sie bei Uptime eine Seite auslösen. Setzen Sie Leistungsalarme als p95-Basislinie plus zwei Standardabweichungen, die über fünf bis zehn Minuten anhalten, nicht bei einer einzelnen Probe, die einen festen Wert überschreitet. Unterdrücken Sie Alarme während Deployments und Wartungsfenstern. Überprüfen Sie die Seitenhäufigkeit monatlich und löschen Sie jeden Alarm, der mehr als dreimal ohne Aktion ausgelöst wurde.
Welche Protokolle sollte ich neben HTTPS überwachen?
Mindestens: DNS-Auflösung (A, AAAA, CNAME, MX-Einträge), Gültigkeit und Kette des TLS-Zertifikats, TCP-Erreichbarkeit auf Anwendungsports und ICMP zur Überprüfung des Netzwerkpfads. Wenn Sie von E-Mail abhängen, überwachen Sie SMTP und den Status von DNS-Blacklists. Wenn Sie APIs betreiben, überwachen Sie die API-Endpunkte getrennt von den unterstützten Webseiten. Jede Schicht fällt unterschiedlich aus, und eine einzelne HTTPS-Prüfung kann nicht sagen, welche Schicht ausgefallen ist.
Was sollte ein Synthetic Transaction Monitor abdecken?
Der kürzeste Weg zur Umsatz- oder Anmeldekonversion: Laden der Einstiegsseite, Durchführung der primären Aktion, die ein Benutzer dort ausführt, und Überprüfung eines Erfolgszustands mit einer Inhaltsbestätigung. Für E-Commerce bedeutet das Suche, In den Warenkorb legen, Checkout starten und bestätigen, dass die Checkout-Seite mit den erwarteten Artikeln geladen wird. Für SaaS bedeutet es in der Regel Anmeldung, Navigation zur primären Arbeitsbereichsansicht und Bestätigung, dass ein bekanntes Datenelement geladen wurde. Überspringen Sie kosmetische Klicks. Jeder Transaktionsschritt erhöht die Laufzeit, Kosten und die Fehleranfälligkeit.
Matthew Schmitz
About the Author
Matthew Schmitz
Leiter für Last- und Performance-Tests bei Dotcom-Monitor

Als Leiter für Last- und Performance-Tests bei Dotcom-Monitor führt Matt derzeit ein Team außergewöhnlicher Ingenieure und Entwickler, die gemeinsam innovative Lösungen für Last- und Performance-Tests entwickeln, um selbst die anspruchsvollsten Anforderungen von Unternehmen zu erfüllen.

Latest Web Performance Articles​

Was ist Application Performance Monitoring (APM)?

Was Application Performance Monitoring (APM) ist, wie Instrumentierung, Sammlung und Korrelation funktionieren, welche Metriken wichtig sind und welche bewährten Methoden APM in der Produktion nützlich machen

Starten Sie Dotcom-Monitor kostenlos

Keine Kreditkarte erforderlich