Alertes de surveillance de site Web – Maximisez le temps de disponibilité et réduisez le bruit

Dernière mise à jour :

Mise à jour juin 2026 · lecture de 11 minutes

Ingénieur de garde examinant une console d’alerte de surveillance de site web montrant des pannes confirmées, des niveaux d'escalade et des canaux de notification la nuit
L’objectif n’est pas d’avoir plus d’alertes. C’est d’avoir moins d’alertes, mais chacune ayant un sens.

Demandez à tout ingénieur de garde ce qu’il pense de sa surveillance et il vous dira la même chose : les alertes ne sont pas le problème. C’est le bruit. Une pile typique déclenche une alerte à chaque échantillon lent, à chaque brève perte locale, à chaque vérification dépendante qui échoue quand un service en amont tombe en panne. Après quelques semaines, les gens arrêtent de lire les alertes. Et la nuit où une panne réelle survient, elle se retrouve dans le même canal muet que 200 faux positifs.

C’est ainsi que la fatigue liée aux alertes augmente le temps moyen de résolution. La détection n’a jamais été le goulot d’étranglement. Le signal a été enterré. Ce guide explique comment créer des alertes de surveillance de site web qui ne se déclenchent que lorsque l’expérience utilisateur est réellement compromise, pour que votre équipe leur fasse suffisamment confiance pour agir lorsqu’elles se produisent. Nous aborderons la logique de confirmation, les niveaux d’escalade, la suppression consciente des dépendances et les calculs de seuil, avec les réglages exacts qui distinguent une rotation de garde calme d’un pager que personne ne répond.

Pourquoi la majorité des alertes sont du bruit et non du signal

Une alerte de surveillance a un seul but : informer un humain qu’il y a un problème à résoudre. La plupart des alertes échouent à cette tâche selon trois schémas communs, chacun ayant une solution simple.

Les faux positifs sur un seul emplacement sont les plus fréquents. Un agent de surveillance à Francfort rencontre un accroc réseau temporaire, le contrôle échoue, l’alerte se déclenche, et votre site n’a jamais été en panne pour un utilisateur réel. Surveiller la disponibilité depuis un seul emplacement fait que certains de vos pages affichent des pertes de paquets entre votre moniteur et votre origine, pas de vraies pannes.

Ensuite viennent les seuils instables (flapping). Vous réglez une alerte de temps de réponse à 2 000 ms parce que cela semblait lent. Mais votre p95 (temps de réponse que vos 5 % de requêtes les plus lentes rencontrent réellement) se situe déjà autour de 1 800 ms lors des pics de trafic, donc l’alerte se déclenche chaque après-midi, se résout d’elle-même, et se déclenche à nouveau. Personne n’agit dessus parce qu’il n’y a rien à faire. Le chiffre était mauvais, pas le site.

Et puis il y a la tempête d’alertes. La résolution DNS échoue pour votre domaine. Maintenant, votre contrôle de page d’accueil échoue, votre contrôle de connexion échoue, votre contrôle de panier échoue, vos contrôles API échouent, et votre contrôle SSL échoue car le moniteur ne peut même pas atteindre l’hôte. Une cause racine, quarante alertes, toutes déclenchées dans la même minute. L’ingénieur de garde doit lire les quarante alertes pour trouver celle qui compte.

Corrigez ces trois schémas et vous éliminez la majeure partie du bruit. La suite de ce guide explique comment.

Confirmer une panne avant de prévenir quelqu’un

Le changement à plus fort impact que vous pouvez faire est d’exiger une confirmation avant qu’une alerte ne soit déclenchée, et Dotcom-Monitor est conçu pour appliquer exactement cela. Plutôt que de contacter dès la première vérification échouée, vous configurez les conditions que l’échec doit respecter avant qu’on n’en parle : accord venant de plusieurs emplacements, et plusieurs échecs consécutifs. Les deux sont configurés par moniteur, vous décidez donc combien de preuves chaque contrôle doit fournir avant de lancer une alerte.

La confirmation multi-emplacements élimine le faux positif à la source. Si une vérification échoue depuis Francfort mais réussit simultanément depuis Dallas, Londres et Singapour, le problème vient de la route vers Francfort, pas de votre site. Une vraie panne échoue partout. C’est le rôle du réseau mondial de surveillance de Dotcom-Monitor : quand un contrôle échoue, Dotcom-Monitor le reteste automatiquement depuis plusieurs sites avant d’envoyer une alerte, ainsi un simple incident régional ne dérange jamais votre rotation de garde. Vous entendez seulement parler des pannes confirmées par plusieurs points de vue.

La logique d’échecs consécutifs gère les glitches momentanés. Dans le système d’alertes de Dotcom-Monitor, vous configurez une alerte pour qu’elle ne se déclenche qu’après deux ou trois échecs de suite, pas au premier. À intervalle d’une minute, cela ajoute un ou deux minutes de latence de détection en échange de la réduction du bruit transitoire quasi à zéro. Pour la plupart des sites, ce compromis vaut clairement la peine, et comme le filtre est défini par moniteur, une page marketing peut tolérer une confirmation plus lente qu’un point de terminaison de paiement.

La confirmation ajoute un léger délai. Si vous gérez un système où une seconde de panne est véritablement catastrophique, vous pourriez accepter plus de faux positifs pour une détection plus rapide. La majorité des équipes ne sont pas dans ce cas, et ce compromis apporte des pagers plus calmes.

Construisez des niveaux d’escalade adaptés à la gravité

Une alerte et une escalade ne sont pas la même chose. L’alerte signale qu’une vérification a échoué. L’escalade règle qui en est informé, par quel canal, et ce qui se passe si personne ne répond. Une alerte uniforme, où chaque échec alerte tout le monde de la même manière, mène rapidement à ce que l’équipe ignore ses pagers.

Chemin d'escalade d'alerte de site web en trois niveaux : Slack, puis SMS et PagerDuty, puis support de garde secondaire
La gravité détermine le canal. Le temps sans réponse détermine l’escalade.

Commencez par trier les échecs selon des niveaux de gravité et associer chacun à un canal. Le principe est simple : plus le canal est bruyant, plus la barre à franchir pour l’utiliser est haute.

Gravité Exemple Canal Répondants
Critique Paiement ou connexion hors service, confirmé depuis plusieurs emplacements SMS, téléphone, PagerDuty Assistance de garde, immédiatement
Élevée Page principale lente au-delà du p95 pendant 10 minutes Slack ou Teams, @on-call Assistance de garde, dans l’heure
Faible Page marketing lente, un seul actif en 404 Résumé par email, tableau de bord Révision le jour ouvrable suivant

Puis ajoutez une escalade temporelle au-dessus de la gravité. Une alerte critique arrive sur Slack et au technicien de garde en même temps. Si elle est toujours active après dix minutes, elle se répète par SMS. Après vingt minutes, elle notifie la garde secondaire ou le responsable d’équipe. Personne n’a à se souvenir d’escalader manuellement à 3 heures du matin, et une alerte manquée ne devient pas une panne ignorée.

Dotcom-Monitor gère cela avec des groupes de notifications et des horaires d’escalade. Vous définissez qui est de garde, quels canaux chaque niveau utilise, et combien de temps une alerte attend avant de passer au responsable suivant. Il s’intègre aux canaux utilisés par les équipes, ainsi une notification Slack ou Microsoft Teams atteint les personnes actives et une escalade PagerDuty gère les alertes hors heures. Le but est d’orienter selon la gravité, pas de diffuser tout partout en espérant qu’on remarque quelque chose.

Laissez les vérifications de dépendance supprimer les symptômes

La tempête d’alertes est un problème structurel, et vous le résolvez de façon structurelle. Vos contrôles ont un ordre de dépendance, que la plupart des équipes ignore. Une requête vers votre page de panier dépend d’abord de la résolution DNS, puis de la connexion TCP, puis de la réussite de la poignée de main TLS, puis du retour HTTP de contenu, puis du succès même de la transaction. Quand quelque chose en bas de cette chaîne casse, tout ce qui est au-dessus échoue aussi.

Classez donc votre surveillance dans l’ordre dans lequel la requête s’exécute, et laissez la cause racine réduire le bruit des symptômes. La surveillance multi-protocole de Dotcom-Monitor rend cela pratique : vous surveillez DNS, TCP, TLS, HTTP et la transaction complète comme contrôles séparés, ainsi quand un contrôle échoue vous voyez quelle couche a cassé et alertez sur cette couche au lieu de la cascade derrière.

Infographie d'une pile de requête web de DNS en base à TCP/TLS, HTTP, et TRANSACTION, avec la couche DNS signalée comme cause racine échouée et les couches au-dessus montrées comme impact en aval
Quand une couche basse casse, tout ce qui est au-dessus échoue aussi. Alertez sur la couche qui a cassé en premier.

  • DNS d’abord. Si la surveillance DNS montre un échec de résolution, vous savez déjà pourquoi tous les contrôles en aval sont rouges. Alertez sur l’échec DNS et supprimez le reste.
  • Puis la connexion et le certificat. Une poignée de main TLS ratée ou un certificat expiré provoque l’échec de tous les contrôles HTTPS derrière. Attrapez-le au niveau du certificat avec la surveillance de certificat SSL et obtenez une alerte claire unique au lieu d’une inondation d’erreurs génériques sur vos pages.
  • Puis l’application. Si DNS, TCP, et TLS sont sains mais que le contrôle de page ou la surveillance API échoue, vous avez un incident d’application valable qui mérite une alerte.

La surveillance des transactions affine cela davantage. Plutôt que d’alerter sur chaque actif individuel, scendez un script du parcours utilisateur qui compte vraiment puis alertez sur ce parcours. Le script EveryStep de Dotcom-Monitor enregistre un chemin en vrai navigateur, comme recherche, ajout au panier, et début de paiement, puis alerte quand une étape précise échoue. Si l’étape quatre casse mais que la page d’accueil va bien, vous avez une alerte unique qui dit que le paiement est en panne à l’étape de paiement, pas vingt alertes qui disent que divers actifs sont en erreur. C’est la différence entre une alerte qui dit ce qui a cassé et une qui dit juste qu’il y a eu une panne.

Groupez les moniteurs par dépendance pour que la panne parente réduise le bruit de ses enfants. Une alerte cause racine bat quarante alertes symptômes à chaque fois.

Formatez les seuils pour que les alertes aient un sens

Un seuil est une promesse : franchir cette ligne signifie qu’il y a un problème. La plupart des seuils trahissent cette promesse parce qu’ils sont des nombres statiques choisis une fois pour toutes. Trois règles les maintiennent intègres.

Utilisez des percentiles, pas des moyennes

Les moyennes cachent les requêtes lentes qui pénalisent vraiment les utilisateurs. Une page peut avoir une moyenne de 900 ms alors que son p95 est à 3 secondes, ce qui signifie qu’un visiteur sur vingt attend trois secondes. Alertez sur le p95, ou le p99 pour les parcours de paiement, car c’est l’expérience de vos utilisateurs les plus lents. Les rapports de performance de Dotcom-Monitor détaillent les temps de réponse par percentile et par localisation, vous permettant de configurer un seuil basé sur une mesure d’expérience réelle plutôt qu’une moyenne flatteuse.

Exigez une violation soutenue

Un seul échantillon lent n’est pas incident. Avec Dotcom-Monitor, appliquez le même filtre d’échecs consécutifs pour la performance que pour la disponibilité, ainsi une alerte temps de réponse se déclenche seulement après que le ralentissement se répète plusieurs fois d’affilée, pas au premier dépassement. Cela coupe les fluctuations dues au trafic de l’après-midi qui entraînent la désactivation des alertes latence.

Alertez sur le temps restant avant expiration pour tout ce qui expire

Les certificats et domaines ne se dégradent pas. Ils fonctionnent, puis un jour, ils ne fonctionnent plus. Donc, le seuil n’est pas un nombre de performance, c’est un calendrier. Lancez une alerte SSL 30 jours avant l’expiration puis de nouveau à 7 jours, et vous transformez une panne nocturne en ticket routinier. La bonne alerte de certificat garantit que le renouvellement se fait pendant les heures ouvrables, pas pendant un incident.

Si vous souhaitez relier vos seuils de performance à une valeur métier, un calculateur de budget d’erreur vous aide à déterminer combien de dégradation votre SLA peut vraiment absorber avant qu’une alerte mérite de réveiller quelqu’un.

Une panne du paiement à 2 h du matin, étape par étape

Assemblez les pièces avec un scénario réel que la plupart des équipes opérationnelles ont connu. Il est 2:14 du matin. Un certificat sur le domaine intermédiaire de votre passerelle de paiement expire.

Sans ingénierie des alertes : Tous les contrôles HTTPS derrière ce certificat échouent en même temps. Le téléphone de l’ingénieur de garde s’enflamme avec 30 SMS : page d’accueil hors service, paiement hors service, page compte hors service, trois points d’API hors service, diverses erreurs d’actifs. Il se réveille, plisse les yeux devant une muraille d’alertes identiques, et met quinze minutes à comprendre qu’il ne s’agit pas de trente problèmes séparés. Le MTTR est déjà compromis avant même qu’on touche à la vraie correction.

Avec ingénierie des alertes : La vérification de surveillance de certificat SSL identifie le certificat expiré comme cause racine. Le groupement par dépendance supprime les alertes pages et API en aval, car leur parent a déjà échoué. L’ingénieur reçoit un seul SMS critique : certificat expiré sur le domaine intermédiaire de paiement, confirmé depuis cinq emplacements. Il sait exactement ce qui a cassé et où, et renouvelle le certificat pendant que l’ancienne configuration compterait encore les alertes.

La panne et la vitesse de détection sont identiques dans les deux cas. Ce qui change la nuit, c’est la manière dont les alertes ont été construites. Et l’alerte certificat qui aurait dû se déclencher 30 jours plus tôt ? C’est la version où cet incident n’arrive pas du tout.

Réduisez le bruit pendant les déploiements et maintenances

Les alertes auto-infligées représentent une grande part du volume total, et sont les plus faciles à éliminer. Quand vous déployez, migrez ou mettez un service en maintenance planifiée, vos contrôles échouent. Si ces échecs alertent le technicien de garde, vous habituez l’équipe à des fausses alertes pendant les fenêtres où ils doivent vraiment être attentifs.

Définissez des fenêtres de maintenance pour que la surveillance supprime les alertes pendant les travaux planifiés puis reprenne automatiquement. Dotcom-Monitor permet de planifier cela par appareil ou groupe d’appareils, ainsi un déploiement sur le service de paiement coupe les alertes liées au paiement sans muer le reste du site. Associer cela à votre pipeline CI/CD permet d’ouvrir et fermer la fenêtre de suppression autour du déploiement lui-même.

Programmer la fenêtre doit devenir une habitude, car une fenêtre de maintenance qu’on oublie de configurer vaut autant qu’une fenêtre inexistante. Intégrez la suppression à votre runbook de déploiement pour ne pas avoir à y penser à 23 h le soir de la mise en production. Si vous déployez fréquemment, intégrer la surveillance dans le pipeline CI/CD permet de gérer la suppression automatiquement dans le cadre de la livraison.

Auditez vos alertes chaque mois

La configuration d’alertes n’est pas une tâche à faire une seule fois. Les sites changent, les schémas de trafic évoluent, et une alerte qui avait du sens il y a six mois est aujourd’hui celle que tout le monde désactive. Faites donc un court audit mensuel avec trois questions.

D’abord, quelles alertes se sont déclenchées sans action humaine ? Récupérez la liste des alertes qui se sont résolues seules sans intervention. Toute règle qui s’est déclenchée plusieurs fois sans action est candidate à la suppression ou au réajustement. Par définition, elle génère du bruit et non du signal.

Ensuite, quels incidents n’avaient pas d’alerte ? La question la plus révélatrice. Revisitez toute panne ou ralentissement qu’un client ou une autre équipe a détecté avant votre surveillance, et ajoutez le contrôle qui l’aurait détecté. Les lacunes sont plus dangereuses que le bruit car elles sont silencieuses.

Enfin, les seuils correspondent-ils toujours à la réalité ? Si votre p95 a augmenté avec la croissance du trafic, votre ancien seuil est maintenant trop serré ou trop laxiste. Recalibrez-le selon les chiffres actuels de vos rapports de disponibilité et SLA plutôt que ceux de sa première mise en place.

Toute cette approche s’inscrit dans un ensemble plus large de bonnes pratiques de surveillance de sites web, mais l’alerte est la source majeure des douleurs quotidiennes. Réglez les alertes et le reste de la pile se calme automatiquement.

Créez des alertes en lesquelles votre équipe a réellement confiance

Dotcom-Monitor confirme les échecs depuis un réseau mondial avant d’alerter, route selon la gravité via Slack, Teams, SMS et PagerDuty, et détecte DNS, TLS, API et pannes transactionnelles à la couche où ça casse. Découvrez comment fonctionne le système d’alertes de Dotcom-Monitor, ou commencez par la surveillance de disponibilité et affinez à partir de là.

Questions fréquemment posées

Comment puis-je empêcher les alertes de surveillance du site Web de provoquer une fatigue liée aux alertes ?
Alerter uniquement une personne en cas de conditions nécessitant une action dans les minutes, et diriger tout le reste vers une file d'attente, un tableau de bord ou un résumé. Exiger une confirmation d'au moins deux emplacements géographiques et deux échecs consécutifs avant de déclencher une alerte de disponibilité. Définir des alertes de performance sur une violation soutenue du p95 plutôt que sur un échantillon lent unique, supprimer les alertes pendant les déploiements et les fenêtres de maintenance, et auditer les règles d'alerte mensuellement afin que toute alerte déclenchée sans réponse soit retirée.
Quelle est la différence entre une alerte et une escalade ?
Une alerte est la notification qu'une vérification a échoué. Une escalade est la règle qui décide qui en est informé, par quel canal, et ce qu'il se passe si personne ne répond. Un seul dépassement de seuil peut d'abord être envoyé sur Slack, alerter l'ingénieur de garde par SMS si cela reste non résolu pendant dix minutes, puis notifier un second ingénieur de garde après vingt minutes. La logique d'escalade donne aux alertes brutes un chemin de réponse, afin que l'ingénieur de garde ait une procédure à suivre au lieu d'une multitude de notifications identiques.
Comment éviter d’être submergé lorsque une panne affecte plusieurs vérifications ?
Ordrez vos vérifications par dépendance et laissez la cause principale supprimer les symptômes. Si une vérification DNS, une vérification TLS et douze vérifications de page échouent toutes en même temps, l'échec DNS est presque toujours la cause et le reste est en aval. Regroupez les moniteurs dépendants afin qu'une défaillance parente coupe les alertes des enfants, alertez sur la couche qui a cassé en premier, et utilisez la surveillance des transactions pour confirmer si le flux côté utilisateur est réellement en panne plutôt que de déclencher une alerte pour chaque élément individuel.
Quels seuils doivent déclencher une alerte de surveillance de site Web ?
Les alertes de disponibilité doivent se déclencher après deux contrôles échoués consécutifs confirmés depuis plusieurs emplacements, et non après un seul ping manqué. Les alertes de temps de réponse fonctionnent mieux avec une référence p95 plus une marge, maintenue pendant cinq à dix minutes, plutôt qu'avec un nombre fixe de millisecondes qui ignore la variation normale. Les alertes SSL et DNS doivent se déclencher en avance, par exemple 30 jours avant l'expiration du certificat, afin que vous receviez un avertissement plutôt qu'une interruption.
Quels canaux de notification fonctionnent le mieux pour les alertes critiques du site Web ?
Associez le canal à la gravité. Orientez les pannes critiques ayant un impact sur les revenus vers SMS, téléphone ou PagerDuty afin qu’elles atteignent rapidement une personne. Envoyez les avertissements au niveau de l’équipe sur Slack ou Microsoft Teams où les ingénieurs travaillent déjà. Réservez l’email pour les résumés, rapports et notifications à faible priorité. Envoyer chaque alerte à tous les canaux habitue les gens à toutes les ignorer, ce qui est à l’origine de la plupart des fatigues liées aux alertes.
Matthew Schmitz
About the Author
Matthew Schmitz
Directeur des tests de charge et de performance chez Dotcom-Monitor

En tant que Directeur des tests de charge et de performance chez Dotcom-Monitor, Matt dirige actuellement un groupe d’ingénieurs et de développeurs exceptionnels qui travaillent ensemble pour créer des solutions de tests de charge et de performance de pointe, répondant aux besoins les plus exigeants des entreprises.

Latest Web Performance Articles​

Démarrer Dotcom-Monitor gratuitement

Pas de carte de crédit requise