Alertas de Monitoreo de Sitios Web – Maximiza el Tiempo de Actividad y Reduce el Ruido

Última actualización:

Actualizado en junio de 2026 · Lectura de 11 minutos

Ingeniero de guardia revisando una consola de alertas de monitoreo de sitios web que muestra cortes confirmados, niveles de escalado y canales de notificación por la noche
El objetivo no es más alertas. Son menos alertas que cada una signifique algo.

Pregunta a cualquier ingeniero de guardia sobre su monitoreo y te dirá lo mismo: las alertas no son el problema. El ruido sí lo es. Un stack típico dispara en cada muestra lenta, cada pico en una sola ubicación, cada chequeo dependiente que falla cuando un servicio upstream se rompe. Después de unas semanas de eso, la gente deja de leer las alertas. Y la noche que ocurre una falla real, cae en el mismo canal silenciado que 200 falsos positivos.

Así es como la fatiga de alertas incrementa el Tiempo Promedio para la Resolución. La detección nunca fue el cuello de botella. La señal quedó enterrada. Esta guía trata sobre construir alertas de monitoreo para sitios web que solo se activen cuando la experiencia del usuario esté realmente comprometida, para que tu equipo confíe lo suficiente en ellas para actuar cuando lo hacen. Cubriremos lógica de confirmación, niveles de escalada, supresión consciente de dependencias y matemáticas de umbrales, con los ajustes exactos que separan una rotación de guardia tranquila de un pager que nadie atiende.

Por qué la mayoría de las alertas son ruido, no señal

Una alerta de monitoreo tiene un solo trabajo: decirle a un humano que algo está mal y necesita arreglarlo. La mayoría de las alertas fallan en esa tarea mediante tres patrones comunes, y cada uno tiene una solución clara.

Los falsos positivos en una sola ubicación son los más frecuentes. Un agente de monitoreo en Frankfurt sufre un pequeño problema de red transitorio, la verificación falla, la alerta se dispara, y tu sitio nunca estuvo caído para un solo usuario real. Ejecutar monitoreo de disponibilidad desde un solo lugar hace que un porcentaje de tus páginas fallen por pérdida de paquetes entre tu monitor y tu origen, no por cortes reales.

Los umbrales variables (flapping) vienen después. Configuras una alerta de tiempo de respuesta en 2,000 ms porque parecía lento. Pero tu p95 (el tiempo de respuesta que ve el 5 % más lento de tus solicitudes) ya ronda los 1,800 ms durante tráfico pico, así que la alerta se dispara cada tarde, se limpia sola y se dispara de nuevo. Nadie actúa porque no hay nada que hacer. El número estaba mal, no el sitio.

Y luego está la tormenta de alertas. La resolución DNS falla para tu dominio. Ahora los chequeos de la página principal fallan, los de inicio de sesión fallan, los del checkout fallan, los checks de API fallan y el del SSL también porque el monitor ni siquiera puede alcanzar el host. Una causa raíz, cuarenta alertas, todas disparándose en el mismo minuto. El ingeniero de guardia tiene que leer las cuarenta para encontrar la que importa.

Arregla esos tres patrones y eliminas la mayor parte del ruido. El resto de esta guía explica cómo hacerlo.

Confirma un corte antes de avisar a alguien

El cambio con mayor impacto que puedes hacer es exigir confirmación antes de que una alerta se dispare, y Dotcom-Monitor está diseñado para aplicar exactamente eso. En lugar de enviar un aviso en la primera verificación fallida, configuras las condiciones que una falla debe cumplir antes de que alguien se entere: acuerdo de más de una ubicación y más de un chequeo fallido consecutivo. Ambos se configuran por monitor, así decides cuánta evidencia necesita cada chequeo antes de alertar.

La confirmación desde múltiples ubicaciones elimina el falso positivo en la fuente. Si un chequeo falla desde Frankfurt pero pasa desde Dallas, Londres y Singapur al mismo tiempo, el problema es la ruta a Frankfurt, no tu sitio. Una falla real ocurre en todas partes. Esa es la función de la red global de monitoreo de Dotcom-Monitor: cuando un chequeo falla, Dotcom-Monitor lo vuelve a verificar automáticamente desde más ubicaciones antes de enviar una alerta, así que un pico regional único nunca llega a tu rotación de guardia. Solo escuchas fallos que coinciden en más de un punto de vista.

La lógica de fallos consecutivos maneja el glitch momentáneo. En el sistema de alertas de Dotcom-Monitor configuras una alerta para que se active solo después de que fallen dos o tres chequeos consecutivos, no el primero. A intervalos de un minuto, eso agrega uno o dos minutos de latencia en la detección a cambio de reducir el ruido transitorio casi a cero. Para la mayoría de sitios ese intercambio vale la pena, y porque el filtro se configura por monitor, una página de marketing puede tolerar una confirmación más lenta que un endpoint de pago.

La confirmación agrega un pequeño retraso. Si manejas un sistema donde un segundo de caída es verdaderamente catastrófico, puedes aceptar más falsos positivos a cambio de detección más rápida. La mayoría de equipos no están en esa posición, y ese intercambio les da pagers tranquilos.

Construye niveles de escalada que coincidan con la gravedad

Una alerta y una escalada no son lo mismo. La alerta es el hecho de que un chequeo falló. La escalada es la regla que decide quién la recibe, por qué canal y qué pasa si nadie responde. El alertamiento plano, donde cada falla avisa a todos de la misma forma, es la ruta más rápida hacia un equipo que ignora su pager.

Camino de escalada de alertas de sitio web en tres niveles: Slack, luego SMS y PagerDuty, luego guardia secundaria
La gravedad decide el canal. El tiempo sin respuesta decide la escalada.

Comienza clasificando las fallas por niveles de gravedad y asignando cada uno a un canal. El principio es simple: mientras más ruidoso el canal, mayor la barrera para usarlo.

Gravedad Ejemplo Canal Quién responde
Crítica Checkout o inicio de sesión caídos, confirmado desde múltiples ubicaciones SMS, teléfono, PagerDuty Guardia, inmediatamente
Alta Página principal lenta más allá del p95 durante 10 minutos Slack o Teams, @on-call Guardia, en menos de una hora
Baja Página de marketing lenta, un activo con error 404 Correo electrónico resumen, panel de control Revisado al siguiente día hábil

Luego agrega escalada basada en el tiempo sobre la gravedad. Una alerta crítica llega por Slack y al ingeniero de guardia al mismo tiempo. Si sigue abierta después de diez minutos, se envía un segundo aviso por SMS. Después de veinte, notifica al guardia secundario o al líder del equipo. Nadie tiene que recordar escalar a mano a las 3 AM, y una página no respondida no se convierte en una falla ignorada.

Dotcom-Monitor maneja esto con grupos de notificación y horarios de escalada. Defines quién está de guardia, qué canales usa cada nivel y cuánto tiempo espera una alerta antes de escalar a la siguiente persona. Se integra con los canales donde los equipos ya trabajan, así una notificación en Slack o Microsoft Teams llega a las personas activas y una escalada por PagerDuty cubre el camino fuera de horario. La idea es enrutar por gravedad, no enviar todo esperando que alguien lo note.

Deja que los chequeos de dependencia supriman los síntomas

La tormenta de alertas es un problema estructural y lo resuelves estructuralmente. Tus chequeos tienen un orden de dependencia y la mayoría de los equipos lo ignora. Una petición a tu página de checkout depende de que DNS resuelva, luego que TCP conecte, luego que termine el handshake TLS, luego que HTTP devuelva contenido, y finalmente que la transacción tenga éxito. Cuando algo abajo en esa pila falla, todo lo que está arriba también falla.

Así que ordena tu monitoreo igual que el flujo de la petición y deja que la causa raíz silencie los síntomas. El monitoreo multiprotocolo de Dotcom-Monitor hace esto práctico: observas DNS, TCP, TLS, HTTP y la transacción completa como chequeos separados, así cuando algo falla puedes ver qué capa se rompió y alertar sobre esa en vez del efecto dominó detrás.

Infografía de la pila de una solicitud web desde DNS en la base hasta TCP/TLS, HTTP y TRANSACTION, con la capa DNS señalada como causa raíz y las capas superiores como impacto downstream
Cuando una capa baja falla, todo lo que está arriba también falla. Alerta en la capa que falló primero.

  • DNS primero. Si el monitoreo DNS muestra que la resolución falla, ya sabes por qué todos los chequeos posteriores están en rojo. Alerta en la falla de DNS y suprime el resto.
  • Luego conexión y certificado. Un handshake TLS fallido o un certificado expirado rompe todos los chequeos HTTPS detrás. Detecta eso en la capa del certificado con monitoreo de certificados SSL y obtendrás una alerta única y clara en lugar de una avalancha de fallos genéricos de página.
  • Después la aplicación. Si DNS, TCP y TLS están saludables pero falla el chequeo de página o monitoreo de API, tienes un incidente genuino a nivel de aplicación que vale la pena que dispare una alerta.

El monitoreo de transacciones afina esto aún más. En lugar de alertar por cada activo individual, scriptéa el flujo de usuario que realmente importa y alerta por ese flujo. El scripting EveryStep de Dotcom-Monitor graba un camino real en navegador, como buscar, agregar al carrito y comenzar el checkout, y alerta cuando un paso específico falla. Si falla el paso cuatro pero la página principal está bien, recibes una alerta que dice el checkout falla en el paso de pago, no veinte que indican errores en varios activos. Esa es la diferencia entre una alerta que te dice qué se rompió y otra que solo dice que algo se rompió.

Agrupa los monitores por dependencia para que una falla padre silencie a sus hijos. Una alerta de causa raíz vence a cuarenta alertas de síntomas siempre.

Configura umbrales para que las alertas signifiquen algo

Un umbral es una promesa que cruzar esa línea significa que algo está mal. La mayoría de umbrales rompen esa promesa porque son números estáticos elegidos una vez y olvidados. Tres reglas los mantienen honestos.

Usa percentiles, no promedios

Los promedios ocultan las solicitudes lentas que realmente afectan a los usuarios. Una página puede promediar 900 ms mientras su p95 está en 3 segundos, lo que significa que uno de cada veinte visitantes espera tres segundos. Alerta en el p95, o p99 para flujos de checkout, porque esa es la experiencia que obtienen tus usuarios reales más lentos. Los informes de rendimiento de Dotcom-Monitor separan el tiempo de respuesta por percentil y ubicación, para que puedas configurar un umbral contra el número que refleja experiencia real y no un promedio favorecedor.

Exige un incumplimiento sostenido

Una muestra lenta no es un incidente. En Dotcom-Monitor aplicas el mismo filtro de fallos consecutivos al rendimiento que para la disponibilidad, así una alerta de tiempo de respuesta solo se dispara después de varios chequeos lentos seguidos, no en la primera muestra que cruza tu línea. Esto reduce el flapping en tráfico de la tarde que entrena a la gente a ignorar alertas de latencia.

Alerta sobre el tiempo restante para todo lo que expire

Los certificados y dominios no se degradan. Funcionan y un día dejan de funcionar. Así que el umbral no es un número de rendimiento, es un calendario. Dispara una alerta SSL 30 días antes de la expiración y otra a los 7 días, y conviertes una caída a medianoche en un ticket rutinario. La alerta correcta de certificados significa que la renovación ocurre en horario laboral, no durante un incidente.

Si quieres ligar los umbrales de rendimiento a un número de negocio, un calculador de presupuesto de error te ayuda a determinar cuánto deterioro tu SLA puede absorber antes de que valga la pena despertar a alguien.

Una falla en checkout a las 2 AM, paso a paso

Pon los elementos juntos con un patrón real que la mayoría de los equipos de operaciones ha vivido. Son las 2:14 AM. Un certificado del dominio intermedio de tu pasarela de pago expira.

Sin ingeniería de alertas: Todos los chequeos HTTPS detrás de ese certificado fallan al mismo tiempo. El teléfono del ingeniero de guardia se llena con 30 SMS: página principal caída, checkout caído, página de cuenta caída, tres endpoints API caídos, fallos de activos varios. Se despiertan, entrecierran los ojos ante un muro de alertas idénticas y dedican quince minutos a entender que no son treinta problemas separados. El MTTR ya está dañado antes de que alguien toque la solución real.

Con ingeniería de alertas: El chequeo de monitoreo de certificado SSL identifica el certificado expirado como causa raíz. La agrupación por dependencia suprime las alertas de páginas y API aguas abajo porque su padre ya falló. El ingeniero recibe un único SMS crítico: certificado expirado en el intermedio de pago, confirmado desde cinco ubicaciones. Saben exactamente qué se rompió y dónde, y están renovando el certificado mientras la versión antigua todavía contaba alertas.

La falla y la velocidad de detección son idénticas en ambas versiones. Lo que cambia la noche es cómo se construyeron las alertas. ¿Y la alerta de certificado que debió activarse 30 días antes? Esa es la versión donde este incidente nunca sucede.

Silencia el ruido durante despliegues y mantenimiento

Las alertas autoprovocadas son una gran parte del volumen total y las más fáciles de eliminar. Cuando despliegas, corres una migración o sacas un servicio para mantenimiento programado, tus chequeos fallarán. Si esas fallas alertan al ingeniero de guardia, estás entrenando al equipo para esperar falsas alarmas justo cuando deberían estar más atentos.

Configura ventanas de mantenimiento para que el monitoreo suprima alertas durante trabajo planeado y luego retome automáticamente. Dotcom-Monitor permite programarlas por dispositivo o grupo, así un despliegue al servicio de checkout silencia solo esas alertas sin callar todo el sitio. Combínalo con tu pipeline CI/CD y la ventana de supresión puede abrirse y cerrarse alrededor del despliegue.

Configurar la ventana debe ser un hábito porque una ventana de mantenimiento que alguien olvida establecer es igual a no tenerla. Incluye la supresión en tu runbook de despliegue para que no sea algo que recordar a las 11 PM en la noche de lanzamiento. Si haces despliegues frecuentes, integrar el monitoreo en el pipeline CI/CD permite que la supresión ocurra automáticamente como parte del release.

Audita tus alertas cada mes

Configurar alertas no es algo que se hace una vez y se olvida. Los sitios cambian, los patrones de tráfico varían y una alerta que tenía sentido hace seis meses ahora es la que todos silencian. Así que realiza una auditoría corta mensual con tres preguntas.

Primero, ¿qué alertas se dispararon sin que nadie actuara? Extrae la lista de alertas que se resolvieron solas sin respuesta humana. Cualquier regla que se disparó más de unas pocas veces sin acción es candidata a ser retirada o ajustada. Por definición está generando ruido, no señal.

Segundo, ¿qué incidentes no tuvieron alerta? La pregunta más reveladora. Revisa cualquier caída o período lento que un cliente u otro equipo detectó antes que tu monitoreo y añade el chequeo que lo hubiera detectado. Las brechas son más peligrosas que el ruido porque son silenciosas.

Tercero, ¿siguen los umbrales reflejando la realidad? Si tu p95 ha subido con el crecimiento del tráfico, tu antiguo umbral es ahora demasiado estricto o demasiado permisivo. Re-baséate con los números actuales en tus informes de disponibilidad y SLA en lugar de con los datos de cuando lo configuraste.

Este enfoque forma parte de un conjunto más amplio de mejores prácticas en monitoreo de sitios web, pero el alertamiento es donde vive la mayor parte del dolor diario. Configura las alertas correctamente y el resto del stack se tranquiliza por sí solo.

Construye alertas en las que tu equipo realmente confíe

Dotcom-Monitor confirma fallos desde una red global antes de alertar, enruta por gravedad a través de Slack, Teams, SMS y PagerDuty, y captura fallas de DNS, TLS, API y transacciones en la capa que se rompió. Mira cómo funciona el sistema de alertas de Dotcom-Monitor, o comienza con monitoreo de disponibilidad y ajusta desde ahí.

Preguntas Frecuentes

¿Cómo evito que las alertas de monitoreo del sitio web causen fatiga por alertas?
Notificar a un humano solo para condiciones que requieran acción en minutos y dirigir todo lo demás a una cola, panel de control o resumen. Requerir confirmación de al menos dos ubicaciones geográficas y dos chequeos fallidos consecutivos antes de que se active una alerta de tiempo de actividad. Establecer alertas de rendimiento en una violación sostenida del p95 en lugar de una única muestra lenta, suprimir alertas durante implementaciones y ventanas de mantenimiento, y auditar las reglas de alerta mensualmente para que cualquier alerta que se active sin respuesta sea dada de baja.
¿Cuál es la diferencia entre una alerta y una escalada?
Una alerta es la notificación de que una verificación falló. Una escalada es la regla que decide quién se entera, a través de qué canal y qué sucede si nadie responde. Una sola violación del umbral puede enviarse primero a Slack, alertar al ingeniero de guardia por SMS si no se resuelve en diez minutos, y luego notificar a un segundo ingeniero de guardia después de veinte minutos. La lógica de escalada da a las alertas sin procesar un camino de respuesta, de modo que el ingeniero de guardia tiene una ruta a seguir en lugar de una pared de notificaciones idénticas.
¿Cómo puedo evitar que se inunden las alertas cuando una sola interrupción afecta muchas verificaciones?
Ordene sus verificaciones por dependencia y deje que la causa raíz suprima los síntomas. Si una verificación de DNS, una verificación de TLS y doce verificaciones de página fallan todas a la vez, la falla de DNS es casi siempre la causa y el resto son consecuencias. Agrupe los monitores dependientes para que una falla principal silencie las alertas secundarias, alerte en la capa que se rompió primero y use la monitorización de transacciones para confirmar si el flujo orientado al usuario está realmente caído en lugar de enviar alertas por cada recurso individual.
¿Qué umbrales deben activar una alerta de monitoreo del sitio web?
Las alertas de disponibilidad deben activarse tras dos comprobaciones fallidas consecutivas confirmadas desde múltiples ubicaciones, no por un solo ping perdido. Las alertas de tiempo de respuesta funcionan mejor con una línea base p95 más un margen, sostenido durante cinco a diez minutos, en lugar de un número fijo de milisegundos que ignore la variabilidad normal. Las alertas de SSL y DNS deben activarse con anticipación, como 30 días antes de la expiración del certificado, para que reciba una advertencia en lugar de una interrupción.
¿Qué canales de notificación funcionan mejor para alertas críticas del sitio web?
Asocia el canal con la gravedad. Dirige las interrupciones críticas que afectan los ingresos a SMS, teléfono o PagerDuty para que lleguen rápidamente a una persona. Envía advertencias a nivel de equipo a Slack o Microsoft Teams, donde los ingenieros ya trabajan. Mantén el correo electrónico para resúmenes, informes y avisos de baja prioridad. Enviar cada alerta a todos los canales hace que las personas ignoren todas ellas, lo que es la raíz de la mayoría de la fatiga por alertas.
Matthew Schmitz
About the Author
Matthew Schmitz
Director de Pruebas de Carga y Rendimiento en Dotcom-Monitor

Como Director de Pruebas de Carga y Rendimiento en Dotcom-Monitor, Matt lidera actualmente a un grupo de ingenieros y desarrolladores excepcionales que trabajan juntos para crear soluciones de pruebas de carga y rendimiento de vanguardia para las necesidades empresariales más exigentes.

Latest Web Performance Articles​

Empiece a utilizar Dotcom-Monitor gratis

No se requiere tarjeta de crédito