
La mayoría de los equipos tienen monitoreo de sitios web. Muchos menos tienen monitoreo de sitios web que realmente detecta problemas antes que los clientes, ventas y soporte. La brecha rara vez es la herramienta. Son las prácticas que la rodean: qué se verifica, desde dónde, con qué frecuencia, qué desencadena una página y quién decide cuándo una verificación está rota versus cuándo el sitio está roto.
Este manual recopila ocho mejores prácticas de monitoreo de sitios web que separan las configuraciones en las que confían los equipos SRE y DevOps de las que silenciosamente se convierten en ruido. Cada una es concreta: umbrales, intervalos, anti-patrones y qué seguir haciendo una vez que funciona. Las mismas prácticas se aplican tanto si ejecutas monitoreo de disponibilidad en un sitio de marketing como monitoreo sintético completo de transacciones en un proceso de pago SaaS.
Cómo se Ve lo “Bueno” (y Por Qué la Mayoría de Configuraciones Lo Pierde)
Una definición funcional: tu monitoreo es bueno si tu equipo se entera de cada problema frente al cliente mediante un monitor antes que los clientes se enteren, y si las páginas que recibes son casi siempre accionables. Eso es el estándar completo.
Tres números lo miden. El tiempo medio para detectar (MTTD) te dice si el monitoreo es lo suficientemente rápido. El tiempo medio para resolver (MTTR) te dice si los datos que muestra el monitor son suficientes para arreglar el problema. La precisión de la alerta —el porcentaje de páginas que fueron reales y requirieron acción inmediata— te dice si tu equipo seguirá confiando en las alertas en seis meses. La mayoría de equipos SRE miden MTTD y MTTR. La mayoría de equipos no miden precisión. Por eso muchas rotaciones on-call degeneran en reconocimientos silenciosos y desesperanza aprendida.
El resto de este manual trata de empujar ambos números en la dirección correcta simultáneamente.
Capas de Comprobación a lo Largo de Todo el Camino de la Solicitud
Una única verificación HTTPS es una alarma de humo con un solo sensor. Te dice que algo está mal, no dónde. Cuando un usuario escribe tu URL y espera que la página se renderice, la solicitud pasa por al menos seis capas: resolución DNS, handshake TCP, negociación TLS, respuesta HTTP, carga de recursos y renderizado en el cliente de la vista final. Cada capa falla de forma distinta y cada una tiene su propia causa raíz.

La configuración práctica se ve así:
- DNS: Comprobar que los registros A, AAAA, CNAME y MX se resuelvan a los valores esperados desde múltiples resolutores. Los problemas DNS son los más fáciles de pasar por alto y los más dolorosos de depurar después. Las mejores herramientas de monitoreo DNS vigilan cambios no autorizados en registros, retrasos de propagación y fallos específicos del resolutor.
- TCP e ICMP: Confirmar que el puerto esté abierto y que el camino de red esté sano. Un cambio de firewall que bloquee el 443 no aparecerá en un chequeo HTTP desde el mismo segmento de red.
- TLS: Validar la cadena de certificados, fecha de expiración, coincidencia del hostname y soporte de cifrado. La mayoría de las caídas de certificados son evitables — el certificado solo expiró un domingo. Recibe alertas explícitas de expiración a los 60, 30, 14 y 3 días. Ver cómo monitorear la expiración de certificados SSL para detalles de configuración.
- HTTP: Código de estado, tiempo de respuesta y una aserción de contenido. Estado 200 con cuerpo vacío es chequeo fallido, no exitoso.
- Renderizado y transacción: Conducir un navegador real a lo largo del recorrido del usuario, asertar en un elemento conocido en el estado final y medir el tiempo hasta interactivo. El monitoreo sintético que usa navegadores reales detecta lo que las verificaciones de protocolo no pueden — JavaScript roto, scripts de terceros que se cuelgan, un archivo CSS faltante que hace invisible el botón de carrito.
- API: Tratar las APIs como endpoints de primera clase. Un sitio que carga pero no puede completar un checkout porque la API de pago tiene timeout sigue estando roto. El monitoreo de API merece su propio cronograma de chequeos, separado de las páginas que dependen de ella.
Cuando algo falla, la capa que alerta primero es tu punto de partida para la causa raíz. Un equipo que monitorea solo HTTP obtiene un bit de información: caída. Un equipo que monitorea las seis capas obtiene un árbol de fallas.
Ejecuta Monitoring Sintético y RUM Lado a Lado, No en Lugar de Cada Uno
Los dos métodos responden diferentes preguntas y no son sustitutos. La tabla a continuación resume la división que la mayoría de equipos adoptan tras ejecutarlos ambos durante un trimestre.
| Capacidad | Monitoreo Sintético | Monitoreo Real de Usuarios (RUM) |
|---|---|---|
| Fuente de datos | Chequeos con script desde ubicaciones controladas | Navegadores de visitantes reales |
| Funciona con cero tráfico | Sí | No |
| Línea base constante | Sí—mismo script, mismas ubicaciones | No—varía con mezcla de tráfico |
| Detecta regresiones antes que los usuarios | Sí | No |
| Refleja diversidad real de dispositivos y redes | Limitado | Sí |
| Mejor para | Reporte SLA, alertas proactivas, monitoreo de uptime | Análisis de experiencia real, priorización de arreglos |
| Modo común de falla | Casos límite faltantes no scriptados | Enterarse de caídas por Twitter |
El monitoreo sintético ejecuta chequeos scriptados en un cronograma fijo desde un conjunto fijo de ubicaciones. Los datos son consistentes a lo largo del tiempo e inmunes a caídas de tráfico. También funciona a las 3 a.m. cuando no hay usuarios reales para notar el despliegue que rompió la página de inicio de sesión. Por eso el monitoreo sintético es la herramienta adecuada para reportes SLA, detección de regresiones y alertas proactivas.
RUM captura los datos de rendimiento y error desde navegadores reales. Refleja la distribución real de dispositivos, redes y geografías en que viven tus usuarios. Es la única fuente que puede decirte que un 2% de usuarios Android en un operador específico están viendo un tiempo de 9 segundos para el primer byte. RUM es la herramienta correcta para comprender la experiencia en el mundo real y priorizar el trabajo de ingeniería.
Usa sintético para saber que el sitio está arriba y funcionando normalmente. Usa RUM para saber cómo ese comportamiento se asigna a las personas que te pagan. Los equipos que eligen uno y descartan el otro quedan sorprendidos por casos límite (solo sintético) o se enteran de caídas por Twitter (solo RUM).
Ve Ambos Lados de Tu Sitio
Dotcom-Monitor ejecuta monitoreo sintético con navegador real desde una red global de puntos de control e integra con los datos RUM que tu equipo de front-end ya recopila. Una plataforma, dos vistas.
Monitorea Desde las Regiones Geográficas que Generan Ingresos
Una verificación desde tu centro de datos de al lado te dice si el centro de datos está en línea. No te dice si un usuario en São Paulo está teniendo un buen día.
La regla es simple: coloca puntos de control en cada región que contribuya significativamente a los ingresos, más una o dos regiones que actúen como control. Si el 35% de tus ventas vienen de EMEA, necesitas al menos dos puntos de control en EMEA—uno en un mercado principal como Frankfurt o Londres, y otro en uno secundario como Madrid o Estocolmo. La cobertura de EMEA con un solo punto oculta caídas regionales de ISP y fallos en bordes de CDN.
Tres patrones que vale la pena implementar:
- Confirmación multigeográfica para el paginado. Requiere que un fallo se repita desde al menos dos regiones distintas dentro de 60 segundos antes de paginar. Una falla regional aislada suele ser un problema del operador regional o del punto de control, no una caída del sitio.
- Bases de referencia regionales. Tokio y Iowa no cargan tu sitio a la misma velocidad y no deberían compartir un umbral. Monitorea latencias p95 por región y alerta por desviación regional, no por promedio global.
- Agentes privados dentro de redes corporativas. Si vendes a empresas que acceden a tu app detrás de su propio firewall, ejecuta un punto de control dentro de ese entorno. Los agentes privados detectan problemas causados por la red del cliente, no la tuya, que aún se siente como tu problema para el cliente.
La red de puntos de control Dotcom-Monitor abarca más de 30 países; la lista específica para habilitar depende de dónde viene tu dinero, no de dónde está tu centro de datos.
Establece Umbrales Basados en Líneas Base, No en Números Redondos
El pecado más común en monitoreo es “alerta si tiempo de respuesta > 3 segundos.” Tres segundos es un número redondo. A tu sitio no le importan los números redondos. Si tu verdadero p95 es 4.2 segundos y estable, recibirás paginaciones 24 veces al día por comportamiento normal. Si tu p95 real es 0.8 segundos y se degrada a 2.5 segundos, no recibirás nada porque 2.5 sigue siendo menor que 3.
La solución es un umbral relativo a la línea base:
Alertar cuando el p95 sostenido en una ventana de 10 minutos exceda (p95 base × 1.5) o (p95 base + 2σ), el que sea mayor, y la condición persista por dos ventanas de evaluación consecutivas.
Esa fórmula hace tres cosas a la vez. El multiplicador 1.5× escala con la página para que una página rápida y otra lenta puedan compartir la misma regla. El término 2σ suprime la volatilidad normal. La puerta de “dos ventanas consecutivas” elimina los falsos positivos por picos momentáneos que causan la mayoría del ruido en las paginaciones.
El cálculo de la línea base es la parte que la mayoría de equipos omiten. Recalcula las líneas base semanalmente con los últimos 14 días, excluyendo ventanas de despliegues y períodos de incidentes conocidos. Los productos de detección de anomalías que calibran automáticamente son un buen atajo si no quieres gestionar esto manualmente, pero verifica qué excluyen. Una línea base contaminada por el incidente de la semana pasada es peor que no tener línea base.
Para chequeos de uptime, la regla equivalente: requiere dos fallos consecutivos desde dos geografías distintas antes de paginar. Un chequeo fallido único de una ubicación casi siempre es un error del punto de control. Dos fallos en dos ubicaciones es real.
Diseña la Alerta, No Solo la Verificación
Una verificación te dice que algo ocurrió. Una alerta le dice a un humano que haga algo al respecto. Son problemas diferentes y la mayoría de equipos diseñan solo el primero.
El trabajo de ingeniería de alertas es entregar la información correcta a la persona correcta en un formato que le permita actuar en menos de 60 segundos. Los bloqueos suelen ser:
- Demasiadas alertas. Si el ingeniero on-call promedio recibe más de tres paginaciones por turno, la siguiente será procesada con menor atención. Esto no es una falla moral, es cómo funciona la atención humana.
- Alertas sin contexto. “Checkout lento” no es accionable. “Checkout p95 4.8s (línea base 1.1s) desde regiones EU, inició 14:32 UTC, correlacionado con despliegue abc123 a las 14:30” sí es accionable.
- Canal incorrecto. Slack no hace paginación. Email no hace paginación. SMS, push o llamada telefónica sí hacen paginación. Mezclarlos diluye la señal.
El patrón que funciona:
- Tres niveles de severidad, tres canales. Crítico (sitio caído, pago roto) → SMS o llamada. Advertencia (degradación sostenida) → push o chat con mención on-call. Info (única verificación fallida, deriva en línea base) → tablero o resumen diario. Nunca paginar en info.
- Supresión de dependencias. Si falla DNS, no pagines también por las 14 verificaciones HTTP aguas abajo que dependen de DNS. La agregación de alertas y supresión de dependencias es fundamental; si tu plataforma no las soporta, pierdes sueño.
- Escalada en red, no cadena. Si el on-call principal no reconoce en 5 minutos, pagina al secundario y notifica el canal. La escalada serial te cuesta 5 minutos por salto mientras el sitio está caído.
- Horas de silencio para no-críticos. Las regresiones de rendimiento que ocurren a las 2 a.m. un domingo usualmente no necesitan despertar a nadie. Lo crítico sí. Sé honesto al configurar reglas sobre qué es qué.
Y mide precisión. Cada mes, cuenta las paginaciones que se detonaron y etiqueta cada una: incidente real, falso positivo, acción no requerida. Si la precisión está por debajo del 80%, corrige las alertas más ruidosas antes de agregar nuevas.
Cubre las Partes que No Controlas
Tu sitio no es solo tu código. Una página de pago moderna carga scripts de un procesador de pagos, un gestor de etiquetas, un proveedor de analíticas, un widget de chat, una herramienta de pruebas A/B, una CDN y a veces un servicio de detección de fraudes. Cualquiera puede tumbar la página.
Las dependencias de terceros necesitan sus propios monitores:
- Tiempo de respuesta en borde CDN por región. Las CDN fallan, especialmente durante eventos regionales.
- Tiempo de ida y vuelta de gateway de pago como chequeo sintético de API contra el endpoint de estado o sandbox del gateway.
- Tiempo de carga de scripts de gestor de etiquetas y analíticas medido como parte de la transacción sintética. Una etiqueta de analíticas bloqueante añade 2 segundos a cada página; necesitas saberlo.
- Proveedores externos de autenticación (OAuth, SSO). Si tu botón de “iniciar sesión con Google” deja de funcionar, debes saberlo antes que llegue a soporte.
- Proveedores DNS. Ejecuta monitoreo DNS desde múltiples resolutores para detectar retrasos de propagación y caídas parciales en el proveedor.
Documenta qué terceros bloquean qué recorridos de usuario. Cuando un tercero falla, el manual debería decir si la acción correcta es “caer a plan B,” “esperar” o “pagina al on-call del proveedor.” Sin ese mapa, cada incidente con terceros se vuelve un ejercicio de improvisación.
Asocia Cada Monitor con un Manual de Procedimientos
Los cinco minutos más caros de cualquier incidente son cuando el ingeniero on-call intenta entender qué significa la alerta.
Soluciona eso una vez: cada monitor enlaza a un manual. El manual no necesita ser elaborado. Tres secciones son suficientes:
- Qué cubre esta verificación en una oración. (“Valida que la transacción de checkout EU complete en menos de 5 segundos desde Frankfurt y Ámsterdam.”)
- Las primeras cinco cosas que revisar cuando esto se dispara. Enlaces a la página de estado, tableros, despliegues recientes, alertas relacionadas, página de estado del proveedor.
- Patrones conocidos de falsos positivos, si hay. (“El punto Frankfurt ocasionalmente falla por timeout durante la ventana de mantenimiento del proveedor 02:00-02:30 UTC sábados. Suprimido.”)
La primera vez que escribes un manual, tomas 15 minutos. Cada incidente siguiente en ese monitor toma 15 minutos menos. Las matemáticas son obvias y la mayoría de equipos todavía no lo hacen.
Valida los Monitores y Audita la Cobertura Trimestralmente
Un monitor no probado es un deseo, no una garantía. Dos prácticas detectan las brechas.
Simula caos en las alertas. Una vez por trimestre, rompe deliberadamente un chequeo—apaga un endpoint de prueba, expira un certificado en un ambiente staging, baja el umbral de tiempo de respuesta a 0—y confirma que la alerta se dispare, escale y llegue a la persona correcta. Un tercio de alertas falla en su primera prueba. Causas comunes: rotaciones on-call obsoletas, tokens de integración expirados, canales de Slack que nadie lee.
Audita el mapa de cobertura trimestralmente. Mantén un documento único que liste cada recorrido de usuario, cada dependencia externa y cada categoría de URL. Para cada fila, lista los monitores que la cubren. Las filas vacías son brechas. Las nuevas funciones agregadas el último trimestre usualmente están en filas vacías.
La auditoría también produce el hallazgo opuesto: monitores que cubren URLs que ya no existen. Elimínalos. Un monitor en un endpoint 410 genera ruido para siempre y no protege nada.

Qué Buscar en una Plataforma de Monitoreo
La mayoría de plataformas pueden hacer ping a una URL. Las diferencias aparecen en los casos más complejos. Al evaluar herramientas, mira más allá de las demos en el tablero y pregunta:
- ¿Puede scriptar una transacción con navegador real y lógica condicional? Las grabaciones estáticas fallan la primera vez que la página cambia. El monitoreo de transacciones scriptable (estilo Selenium o propietario) sobrevive la evolución normal del producto.
- ¿Cuántos protocolos nativos soporta? HTTP, HTTPS, DNS, FTP, SMTP, IMAP, POP3, TCP, UDP, ICMP. Cada uno que externalices a otra herramienta es una relación con un proveedor más y un login más.
- ¿Cómo es realmente la huella global de puntos de control? Un proveedor con 200 “puntos de control” alojados en tres regiones en la nube no es global. Pide la lista de ciudades.
- ¿Puede ejecutarse dentro de tu red? Los agentes privados son requeridos para cualquier monitoreo de ambientes staging, apps internas y despliegues privados de clientes.
- ¿Cómo maneja dependencias y agrupación de alertas? Una plataforma que pagina 14 veces por un fallo DNS te está pagando en cortisol.
- ¿Cómo es la exportación de datos? Si no puedes extraer resultados crudos de chequeos a tu propio stack analítico, no podrás investigar los incidentes difíciles.
- Integraciones con tus herramientas de incidentes. PagerDuty, Opsgenie, Slack, Microsoft Teams, ServiceNow, Jira. Las integraciones nativas superan a los webhooks siempre.
Para una lista de verificación más profunda con rúbricas de puntuación, ve cómo elegir la mejor herramienta de monitoreo de sitios web y competidores y alternativas a Datadog para contexto sobre dónde encaja cada jugador.
Modos Comunes de Falla
Los patrones a continuación aparecen en casi todas las revisiones de monitoreo. Ninguno requiere herramientas nuevas para arreglarse.
- Un umbral global para un sitio multi-región. La región rápida sube, la lenta se degrada, el promedio global parece bien y la alerta nunca se dispara.
- Cheques con estado 200 sin aserción de contenido. Un 200 vacío de una página de error CDN pasa el chequeo y muere en producción.
- Transacciones sintéticas que dependen de una cuenta real de cliente. La contraseña expira, se activa MFA, la cuenta se bloquea. Usa una cuenta de servicio con alcance explícito de monitoreo.
- Alertas de certificado solo con 7 días de anticipación. Siete días es el límite, no la advertencia. Para entonces, alguien ya está apagando fuegos. Alerta a 60, 30, 14 y 3 días. La configuración de monitoreo de certificados SSL debería estar preparada.
- No hay correlación con despliegues. Si tus alertas no indican “esto se disparó 3 minutos después del despliegue abc123,” cada incidente empieza con una revisión manual de git log. Conecta tu CI a las anotaciones del monitoreo.
- Umbrales de alerta que nunca se ajustan. Si configuraste “> 5 segundos” hace dos años y el sitio ahora es el doble de rápido, ese umbral está funcionalmente desactivado.
- Monitorear la página principal pero no la ruta del dinero. La disponibilidad de la página principal es una métrica de vanidad. Disponibilidad de checkout, registro e inicio de sesión son el negocio.
Para especificidades a nivel de aplicación —particularmente sobre APIs, recorridos scriptados y topologías de microservicios— combina esto con las mejores prácticas de monitoreo de aplicaciones web. Y para el lado SEO de por qué importan los presupuestos de latencia, ve cómo la velocidad del sitio afecta el SEO.
Pon el Manual en Práctica
Elige tres prácticas de esta lista que tu configuración actual no maneje. Implémentalas en este sprint. Ejecuta la simulación de caos en los nuevos monitores antes de darlo por terminado. Luego audita precisión en 30 días.
Si la plataforma es el cuello de botella, Dotcom-Monitor cubre todo el stack en un solo lugar: monitoreo sintético con navegador real, chequeos multi-protocolo, una red global de puntos de control con agentes privados y funciones de ingeniería de alertas diseñadas para los patrones anteriores. Ve monitoreo de aplicaciones web, monitoreo de API, monitoreo DNS y monitoreo de certificados SSL, o salta directamente a la visión general de monitoreo empresarial para entornos grandes.
Prueba la Plataforma en la que Fue Escrito Este Manual
Monitoreo con navegador real desde más de 30 países, chequeos multi-protocolo, transacciones scriptables e ingeniería de alertas que respeta tu sueño.
Comienza tu prueba gratuita de Dotcom-Monitor → Sin tarjeta de crédito. O ver precios.