Skip to content
SP StackPractices
beginner Por StackPractices

Plantilla de Politica de Monitoreo y Alertas

Una plantilla de politica que define como se configuran, enrutan, escalan y revisan las alertas en servicios e infraestructura.

Nota para desarrolladores hispanohablantes: Esta guía incluye ejemplos y convenciones de nomenclatura adaptadas a equipos que trabajan en español. Cuando existen diferencias significativas en terminología técnica entre el inglés y el español, se indican explícitamente para facilitar la comunicación en equipos multiculturales.

Descripcion General

Una Politica de Monitoreo y Alertas define como una organizacion detecta problemas, notifica a las personas correctas y escala cuando los incidentes no se resuelven rapidamente. Sin una politica clara, los equipos sufren fatiga de alertas, incidentes perdidos o tiempos de respuesta inconsistentes. Esta plantilla proporciona un marco estructurado para umbrales, niveles de severidad, reglas de enrutamiento, caminos de escalacion y revision regular.

Cuando Usar

  • Configurar una nueva plataforma de observabilidad o stack de monitoreo.
  • Incorporar un nuevo servicio o equipo al sistema de alertas.
  • Revisar la calidad de alertas despues de un periodo de ruido o incidentes perdidos.
  • Definir responsabilidades de guardia y caminos de escalacion.
  • Prepararse para una auditoria de madurez operacional o respuesta a incidentes.

Prerequisitos

  • Una plataforma de monitoreo y observabilidad como Prometheus, Datadog, Grafana, New Relic o PagerDuty.
  • Una lista de servicios criticos y componentes de infraestructura.
  • Rotaciones de guardia y contactos de escalacion definidos.
  • Un canal de comunicacion para alertas, como Slack, Microsoft Teams o correo.
  • Un proceso de respuesta a incidentes que las alertas activaran.

Solucion

Plantilla de Politica

1. Niveles de Severidad de Alertas

SeveridadTiempo de RespuestaEjemploCanal de Notificacion
P1 - CriticaInmediato (5 min)Servicio caido, perdida de datos, impacto en ingresosPagina al guardia + notificacion ejecutiva
P2 - Alta15 minutosRendimiento degradado, backups fallidosPagina al guardia + alerta Slack
P3 - Media1 horaTasa de errores alta, presion de recursosSlack o correo al equipo dueno
P4 - BajaProximo dia laboralAdvertencia de capacidad, desviacion no urgenteCorreo o aviso en dashboard
P5 - InformativaNingunoMetricas de uso, datos de tendenciaSolo dashboard

2. Categorias de Alertas

CategoriaPropositoEjemplos
DisponibilidadDetectar servicio inalcanzableHTTP 5xx, timeout de conexion, falla de health check
RendimientoDetectar latencia y throughputLatencia p99 > 500ms, profundidad de cola alta
CapacidadDetectar agotamiento de recursosCPU > 85%, disco > 80%, presion de memoria
Tasa de errorDetectar tasas de falla inusualesTasa de error > 1% durante 5 minutos
SeguridadDetectar actividad sospechosaInicios de sesion fallidos, limites de tasa, trafico bloqueado
NegocioDetectar impacto en ingresos o flujosPagos fallidos, caida de ordenes, registro fallido
Salud de datosDetectar problemas de calidad o pipelinesDatos obsoletos, particiones faltantes, lag de sincronizacion

3. Matriz de Enrutamiento de Alertas

EquipoHorario PrincipalHorario de GuardiaCanalesCamino de Escalacion
Equipo de plataforma08:00 - 18:00 UTC24/7PagerDuty, #platform-alertsGerente, luego VP de Ingenieria
Equipo de aplicacion08:00 - 18:00 UTC24/7PagerDuty, #app-alertsLider de equipo, luego Gerente de ingenieria
Equipo de seguridad24/724/7PagerDuty, #security-alertsLider de seguridad, luego CISO
Equipo de bases de datos08:00 - 18:00 UTC24/7PagerDuty, #db-alertsLider DBA, luego Gerente de plataforma
Operaciones de negocioHorario laboralNingunoCorreo, SlackGerente de operaciones

4. Lineamientos de Umbrales de Alerta

SenalUmbral de AdvertenciaUmbral CriticoVentana de Evaluacion
Tasa de error HTTP> 1% durante 5 min> 5% durante 2 min5 minutos movil
Latencia p99> 500ms durante 10 min> 1s durante 5 min10 minutos movil
Utilizacion CPU> 70% durante 10 min> 90% durante 5 min5 minutos movil
Utilizacion disco> 75% durante 1 hora> 90% durante 15 min15 minutos movil
Utilizacion memoria> 80% durante 10 min> 95% durante 5 min5 minutos movil
Profundidad de cola> 1000 durante 10 min> 5000 durante 5 min5 minutos movil
Backup fallidoN/ACualquier backup fallidoPor ejecucion del job
Vencimiento certificado SSL< 30 dias< 7 diasVerificacion diaria

5. Reglas de Escalacion

SeveridadAlerta InicialSin ReconocimientoAun Sin ResolverEscalacion Final
P1Pagina al guardia inmediatamente5 min15 minNotificacion ejecutiva + sala de guerra
P2Pagina al guardia15 min30 minPagina al gerente
P3Slack al equipo dueno1 hora4 horasNotificacion al gerente
P4Correo o dashboardProximo dia laboralN/ARevision semanal

6. Revision y Mantenimiento de Alertas

ActividadFrecuenciaDuenoSalida
Revision de calidad de alertasSemanalIngeniero de guardiaAlertas mas ruidosas, acciones de ajuste
Revision de runbooks de alertasMensualEquipo SRERunbooks actualizados para cada alerta
Calibracion de umbralesTrimestralEquipo de observabilidadAjustes de umbrales con evidencia
Retro de guardiaDespues de incidente mayorComandante de incidenteMejoras de alertas, tareas de seguimiento
Revision de politicaAnualLiderazgo de ingenieriaDocumento de politica actualizado

Explicacion

Esta politica convierte senales de monitoreo en alertas accionables. Al asignar severidad, enrutamiento y reglas de escalacion, la organizacion asegura que los problemas criticos reciban atencion rapida mientras que las advertencias de baja prioridad no interrumpen a los ingenieros de guardia. La seccion de revision y mantenimiento previene la fatiga de alertas mediante el ajuste continuo de umbrales y la eliminacion de alertas ruidosas.

Variantes

  • Politica de alertas cloud-native: Usa Prometheus Alertmanager, Grafana Oncall o PagerDuty para ambientes de contenedores y serverless.
  • Politica de monitoreo empresarial: Se enfoca en infraestructura, red e integracion con service desk.
  • Politica de alertas de seguridad: Enfatiza reglas de SIEM, deteccion de amenazas y disparadores de respuesta a incidentes.
  • Alertas de operaciones de negocio: Rastrea KPIs, ingresos y metricas orientadas al cliente con notificaciones en horario laboral.
  • Alertas self-service para desarrolladores: Permite a los equipos definir sus propias reglas de alerta dentro de guardrails.

Mejores Practicas

  • Alerta sobre sintomas que afectan a los usuarios, no solo metricas internas.
  • Usa umbrales de multi-ventana o multi-tasa de quemado para reducir falsos positivos.
  • Requiere que cada alerta tenga un runbook o enlace de troubleshooting asociado.
  • Enruta alertas al equipo que puede resolver el problema, no a una cola central.
  • Manten los mensajes de alerta concisos e incluye contexto como severidad, servicio e impacto.
  • Revisa las alertas ruidosas semanalmente y ajustalas o eliminalas.
  • Prueba los caminos de escalacion durante simulacros regulares.
  • Documenta los umbrales y la justificacion de los cambios.

Errores Comunes

  • Alertar sobre cada umbral metrico sin considerar el impacto al usuario.
  • Enviar todas las alertas a un unico canal sin enrutamiento.
  • Usar la misma severidad para todas las alertas.
  • No requerir reconocimiento ni rastrear tiempo de resolucion.
  • Ignorar alertas que suenan repetidamente sin accion.
  • Faltar caminos de escalacion para incidentes severos.
  • No revisar y retirar alertas obsoletas despues de cambios en el sistema.

FAQs

Que es la fatiga de alertas y como la evitamos?

La fatiga de alertas ocurre cuando los ingenieros de guardia reciben demasiadas alertas de bajo valor. Se evita ajustando umbrales, agrupando alertas relacionadas, suprimiendo problemas conocidos y eliminando regularmente alertas que no generan accion.

Debe cada alerta pagar a alguien?

No. Solo las alertas P1 y P2 deben pagar al ingeniero de guardia. Las alertas de menor severidad deben usar Slack, correo o notificaciones de dashboard para no interrumpir el tiempo de respuesta de problemas criticos.

Como sabemos si nuestros umbrales son correctos?

Rastrea la proporcion de alertas accionables respecto al total, mide el tiempo medio de reconocimiento y resolucion, y revisa las tasas de falsos positivos. Si una alerta suena frecuentemente sin generar accion, es candidata a ajuste o eliminacion.