Guía completa del SIEM de nueva generación
Guía completa del SIEM de nueva generación
Definición de MTTR
El tiempo medio de reparación (MTTR) es un indicador de rendimiento clave (KPI) que representa el tiempo medio necesario para restablecer las funcionalidades de un sistema después de un incidente. MTTR se usa junto con otras métricas de incidentes para evaluar el rendimiento de DevOps e ITOps, calcular la eficacia de los procesos de seguridad, evaluar la eficiencia de las soluciones de seguridad y medir la capacidad de mantenimiento de los sistemas.
Los acuerdos de nivel de servicio con proveedores externos suelen incluir determinadas expectativas en torno al MTTR, aunque los tiempos de reparación no están garantizados porque algunos incidentes son más complejos que otros. En la misma línea, comparar el MTTR de varias organizaciones no es fructífero porque este indicador depende en gran medida de factores únicos relacionados con el tamaño y el tipo de infraestructura, así como del tamaño y las capacidades de los equipos de ITOps y DevOps. Cada empresa debe determinar las métricas que mejor se adapten a sus propósitos y a la forma en la que se implementarán en su entorno único.
Diferencias entre las métricas de error comunes
Los sistemas empresariales modernos son complejos y pueden fallar de diferentes maneras. Por eso, aunque no existe un único conjunto de métricas apto para todas las empresas, sí hay varios entre los que elegir y las diferencias pueden ser sutiles.
Tiempo medio de detección (MTTD)
También conocido como tiempo medio de descubrimiento, MTTD es el tiempo medio que pasa entre el momento en que se produce un fallo en el sistema y su detección. Como KPI, el MTTD sirve para medir la eficacia de las herramientas y los procesos que utilizan los equipos de DevOps.
Para calcular el MTTD, selecciona un plazo concreto (por ejemplo, un mes) y haz un seguimiento del tiempo que transcurre entre el comienzo de una interrupción en el sistema y su descubrimiento. Después, suma el total y divídelo por el número de incidentes para encontrar la media. El MTTD debería ser bajo. Si el tiempo que se tarda en detectar o descubrir un fallo en el sistema sigue aumentando (muestra una tendencia ascendente), debería realizarse de inmediato una revisión de los procesos y de las herramientas de gestión de la respuesta a incidentes.
Tiempo medio de identificación (MTTI)
Esta medida registra el número de horas hábiles que transcurren entre el momento en que se activa una alerta y el momento en que el equipo de ciberseguridad empieza a investigarla. El MTTI es útil para saber si el sistema de alertas es eficaz y si los equipos de ciberseguridad cuentan con la capacidad necesaria. Un MTTI elevado o que aumenta en la dirección equivocada podría indicar que el equipo de ciberseguridad sufre fatiga de alertas.
Tiempo medio de recuperación (MTTR)
Esta métrica indica el tiempo medio en horas hábiles que transcurre entre el inicio de un incidente y el regreso al funcionamiento normal. Esta métrica de incidentes se utiliza para conocer la eficacia de los equipos de ITOps y DevOps, e identifica oportunidades para mejorar sus procesos y capacidades.
Tiempo medio de resolución (MTTR)
Esta métrica indica el tiempo medio que transcurre entre la primera alerta y el análisis posterior del incidente, e incluye el tiempo que se dedica a garantizar que no vuelva a producirse el error. Se mide en horas hábiles.
Tiempo medio entre errores (MTBF)
El tiempo medio entre errores es una métrica de rendimiento clave que mide la fiabilidad y la disponibilidad de un sistema. Los equipos de ITOps utilizan el MTBF para saber qué sistemas o componentes funcionan bien y cuáles deben evaluarse para su reparación o sustitución. Conocer el MTBF permite realizar un mantenimiento preventivo, minimiza el mantenimiento reactivo, reduce el tiempo de inactividad total y permite a los equipos priorizar sus cargas de trabajo con eficacia. Los datos históricos de MTBF sirven para tomar mejores decisiones sobre la programación del tiempo de inactividad por mantenimiento y la asignación de recursos.
Para calcular esta métrica, se hace un seguimiento del número de horas que transcurren entre errores del sistema en el curso normal de las operaciones durante un periodo de tiempo determinado y, después, se calcula la media.
Tiempo medio hasta el fallo (MTTF)
El tiempo medio hasta el fallo (MTTF) es una forma de comparar el tiempo de inactividad con el tiempo de actividad. A diferencia del MTBF, una métrica de incidentes que se centra en la capacidad de reparación, el MTTF se centra en errores irreparables. Puede utilizarse para predecir la vida útil de los sistemas, pero no es adecuado para todos. Por ejemplo, en sistemas con una vida útil prolongada, como los sistemas bancarios centrales o muchos sistemas de control industrial, no merece la pena calcular el MTTF, puesto que su vida útil es tan larga que, cuando se reemplacen, se utilizará un tipo de sistema completamente distinto debido a los avances tecnológicos. En estos casos, el MTTF es irrelevante.
Por el contrario, hacer un seguimiento del MTTF en sistemas con una vida útil más típica ayuda a obtener información sobre qué marcas ofrecen el mejor rendimiento o qué factores del entorno influyen más en la durabilidad de un producto.
Ventajas del MTTR para DevOps e ITOps
El objetivo del MTTR es reducir el tiempo de inactividad no programado y acortar el tiempo de propagación. Además, su uso favorece una mejor cultura en los equipos de ITOps.
Cuando se soluciona un incidente antes de que se vean afectados los usuarios, se considera que los equipos de DevOps e ITOps son eficientes y efectivos. Se fomenta el diseño de sistemas resilientes porque, cuando DevOps sabe que se usará MTTR para medir su rendimiento, el equipo creará aplicaciones que se puedan reparar más rápido, como aquellas que utilizan servicios web discretos para evitar que el fallo de un solo servicio bloquee toda la aplicación. El MTTR, cuando se realiza correctamente, incluye un análisis posterior al incidente que debería usarse como feedback para desarrollar mejores compilaciones de software en el futuro y para fomentar la corrección de errores en las primeras etapas del proceso SDLC.
Cómo calcular el tiempo medio de reparación
La fórmula es muy sencilla: solo tienes que sumar el tiempo total de reparación no planificado para un sistema durante un plazo específico y dividir los resultados por el número total de incidentes relevantes.
Más información
Por ejemplo, si tienes un sistema que ha fallado cuatro veces en una jornada laboral y has dedicado un total de una hora para solucionar todos los errores, el MTTR será de 15 minutos (60 minutos / 4 = 15 minutos).
No obstante, no todas las interrupciones son iguales. El tiempo dedicado a reparar un componente averiado o un sistema orientado al cliente que deja de funcionar en horas pico resulta más caro en cuanto a pérdida de ventas, productividad o daños a la marca que el tiempo dedicado a reparar una interrupción crítica en mitad de la noche. Las organizaciones pueden crear un "presupuesto para errores" donde se especifique que cada minuto dedicado a reparar los sistemas de mayor impacto equivale a una hora dedicada a reparar sistemas de menor impacto. Este nivel de granularidad expondrá los costes reales del tiempo de inactividad y te ayudará a conocer mejor qué significa el MTTR para esa organización concreta.
Cómo reducir el MTTR
Existen tres elementos clave para reducir el MTTR.
- El primero de ellos es una estrategia definida para gestionar el proceso de resolución, que debería incluir un análisis posterior al incidente para recopilar las lecciones aprendidas.
- La tecnología desempeña un papel crucial, por supuesto, y la mejor solución será aquella que proporcione visibilidad, monitorización y mantenimiento correctivo para erradicar los problemas y crear defensas frente a futuros ataques.
- Por último, es importante contar con las capacidades necesarias para mitigar el incidente.
El MTTR se puede reducir de forma significativa con un aumento de la plantilla, aunque esto no siempre es realista. En su lugar, puedes implementar inteligencia artificial (IA) y aprendizaje automático (ML) para automatizar la mayor parte posible del proceso de reparación. Estos pasos incluyen detección rápida, minimización de falsos positivos, escalada inteligente y corrección automática con flujos de trabajo que reducen el MTTR.
El MTTR es una métrica útil para reducir el tiempo de inactividad y optimizar los equipos de DevOps e ITOps, aunque mejorarlo no debería ser la meta final. Después de todo, el objetivo de utilizar métricas no es simplemente mejorar los números sino, en este caso, mantener los sistemas operativos y proteger el negocio y los clientes. Utiliza el MTTR para ayudar a tus equipos a proteger los clientes y a optimizar el tiempo de actividad del sistema.
Mejora el MTTR con una solución de gestión de logs moderna
Mejora tu ciberseguridad con CrowdStrike Falcon®, la principal plataforma nativa de IA para SIEM y gestión de logs. Disfruta de un registro de seguridad a escala de petabytes, con opciones de implementación nativas de la nube o de autoalojamiento. Registra tus datos con una arquitectura potente, sin índices y sin cuellos de botella, que hace posible el Threat Hunting con más de 1 PB de ingesta de datos al día. Disfruta de capacidades de búsqueda en tiempo real para superar al adversario y lograr una latencia inferior a un segundo en consultas complejas. Aprovecha una visibilidad integral que consolida los datos para acabar con los silos y permitir a los equipos de seguridad, TI y DevOps detectar amenazas, monitorizar el rendimiento y garantizar el cumplimiento sin problemas en 3 mil millones de eventos en menos de 1 segundo.