What is an error log?

An error log is a file that contains detailed records of error conditions a computer software encounters when it’s running. The name is generic: sometimes, an application can log non-error type messages in its error log. However, error logs are generally meant to record only error messages generated by a program. These programs can be server or network operating systems or third-party applications.

What are error log benefits?

Improved resolution times Easier decision-making Better performance Improved security

¿Qué es un log de errores?

Arfan Sharif - diciembre 20, 2022

Definición de log de errores

Un log de errores es un archivo que contiene registros detallados de las condiciones de error que encuentra un software informático cuando se ejecuta. El nombre es genérico: a veces, una aplicación puede registrar mensajes que no sean de error en su log de errores. Sin embargo, los logs de errores generalmente están destinados a registrar únicamente los mensajes de error que genera un programa. Estos programas pueden ser sistemas operativos de servidor o de red o aplicaciones de terceros. En este artículo nos centraremos únicamente en los logs de errores de la aplicación.

Cuando una aplicación experimenta una interrupción o un problema de rendimiento, la forma más rápida de encontrar la causa raíz es buscar su log de errores y verificar los mensajes de error. Un log de errores de alta calidad proporciona suficiente información para comenzar a solucionar los problemas. Te informa sobre lo que ha sucedido, cuándo ha sucedido, qué gravedad tiene e incluso puede que el nombre del módulo infractor o un identificador de rastreo para correlacionarlo con otros eventos.

El valor de los logs de errores es incalculable para impulsar los sistemas tradicionales de monitorización y gestión de eventos e información de seguridad (SIEM). Estas soluciones de monitorización pueden analizar e identificar errores críticos de los logs, mostrar tendencias históricas de errores similares y enviar alertas para incidentes relacionados con la seguridad.

En este artículo se mostrará qué contiene un log de errores de aplicación típico, cómo puede ayudar a tu equipo de operaciones y cómo sacarle el máximo partido.

¿Qué contienen los logs de errores?

Los logs de errores pueden tener dos tipos de errores de aplicación: mensajes de error no controlados y mensajes de error personalizados. A los mensajes de error no controlados también se les denomina mensajes no capturados. Esto se debe a que el código del desarrollador no controla los mensajes no capturados. A veces, las bibliotecas o los entornos de ejecución de una aplicación generarán un error. Estos tiempos de ejecución no los escribe el desarrollador de la aplicación, sino que los añade el compilador durante la fase de compilación. Algunos ejemplos de estos errores no controlados son la falta de coincidencia de tipos de variables, la división por cero, etc.

Por otro lado, los mensajes de error personalizados se registran mediante controladores de excepciones en el código del programa. Se trata de condiciones de error que el desarrollador ha previsto y para las que ha escrito código. Por ejemplo, una aplicación bancaria puede registrar un error cuando el usuario intente retirar una cantidad superior al saldo actual, y el mensaje probablemente será más legible para las personas.

La utilidad o no de un log de errores depende del nivel de información que registre para cada evento de error. Sin los detalles suficientes, es difícil tomar medidas correctivas. Distintas aplicaciones proporcionarán distintos detalles sobre sus errores, pero las entradas del log de errores con un buen diseño siguen una estructura y comparten algunos campos:

Marca de tiempo

En este campo se muestra la fecha y hora en que se ha producido el error. Lo idóneo sería que también incluyera la zona horaria. Esto es especialmente útil en el caso de sistemas distribuidos. La norma ISO 8601 es un formato que se adopta con frecuencia. Tiene este aspecto:

2022-04-15T14:19:10+00:00

2022-04-15T14:20:10+00:00

…

Nivel de gravedad

La mayoría de las entradas del log incluyen un nivel para identificar su gravedad que indica si es necesario tomar una atención inmediata. Los niveles que se suelen utilizar son TRACE, DEBUG, INFO, WARN, ERROR y FATAL, donde TRACE es el menos importante y FATAL es el más grave. Los sistemas de monitorización pueden enviar alertas automáticamente en función de estos niveles de gravedad y activar acciones automatizadas.

Por ejemplo, un volumen que se queda sin espacio en disco se puede registrar con un nivel WARN. Cuando una solución de monitorización detecta este error, puede enviar un mensaje de alerta al equipo de operaciones y luego crear un ticket de soporte. Por otro lado, un espacio de disco completamente saturado puede registrarse como CRITICAL y la solución de monitorización puede ampliar automáticamente la unidad.

Usuario

En este campo se muestra el nombre de usuario de la red asociado al error; normalmente, es la acción del usuario del sistema que ha causado el error. Los nombres de usuario pueden ser útiles para solucionar problemas o realizar análisis históricos. Por ejemplo, podría analizar los logs de errores para identificar si algunos usuarios están sufriendo más errores que otros. Sin embargo, no todos los eventos del log tienen asociado un usuario.

Descripción

A continuación se muestra una breve explicación del error. A menudo se accede a los logs de errores en situaciones urgentes, por lo que es esencial que la descripción del error sea concisa, pero que proporcione la información necesaria. Por ejemplo, cuando un usuario no puede acceder a una aplicación, una descripción de error simple como "Acceso denegado" no tiene mucha utilidad. Una descripción más útil sería "Acceso denegado: privilegios insuficientes".

Además de los campos habituales, otros atributos que verás a menudo en los logs de errores pueden incluir:

Identificadores de errores: los identificadores de errores se utilizan para identificar de forma única cada tipo de error.
Direcciones IP: algunos mensajes de error muestran las direcciones IP de los dispositivos de origen y destino.
Dispositivo o servidor: puede ser el nombre de red o la dirección IP del dispositivo donde la aplicación haya devuelto un error.

Ventajas del log de errores

Dado que los logs de errores son como las cajas negras de un avión, son la primera escala para la mayoría de los ingenieros de soporte. A continuación se muestran algunas de sus ventajas:

Mejores tiempos de resolución

Los logs de errores ayudan a reducir el tiempo medio de resolución (MTTR) de tu entorno de TI, especialmente cuando se incorpora a un sistema de gestión de logs moderno. Estas soluciones de gestión de logs te permiten filtrar, buscar y encontrar los errores que te interesan, obtener más detalles de valores de campos específicos, correlacionar eventos de distintos registros de errores y predecir posibles problemas futuros. Todo esto puede generar medidas proactivas que reduzcan aún más las posibilidades de que se produzcan tiempos de inactividad.

Toma de decisiones más sencilla

Los paneles, los gráficos de tendencias, los N errores principales por importancia y los distintos informes de las soluciones de gestión de logs pueden ayudarte a identificar qué errores son críticos, cómo funcionan los sistemas afectados y si vale la pena analizarlos de forma inmediata. De manera similar, los patrones en los logs de errores pueden indicar problemas ocultos y permitir que los equipos tomen medidas rápidas y proactivas, evitando quejas de los clientes.

Mejor rendimiento

Los logs de errores pueden resaltar problemas de rendimiento de la aplicación. Puedes identificar cuándo se bloquea la aplicación, cuando esta tiene problemas de memoria o tiene un rendimiento bajo. Analizar los logs a lo largo del tiempo puede sacar a la luz circunstancias comunes de los cuellos de botella en el rendimiento. Por ejemplo, examinar un log de errores que contiene eventos de carritos de compra abandonados puede mostrar que tu aplicación de comercio electrónico está experimentando problemas de rendimiento durante las ventas del Black Friday. Esto, a su vez, puede indicarte que debes reforzar la infraestructura únicamente durante esos períodos.

Mejora de la seguridad

Los logs de errores son esenciales para solucionar los incidentes de seguridad. Analizar registros históricos de errores relacionados con la seguridad puede ayudarte a diferenciar el comportamiento normal del sospechoso. Por ejemplo, si descubres que una aplicación tiene un patrón uniforme de varios intentos fallidos de inicio de sesión en varias cuentas de usuario, es posible que desees saber si esos usuarios aún están activos y pedirles que utilicen contraseñas más seguras o incluso que utilicen la autenticación de dos factores. Con una herramienta de orquestación, automatización y respuesta de seguridad (SOAR), puedes ir incluso más allá y añadir una acción automatizada para deshabilitar las cuentas.

Cómo sacar el máximo partido a los logs de errores

A pesar de las ventajas obvias, los logs de errores a menudo pueden incluir demasiada información. La ingesta, el análisis y la indexación de muchos de estos eventos pueden convertirse en una tarea muy larga para los sistemas de gestión de logs. Por eso es mejor seguir algunos principios generales para sacar el máximo partido a los logs de errores.

Usa filtros

Es importante filtrar los eventos innecesarios del log de errores y quedarte sólo con aquellos que te interesan. Puedes hacerlo configurando la aplicación para que registre sólo determinados tipos de eventos o aquellos con un nivel de gravedad particular o superior. Otra opción es filtrar sólo los eventos relevantes y enviarlos a la aplicación de registro.

Decide qué hacer con los eventos

Utiliza el nivel de gravedad para decidir el tipo de acción que tomar. Por ejemplo, es posible que desees activar alertas y acciones automatizadas para errores CRÍTICOS o FATALES y crear tickets de problemas para cualquier situación con un nivel de ADVERTENCIA. Para definir dichas actividades, necesitas conocer la opinión de los propietarios de tu empresa y de tus aplicaciones, de los responsables técnicos y de los equipos de operaciones.

Avisa sólo a los equipos implicados

Una vez que sepas con qué eventos deseas quedarte y lo que deseas hacer con ellos, asegúrate de que los equipos relevantes reciban alertas sobre estos. Enviar alertas innecesarias a todos puede generarles fatiga de errores, lo que puede dar como resultado que se pasen por alto eventos importantes. Por ejemplo, el equipo de infraestructura debería recibir errores relacionados con el almacenamiento, mientras que el equipo de SecOps debería recibir errores relacionados con la seguridad.

Analiza los errores a lo largo del tiempo

Incluso cuando no estés solucionando un problema, puedes observar las tendencias históricas de errores para buscar anomalías y compararlas con períodos similares del pasado. Estas tendencias pueden ser útiles para establecer valores de referencia y para las evaluaciones comparativas. Por ejemplo, cuando veas que aparecen errores relacionados con el rendimiento después de que el uso de la CPU supere el 80 % o cuando la tasa de conexión del cliente de API supere las 50 por segundo, sabrás que esas son las cifras de referencia. A continuación, puedes usarlos para realizar evaluaciones comparativas al añadir más capacidad de infraestructura.

Consigue que las alertas sean útiles

Las alertas generadas por errores siempre deben tener un plan de acción claro y acordado. Una matriz RACI es una herramienta valiosa para identificar a los actores clave cuando se activen las alertas. Del mismo modo, los manuales son útiles en el caso de las acciones automatizadas. Los equipos de operaciones deben aprovechar las funciones de automatización de sus soluciones de gestión de logs para reducir los tiempos de respuesta y mejorar la calidad del servicio.

Descubre la plataforma con IA nativa líder del mundo para SIEM de nueva generación y gestión de logs

Mejora tu ciberseguridad con la plataforma CrowdStrike Falcon^®, la principal plataforma nativa de IA para SIEM y gestión de logs. Disfruta de registro de seguridad con petabytes, optando entre opciones de implementación nativas de la nube o de autoalojamiento. Registra tus datos con una arquitectura potente y sin índices, sin cuellos de botella, lo que permite el Threat Hunting con más de 1 PB de ingesta de datos al día. Permite funciones de búsqueda en tiempo real para dejar atrás al adversario y lograr una latencia inferior a un segundo en consultas complejas. Benefíciate de una visibilidad total, consolidando datos para acabar con los silos y permitiendo que los equipos de seguridad, TI y DevOps detecten amenazas, monitoricen el rendimiento y garanticen el cumplimiento sin problemas en 3 mil millones de eventos en menos de 1 segundo.

Arfan Sharif ocupa el cargo de Product Marketing Lead para la cartera de observabilidad en CrowdStrike. Ha dedicado más de 15 años al fomento de soluciones de gestión de logs, ITOps, observabilidad, seguridad y experiencia del cliente en empresas como Splunk, Genesys y Quest Software. Arfan se graduó en informática en la Universidad de Bucks and Chilterns y ha dedicado su carrera profesional al marketing de productos y la ingeniería de ventas.

¿Qué es un log de errores?

Definición de log de errores

¿Qué contienen los logs de errores?

Marca de tiempo

Nivel de gravedad

Usuario

Descripción

Ventajas del log de errores

Mejores tiempos de resolución

Toma de decisiones más sencilla

Mejor rendimiento

Mejora de la seguridad

Cómo sacar el máximo partido a los logs de errores

Usa filtros

Decide qué hacer con los eventos

Avisa sólo a los equipos implicados

Analiza los errores a lo largo del tiempo

Consigue que las alertas sean útiles

Descubre la plataforma con IA nativa líder del mundo para SIEM de nueva generación y gestión de logs

Artículos destacados

Agrupación de logs

Administración de registros

Qué son los archivos de log

Prueba gratis CrowdStrike durante 15 días

Empezar

Empresa

Partners

Clientes actuales

Soporte