What is Observability?

In simple words, observability is when you infer the internal state of a system only by observing its external outputs.

¿Qué es la observabilidad? Componentes y plataformas clave

Arfan Sharif - febrero 05, 2023

¿Qué es la observabilidad?

Si bien puede parecer un término de moda surgido en el mundo de la tecnología, el concepto de observabilidad en realidad tuvo su origen hace casi un siglo en la teoría de control de la ingeniería. En pocas palabras, la observabilidad se produce cuando se deduce el estado interno de un sistema simplemente observando la información que genera.

Al aplicar este concepto al desarrollo de software y a la infraestructura de TI moderna, un sistema con un alto nivel de observabilidad muestra información suficiente como para que los operadores tengan una imagen general de cuál es su estado. En un sistema con una observabilidad bien aplicada, no será necesario que los equipos de operaciones dediquen mucho tiempo a saber cuál es su estado interno.

La observabilidad no gira en torno a la tecnología. Es una práctica que incluye una serie de procesos y herramientas asociadas para lograr el nivel deseado de información del sistema. En esta publicación, vamos a analizar los conceptos clave implicados en la observabilidad:

Componentes clave de la observabilidad
Importancia de la observabilidad
Diferencia entre monitorización y observabilidad
Qué elementos debe tener una plataforma de observabilidad

Conceptos básicos de la observabilidad: componentes clave

La mayoría de las herramientas de observabilidad gestionan los tres pilares de la observabilidad: logs, métricas y rastreos. Algunas herramientas ofrecen una interfaz donde se puede gestionar otro aspecto de la observabilidad: los eventos.

Métricas

Las métricas son indicadores o mediciones de una característica del sistema durante un período de tiempo. Las métricas son, por naturaleza, numéricas y representan datos agregados. Algunos ejemplos de métricas pueden ser el uso medio de la CPU por minuto y servidor o la cantidad de solicitudes que devuelven errores por máquina virtual Java (JVM) al día. Se pueden obtener métricas de la infraestructura, las aplicaciones, los equilibradores de carga e incluso de las aplicaciones.

Logs

Los logs están pensados para dejar pistas sobre a qué parte del código base ha llegado una solicitud y si la aplicación ha detectado algo inesperado o anormal al procesarla. También se pueden utilizar para registrar los intentos de acceso, como en el caso de los logs de acceso. Los logs los puede generar la aplicación al responder a las solicitudes o el sistema operativo (por ejemplo, el syslog o el Registro de eventos de Windows).

Rastreos

Los rastreos son similares a los logs, pero permiten que los operadores puedan ver los pasos reales del código. Por ejemplo, los rastreos podrían arrojar luz sobre qué método o servicio ha realizado una determinada solicitud antes de finalizar (o de bloquearse). Debido a su naturaleza, se suele tender a hacer un muestreo de los rastreos y no se almacenan rastreos de todas las solicitudes. La capacidad de recopilar información sobre rastreos depende de las funciones de la plataforma o biblioteca de observabilidad elegida.

Gracias a las métricas, un operador puede identificar cuándo el sistema está funcionando de forma más lenta de lo habitual. Tras esto, los operadores pueden usar los rastreos para identificar qué parte del sistema está funcionando de forma más lenta de lo normal y si es necesario solucionar ese problema; para un análisis más detallado, pueden consultar en los logs los errores y las excepciones.

Eventos

Además de los tres pilares, puedes utilizar eventos para aumentar la observabilidad de un sistema. Por ejemplo, puedes decidir que cada vez que un usuario administrador lleve a cabo una tarea con privilegios, el sistema registre un evento en una herramienta de observabilidad. Los eventos se registran con acciones específicas (por ejemplo, la ejecución de una función, la actualización de un registro de la base de datos o una excepción que haya generado el código). Si se analizan a lo largo del tiempo, los eventos pueden servir para determinar patrones. También se pueden utilizar los logs estructurados como eventos de bajo nivel.

La observabilidad es importante para la continuidad de la actividad de tus sistemas más importantes, entre los que se suelen incluir:

Aplicaciones
Contenedores
Infraestructura
Redes
Fuentes de datos
Nodos de computación perimetral

Cuanto más esencial sea un componente para el sistema general, más importante será invertir en su observabilidad.

¿Por qué necesitamos la observabilidad?

La observabilidad no constituye un objetivo en sí mismo, sino más bien una práctica para alcanzar los requisitos de disponibilidad y fiabilidad de la empresa. Su objetivo es reducir el tiempo medio de reparación (MTTR) y aumentar el tiempo medio entre fallos (MTBF). Esto sólo puede suceder si los operadores son capaces de solucionar rápidamente los problemas de producción, identificar los problemas antes de que se conviertan en incidentes y aplicar medidas proactivas.

Los equipos de operaciones utilizan la observabilidad para tener una visión global de los sistemas que gestionan, mientras que los de SecOps pueden usar herramientas de observabilidad para detectar cualquier brecha o actividad maliciosa.

Desde una perspectiva de ingeniería, la observabilidad permite a los desarrolladores detectar errores en una etapa inicial del ciclo de desarrollo, lo que genera una mayor confianza en los lanzamientos de software. De esta manera, se fomenta el impulso hacia la innovación, al tiempo que se mantiene la calidad del software y una mayor velocidad de lanzamiento. Los equipos de soporte también cuentan con más recursos, particularmente cuando utilizan la Monitorización de usuarios reales (RUM), lo que permite una mejor colaboración entre equipos y un mejor soporte para los clientes.

Los clientes no sólo reciben mejores productos, sino que también cuentan con un servicio más fiable. Esto se debe a que los ingenieros y los equipos de soporte pueden identificar los problemas y aplicar soluciones de forma proactiva. Un alto nivel de observabilidad también puede sacar a la luz las "incógnitas desconocidas": problemas cuya existencia se desconocía hasta ese momento.

Monitorización y observabilidad

Un aspecto que suele plantear confusión es la diferencia entre observabilidad y monitorización.

La monitorización es la acción de comprobar de forma continua las métricas y los logs de un sistema para determinar si este no funciona correctamente o es necesario realizar una intervención manual. La monitorización también implica medir los distintos componentes de forma aislada (como el servidor, la red o la base de datos).

La observabilidad, por otro lado, tiene un alcance más amplio. Esto se debe a que tiene que correlacionar todos los datos recopilados, incluidos los datos de la monitorización, para mostrar exactamente dónde algo no está funcionando. En otras palabras, la monitorización te indica que algo no va bien, mientras que la observabilidad te indica dónde está el problema. Si bien son diferentes, la monitorización y la observabilidad van de la mano y ambas están relacionadas con la información que genera un sistema.

Elección de una plataforma de observabilidad

Una plataforma con una buena observabilidad es un recurso empresarial que puede ayudar a la empresa a alcanzar sus objetivos relacionados con la seguridad, fiabilidad y disponibilidad. Por lo tanto, la elección de la plataforma de observabilidad es importante.

Los sistemas de TI modernos son complejos. La mayoría tienen un carácter distribuido, posiblemente en nubes múltiples o híbridas, además de tener requisitos de alta disponibilidad. También suelen ser blanco de ataques maliciosos.

Un sistema distribuido tan complejo como este puede generar una gran cantidad de datos observables. Una plataforma con buen nivel de observabilidad debería ser capaz de recuperar datos de todas estas fuentes, almacenarlos y analizarlos en el momento oportuno y generar conclusiones significativas a partir de esos datos. Además, debería ser capaz de diferenciar la señal (es decir, los eventos de interés) del ruido. Una plataforma con buen nivel de observabilidad debe correlacionar y enriquecer los datos para encontrar anomalías y tendencias para los operadores.

Puedes utilizar la siguiente lista para evaluar la idoneidad de una plataforma de observabilidad. En resumen, la plataforma elegida debería ser capaz de:

Integrar todos tus sistemas en cada una de tus pilas de aplicaciones, ya sea de forma nativa o mediante plugins fiables.
Llevar a cabo instalaciones de forma automatizada y reproducible.
Capturar datos en tiempo real de todos los componentes atacados y almacenarlos en el repositorio, indexarlos y correlacionarlos de una manera significativa y útil.
Mostrar una imagen general de tu sistema complejo en tiempo real.
Permitir la trazabilidad para mostrar exactamente dónde está fallando algo y cómo está fallando. Debería poder hacer esto separando la información importante del ruido.
Proporcionar tendencias históricas e informes de anomalías.
Mostrar todos los datos contextuales relevantes de cualquier alerta o informe.
Ayudar a los usuarios con una interfaz fácil de usar y, al mismo tiempo, permitir la creación de informes agregados y personalizados para diferentes equipos.

Descubre la plataforma con IA nativa líder del mundo para SIEM de nueva generación y gestión de logs

Mejora tu ciberseguridad con la plataforma CrowdStrike Falcon^®, la principal plataforma nativa de IA para SIEM y gestión de logs. Disfruta de registro de seguridad con petabytes, optando entre opciones de implementación nativas de la nube o de autoalojamiento. Registra tus datos con una arquitectura potente y sin índices, sin cuellos de botella, lo que permite el Threat Hunting con más de 1 PB de ingesta de datos al día. Permite funciones de búsqueda en tiempo real para dejar atrás al adversario y lograr una latencia inferior a un segundo en consultas complejas. Benefíciate de una visibilidad total, consolidando datos para acabar con los silos y permitiendo que los equipos de seguridad, TI y DevOps detecten amenazas, monitoricen el rendimiento y garanticen el cumplimiento sin problemas en 3 mil millones de eventos en menos de 1 segundo.

Arfan Sharif ocupa el cargo de Product Marketing Lead para la cartera de observabilidad en CrowdStrike. Ha dedicado más de 15 años al fomento de soluciones de gestión de logs, ITOps, observabilidad, seguridad y experiencia del cliente en empresas como Splunk, Genesys y Quest Software. Arfan se graduó en informática en la Universidad de Bucks and Chilterns y ha dedicado su carrera profesional al marketing de productos y la ingeniería de ventas.

¿Qué es la observabilidad? Componentes y plataformas clave

¿Qué es la observabilidad?

Conceptos básicos de la observabilidad: componentes clave

Métricas

Logs

Rastreos

Eventos

¿Por qué necesitamos la observabilidad?

Monitorización y observabilidad

Elección de una plataforma de observabilidad

Descubre la plataforma con IA nativa líder del mundo para SIEM de nueva generación y gestión de logs

Artículos destacados

Comparación entre observabilidad y monitorización

Administración de registros

Comparación de SIEM y la gestión de logs

Prueba gratis CrowdStrike durante 15 días

Empezar

Empresa

Partners

Clientes actuales

Soporte