Agentic SOC Summit: o novo padrão para defesa autônomaInscreva-se

Um dos fatores mais poderosos para impulsionar os negócios atuais é a transformação digital, que mudou nossos modelos de negócios analógicos legados para formatos digitais. Pense nos discos de vinil e no preenchimento de formulários de papel à mão — esses conceitos antiquados foram digitalizados. E nos negócios digitais modernos de hoje, as organizações agora têm aplicações compostas por uma gama de serviços distribuídos, microsserviços e containers em execução em uma infraestrutura de nuvem.

Entender como esses sistemas e a infraestrutura de nuvem das organizações funcionam é essencial para o sucesso de uma empresa. É aí que entra a observabilidade. Observabilidade em TI e computação em nuvem refere-se a um conjunto de processos e ferramentas associadas que possibilitam coletar, agregar e correlacionar dados em tempo real para que você possa analisar o que está acontecendo em seu ambiente e alcançar melhores resultados de serviço em geral.

Com a observabilidade, uma empresa pode garantir desempenho, otimização e eficiência de custos em escala. Em ambientes de nuvem, as equipes de DevOps usam a observabilidade para depurar suas aplicações e diagnosticar a causa raiz de problemas no sistema.

Quais são os três pilares da observabilidade?

Os três pilares da observabilidade são logs, métricas e rastreios. Essas três saídas de dados fornecem insights diferentes sobre a integridade e as funções de sistemas na nuvem e em ambientes de microsserviços.

  1. Logs são os registros arquivados ou históricos de eventos e erros do sistema, que podem ser texto simples, binário ou estruturados com metadados.
  2. Métricas são medições numéricas do desempenho e comportamento do sistema, como uso da CPU, tempo de resposta ou taxa de erros.
  3. Rastreios são representações de solicitações ou transações individuais que fluem por um sistema, ajudando na identificação de gargalos, dependências e da causa raiz de problemas.

Quando combinados e analisados em conjunto, logs, métricas e rastreios podem oferecer uma visão abrangente dos sistemas para diagnosticar problemas que interferem nos objetivos de negócios.

1. Logs

Toda atividade que ocorre nas suas aplicações e sistemas gera um log de evento com detalhes como carimbo de data/hora, tipo de evento e computador ou ID do usuário. Sejam em texto simples ou binário, estruturados ou não estruturados, os dados do log contêm texto e metadados que fornecem um nível de granularidade valioso para depuração e obtenção de insights sobre eventos e erros do sistema. Gerar logs é fácil. A maioria das linguagens oferece suporte a logs de eventos prontos para uso, então você só precisa fazer algumas alterações para adicioná-los ao seu sistema de observabilidade.

Ao mesmo tempo, criar logs pode gerar despesas operacionais desnecessárias e levar a preocupações relacionadas ao desempenho. Embora os logs permitam aprofundar-se nos detalhes, os problemas raramente são causados por um único evento ou componente. É por isso que combinar logs de eventos com outros pilares da observabilidade é inestimável para ajudar você a ver a situação como um todo e obter insights contextuais.

2. Métricas

As métricas são valores quantitativos que auxiliam na análise do desempenho ao longo do tempo, oferecendo insights extremamente necessários sobre seus sistemas e desempenho. Muitas vezes, as métricas de observabilidade são usadas para:

  • Indicadores-chave de desempenho (KPIs)
  • Insights sobre a capacidade da CPU
  • Monitoramento da memória
  • Integridade e comportamento do sistema

As métricas podem ser amostradas, resumidas, correlacionadas e agregadas de várias maneiras, revelando informações sobre o desempenho e a integridade do sistema. Por exemplo, as organizações podem monitorar métricas em tempo real e dados históricos para identificar padrões e tendências em intervalos de tempo. Isso capacita as empresas a estabelecer uma linha de base de um desempenho "normal" e definir metas futuras nesse aspecto.

As métricas economizam tempo porque podem ser correlacionadas prontamente entre componentes da infraestrutura para fornecer uma visão abrangente do desempenho e da integridade do sistema. Elas também facilitam a pesquisa e a extensão da retenção de dados.

3. Rastreios

Embora os logs e as métricas ajudem você a entender o comportamento e o desempenho de sistemas individuais, eles raramente fornecem informações úteis para a compreensão do tempo de vida de uma solicitação em um sistema distribuído. É aí que entram os rastreios. Os rastreios oferecem visibilidade sobre a jornada complexa de uma solicitação à medida que ela passa pelos seus sistemas. Eles são especialmente úteis para permitir que você trace um perfil e observe sistemas como aplicações em containers, arquiteturas sem servidor e arquiteturas de microsserviços.

Por exemplo, os rastreios mostram por qual método ou serviço uma determinada solicitação passou antes de ser concluída (ou falhar). Os rastreios têm um papel fundamental em ajudar você a compreender e melhorar a integridade do seu sistema. Ao analisar os dados de rastreio, você obtém insights valiosos sobre o desempenho em geral, tempos de resposta, taxas de erro e taxa de transferência, além de identificar áreas que possam estar causando gargalos ou outros problemas. Essas informações permitem que você aja proativamente para lidar com possíveis problemas antes que eles impactem seus usuários ou a experiência do cliente.

Uma das principais considerações no uso de rastreios é o volume elevado de dados que pode ser gerado pelos sistemas de rastreamento. Com aplicações em grande escala, o número de rastreios pode rapidamente ficar enorme, dificultando a análise e a extração de insights significativos. Por isso, os rastreios tendem a ser amostrados e não são armazenados para todas as solicitações.

Saiba mais

Leia este artigo para saber como uma solução de registro em log como serviço ajuda alcançar as metas e os pontos que você precisa considerar na hora de obter essa solução.

Registro em log como serviço (LaaS)

Ferramentas e tecnologias

Ao buscar uma ferramenta de observabilidade, é importante entender as muitas opções disponíveis para poder escolher a que melhor atenda às necessidades da sua organização. Estes são alguns dos tipos mais comuns de ferramentas de observabilidade:

Soluções "pontuais" individuais

Ferramentas de gerenciamento de log

As ferramentas de gerenciamento de log são úteis para coletar e armazenar dados. Algumas soluções permitem aos usuários inspecionar os logs em tempo real e criar alertas para anomalias. Essas ferramentas ajudam as organizações que precisam de uma maneira eficaz de cumprir com requisitos de conformidade, já que fornecem uma forma rápida e eficiente de coleta e armazenamento de informações.

Ferramentas de monitoramento de desempenho de aplicações (APM)

As ferramentas de APM (Application performance monitoring, ou monitoramento de desempenho de aplicações) monitoram aplicações de software e rastreiam as velocidades de transação dos usuários finais, os sistemas e a infraestrutura de rede para identificar problemas de desempenho ou gargalos que podem ter um impacto negativo na experiência dos usuários. Essas tecnologias mensuram o desempenho da aplicação em produção, possibilitando que os usuários descubram problemas e determinem a causa raiz. As ferramentas de APM são úteis para organizações que possuem requisitos de observabilidade com foco estrito na obtenção de métricas de desempenho de aplicações críticas para os negócios.

Solução abrangente

Plataformas de observabilidade

Diferentemente de ferramentas individuais, as plataformas de observabilidade oferecem às organizações insights e feedback contínuo de seus sistemas. Uma única plataforma de observabilidade que inclui todas as três capacidades (monitoramento, registro em log e rastreamento) pode fornecer uma imagem abrangente do estado dos sistemas e serviços em toda a infraestrutura de uma organização. Uma plataforma desse tipo pode analisar os dados de telemetria centralizados de uma empresa, levando a um aumento do valor dos dados e proporcionando um contexto significativo às equipes para tomarem decisões críticas aos negócios em casos de uso.

Práticas recomendadas para implementação da observabilidade

Ao entender a observabilidade e o valor que ela agrega, você pode usar a lista abaixo para implementar a solução perfeita para a sua organização. Em resumo, sua plataforma de observabilidade deve ser capaz de:

  • Integrar-se a todos os seus sistemas em cada uma das suas pilhas de aplicações, seja de forma nativa ou por meio de plug-ins confiáveis
  • Ser instalada de forma automatizada e reproduzível
  • Capturar dados em tempo real de todos os componentes-alvo e armazená-los, indexá-los e correlacioná-los de uma maneira significativa e econômica
  • Fornecer uma visão geral do seu sistema complexo em tempo real
  • Oferecer suporte à rastreabilidade para mostrar exatamente onde algo está errado e fazer isso separando as informações importantes do ruído
  • Fornecer tendências históricas e relatórios de anomalias
  • Mostrar todos os dados relevantes e contextuais em alertas e relatórios
  • Fornecer uma interface fácil de usar e oferecer suporte à criação de relatórios personalizados e agregados para diferentes equipes

Expert Tip

Leia este artigo para saber sobre as práticas recomendadas de registro em log que podem estabelecer as bases para uma infraestrutura de registro em log robusta e escalável.

Dicas de registro em log

Descubra a plataforma nativa de IA de liderança mundial para SIEM e gerenciamento de log de última geração

Eleve sua cibersegurança com o CrowdStrike Falcon®, a principal plataforma nativa de IA para SIEM e gerenciamento de log. Experimente registro de log de segurança em uma escala de petabytes, optando por nativo em nuvem ou implementação auto-hospedada. Registre seus dados com uma arquitetura avançada e livre de índices, sem gargalos e que permite investigação de ameaças com mais de 1 PB de ingestão de dados por dia. Assegure capacidades de pesquisa em tempo real para superar os adversários, atingindo latência de menos de um segundo para consultas complexas. Beneficie-se de uma visibilidade de 360 graus, consolidando os dados para eliminar silos e possibilitar que as equipes de segurança, TI e DevOps investiguem ameaças, monitorem o desempenho e garantam a conformidade perfeitamente em 3 bilhões de eventos e em menos de um segundo.

Arfan Sharif é líder de marketing de produtos para o portfólio de observabilidade na CrowdStrike. Ele tem mais de 15 anos de experiência em gerenciamento de log, ITOps, observabilidade, segurança e soluções de CX para empresas como Splunk, Genesys e Quest Software. Arfan formou-se em Ciência da Computação na Universidade Bucks and Chilterns e sua carreira abrange as áreas de Marketing de Produtos e Engenharia de Vendas.