Agentic SOC Summit: o novo padrão para defesa autônomaInscreva-se

Transforme o SOC com um SIEM de última geração

Descubra o futuro da tecnologia SIEM. Aperfeiçoe o seu Centro de Operações de Segurança (SOC, na sigla em inglês) com estratégias de SIEM e automação de ponta.

Faça o download do guia agora

Transforme o SOC com um SIEM de última geração

Descubra o futuro da tecnologia SIEM. Aperfeiçoe o seu Centro de Operações de Segurança (SOC, na sigla em inglês) com estratégias de SIEM e automação de ponta.

Faça o download do guia agora

O que é monitoramento de infraestrutura?

A maioria das aplicações de software deve ser confiável e resiliente para atender às necessidades de clientes em todo o mundo. Em 2020, a Amazon teve uma média de US$ 10.000 em vendas por segundo. Por isso, meros 30 segundos de inatividade teriam custado à empresa centenas de milhares de dólares.

Para que o software acompanhe a demanda, o monitoramento da infraestrutura é fundamental. O monitoramento permite que as equipes coletem dados operacionais e de desempenho de seus sistemas para diagnosticar, corrigir e aprimorá-los. As equipes podem combinar esses dados em diferentes painéis e gráficos, aumentando a visibilidade de sua infraestrutura.

Geralmente, o monitoramento inclui servidores físicos, máquinas virtuais, bancos de dados, infraestrutura de rede, dispositivos IoT e mais. Sistemas de monitoramento completos também podem alertar quando houver algo errado em sua infraestrutura.

Neste artigo, faremos uma pesquisa abrangente sobre monitoramento de infraestrutura e responderemos às seguintes perguntas:

  • Por que o monitoramento de infraestrutura é importante?
  • Como o monitoramento de infraestrutura funciona?
  • Quais partes da sua infraestrutura você deve monitorar?
  • Quais fatores são importantes em uma plataforma de monitoramento de infraestrutura?

Vamos começar.

Por que o monitoramento de infraestrutura é importante?

O tempo de inatividade ou a indisponibilidade do sistema tem um impacto concreto nos negócios. A perda da confiança do usuário leva à queda do número de usuários, o que resulta em perda de receita. Como a disponibilidade geral do seu sistema é crucial, você precisa de constante visibilidade da infraestrutura dele para compreender seu estado atual de integridade. O monitoramento de infraestrutura oferece o nível de visibilidade de que você precisa.

O monitoramento de infraestrutura permite que as equipes administrativas vejam em tempo real informações sobre o desempenho de seus sistemas. Algumas das métricas disponíveis incluem:

  • IOPs de disco
  • Taxa de transferência de rede
  • Percentual de memória utilizada
  • Percentual de CPU utilizada
  • Número atual de conexões do banco de dados

A coleta de métricas oferece às equipes de negócios uma análise das tendências do sistema para aprimorar o planejamento da capacidade do sistema dele. Com as métricas do sistema, as equipes de infraestrutura conseguem conduzir o dimensionamento automatizado do sistema. Por exemplo, um sistema pode ser redimensionado para fornecer recursos computacionais adicionais assim que o uso da CPU ultrapassa um determinado limite.

No final das contas, os dados gerados pelo monitoramento de infraestrutura ajudam as empresas a se planejar para as demandas dos clientes, cumprir os requisitos do Acordo de nível de serviço (SLA) e atender às expectativas dos clientes.

Embora existem diversos casos de uso concretos para o monitoramento de infraestrutura, vamos nos concentrar especificamente em solução de problemas, economia de custos e benchmarking.

Solução de problemas

Dados de telemetria podem fornecer métricas e logs sobre alto uso ou baixa disponibilidade à medida que ocorrem. Esses dados podem acionar sistemas de balanceamento de carga, que distribuirão a carga para outros servidores disponíveis em um cluster. Quando esse período carga aumentada terminar, você pode analisar os dados para identificar melhor o que causou o aumento.

Economia de custos

Por exemplo, as métricas de banco de dados geram para as equipes de negócios insights sobre os requisitos de assinatura dos sistemas. Você pode monitorar um banco de dados para identificar horários de pico de carga e, assim, encontrar possíveis soluções de economia de custos. Se você descobrisse que um banco de dados só opera sob carga alta durante três meses do ano, o administrador poderia transferir esse banco de dados para opções de hospedagem mais baratas durante os nove meses restantes.

Benchmarking

Ao longo do tempo, o monitoramento de infraestrutura permite identificar as tendências históricas do desempenho da aplicação. O perfil de desempenho pode incluir uma infinidade de informações, como conexões totais do cliente, horários de pico de carga, latência da rede e mais. Métricas mensais ou semanais podem identificar desvios significativos no uso da aplicação e acionar as equipes de negócios para que investiguem mais profundamente possíveis mudanças no comportamento do consumidor.

Como o monitoramento de infraestrutura funciona?

O monitoramento de infraestrutura depende do fluxo de dados de telemetria entre os sistemas de destino. Embora existam diferentes tipos de dados de telemetria, as fontes típicas são logs, métricas, eventos e rastreios do sistema. Juntos, todos esses dados possibilitam a observabilidade do sistema.

Exemplos de dados de telemetria em ação

As informações de logs baseadas em evento permitem que os engenheiros identifiquem a causa-raiz de quedas, como esgotamento do espaço em disco do servidor.

Métricas — como E/S por segundo, taxa de transferência de rede ou espaço disponível em disco — são reportadas em intervalos regulares para atender às metas de monitoramento de diferentes equipes. É fundamental selecionar as métricas certas e adequadas ao seu caso de uso. Por exemplo, bancos de dados com métricas relacionadas a espaço em disco podem alertar os administradores quando estiverem prestes a ficar sem espaço.

Os rastreios oferecem dados relacionados a transações de ponta a ponta que atravessam diferentes partes de um sistema. Por exemplo, um rastreio ajuda a identificar como uma única chamada de API de um cliente resultou em chamadas subsequentes de API ou de serviço, execução de funções e transações de banco de dados.

Todas essas informações em tempo real são ativamente submetidas a parsing, indexadas e armazenadas em uma solução de monitoramento disponibilizada para as equipes de negócios. Os usuários podem consultar e agregar informações em painéis para gerar compreensíveis relatórios de status do sistema.

Coleta de dados de telemetria

Para funcionar, uma solução de monitoramento precisa receber dados sobre um sistema. Geralmente, a coleta de dados ocorre de duas formas.

Uma das abordagens de coleta de dados utiliza a instalação de agentes em cada sistema de destino. Um agente é uma camada de software leve usada para coletar dados de telemetria relevantes sobre o estado do sistema. O uso de agentes constitui uma abordagem forte e segura. No entanto, eles devem ser gerenciados e instalados em cada sistema e podem não ser adequados para alguns ambientes de nuvem. É recomendável automatizar o processo de atualização desses agentes, possivelmente por meio de um pipeline de CI/CD.

A outra abordagem da coleta de dados não usa agentes. Geralmente, essa abordagem requer que um sistema envie dados para uma solução de monitoramento, ou que uma solução de monitoramento extraia/raspe esses dados do sistema. Essa abordagem sem agente é mais adequada para servidores, pois dispensa a manutenção de agentes em cada sistema. No entanto, os detalhes do sistema coletados nessa abordagem de monitoramento tendem a ser menos abrangentes.

O ideal é adotar uma combinação de abordagens: algumas com agentes e outras sem agentes. Entretanto, a configuração exata dependerá do seu caso de uso.

Quais partes da sua infraestrutura você deve monitorar?

A determinação de quais partes da sua infraestrutura devem ser monitoradas depende de fatores como requisitos de SLA, localização e complexidade do sistema. A Google estabeleceu Quatro sinais de ouro que podem ajudar sua equipe a restringir métricas importantes. É possível monitorar facilmente a maioria dos sistemas no local. No entanto, os provedores de nuvem podem restringir quais sistemas hospedados podem ser monitorados. A maioria dos provedores permitem acesso a métricas de sistema, logs e eventos. Qualquer coisa fora isso pode ser inacessível. Dentre as partes da sua infraestrutura que devem ser monitoradas estão:

  • Servidores e seus componentes
  • Camadas de rede e dispositivos
  • Firewalls e gateways de API
  • Balanceadores de carga
  • Sistemas de armazenamento de bloco ou de objeto
  • Instâncias de bancos de dados
  • Containers e orquestradores de container

Métricas de monitoramento comuns do sistema:

  • Pouca memória
  • Pouco espaço em disco
  • Avisos de alto uso de CPU
  • Excesso de solicitações de conexão
  • Baixas transações
  • Alta latência de rede
  • Excesso de solicitações com falha
  • Pacotes de rede descartados ou perdidos
  • Avisos de tempo limite
  • Excesso de containers agendados em um ambiente de cluster
  • Status de backup de servidores e bancos de dados

Esta lista de métricas para cada sistema não é completa. Em vez disso, você determina seus requisitos de negócios e expectativas para diferentes partes da infraestrutura. Essas referências ajudarão a compreender melhor quais métricas devem ser monitoradas e estabelecer diretrizes para a definição de limites de alerta.

Quais fatores são importantes em uma plataforma de monitoramento de infraestrutura?

Soluções efetivas e confiáveis de monitoramento de infraestrutura geralmente têm essas funcionalidades em comum. Vamos analisar um de cada vez.

Facilidade de instalação e gerenciamento

As soluções de SaaS transferem a configuração, a segurança e a manutenção de uma plataforma de monitoramento para um fabricante. Isso permite que as equipes de negócios se concentrem no próprio sistema. A profunda integração com os componentes do sistema é fundamental para oferecer monitoramento leve e dados precisos de sistema com pontualidade. A privacidade de dados também é uma questão importante, e muitas organizações precisarão de uma plataforma capaz de higienizar informações confidenciais à medida que elas chegam.

Alto desempenho

Um sistema de monitoramento abrangente coletará e exportará rapidamente um alto volume de dados. Por isso, a plataforma de monitoramento deve ser capaz de ingerir e processar esse volume em alta velocidade. Somente esse nível de desempenho consegue oferecer à equipe de resposta a incidentes (IR) informações relevantes e atualizadas sobre os sistemas. A associação desse desempenho a funcionalidades como geração de alertas garante a imediata detecção e resolução de qualquer indicação de insalubridade.

Ferramentas avançadas de análise de dados

Uma robusta solução de monitoramento de infraestrutura precisa incluir ferramentas que ajudem as equipes de negócios a personalizar sua interação com os dados. As funcionalidades de filtragem, pesquisa, correlação e agregação encontram relações nos dados para identificar possíveis problemas. A combinação dessas funcionalidades em painéis e análises de tendências capacitam as equipes com as informações de que elas precisam para compreender a integridade do sistema.

Descubra a plataforma nativa de IA líder global para SIEM e gerenciamento de log de última geração

Eleve sua cibersegurança com o CrowdStrike Falcon®, a principal plataforma nativa de IA para SIEM e gerenciamento de log. Experimente registro de log de segurança em uma escala de petabytes, optando por nativo em nuvem ou implementação auto-hospedada. Registre seus dados com uma arquitetura avançada e livre de índices, sem gargalos e que permite investigação de ameaças com mais de 1 PB de ingestão de dados por dia. Assegure capacidades de pesquisa em tempo real para superar os adversários, atingindo latência de menos de um segundo para consultas complexas. Aproveite uma visibilidade completa, consolidando os dados para quebrar silos e possibilitar que as equipes de segurança, TI e DevOps investiguem ameaças, monitorem o desempenho e garantam a conformidade perfeitamente em 3 bilhões de eventos e em menos de um segundo.

Arfan Sharif é líder de marketing de produtos para o portfólio de observabilidade na CrowdStrike. Ele tem mais de 15 anos de experiência em gerenciamento de log, ITOps, observabilidade, segurança e soluções de CX para empresas como Splunk, Genesys e Quest Software. Arfan formou-se em Ciência da Computação na Universidade Bucks and Chilterns e sua carreira abrange as áreas de Marketing de Produtos e Engenharia de Vendas.