Introdução ao mapeamento de fluxo de dados
Como você pode saber se os dados da sua empresa estão realmente seguros?
As equipes de segurança costumavam responder a essa pergunta escaneando dados em repouso. Eles escaneavam periodicamente os armazenamentos de dados da empresa limitada para montar uma imagem de onde os dados estavam em todos os momentos.
Em apenas alguns anos, porém, as coisas mudaram de forma fundamental. As arquiteturas se tornaram tão complexas que não é mais possível monitorar dados apenas com uma abordagem em repouso. Para manter o controle dos dados, é essencial também rastrear os dados em movimento e trabalhar com um mapa de fluxo de dados. Uma estratégia inteligente envolve usar primeiro mapas de fluxo de dados e depois dados em repouso. Ou seja, as organizações devem usar dados em movimento para avaliar quais armazenamentos de dados devem ser priorizados e escaneados em repouso.
O que é mapeamento de fluxo de dados?
Mapeamento de fluxo de dados é o processo de visualização e rastreamento do fluxo de dados desde a aquisição até o descarte. É a peça que faltava no quebra-cabeça que ajuda a manter os dados seguros, mesmo quando eles fluem por ambientes altamente fragmentados, complexos e dinâmicos. Além de fornecer uma visão geral do que está acontecendo, ele pode ajudar a descobrir onde os dados podem estar vulneráveis e fornecer etapas claras para mitigar riscos e evitar ataques.
Por que mapear o fluxo de dados?
Até recentemente, os dados eram armazenados centralmente em um número limitado de bancos de dados que eram verificados periodicamente em repouso. Isso permitiu que as equipes de segurança rastreassem os dados e garantissem que eles estivessem protegidos.
Em arquiteturas modernas, no entanto, os dados passam por centenas ou até milhares de aplicações e fornecedores terceirizados, movendo-se entre provedores de nuvem e entrando e saindo de bancos de dados sombra. Tentar capturar esse fluxo dinâmico e rápido de dados com instantâneos estáticos é praticamente impossível.
Executar varredura em todas as fontes de dados é impraticável e proibitivamente caro. Rastrear uma única transferência de dados pode exigir a cópia e o processamento de petabytes de dados.
Ainda mais importante, se você escanear apenas dados em repouso, você perderá toda a jornada dos dados — onde eles estiveram, para onde estão indo, quem os possui, etc. Essas informações não poderiam ser mais críticas quando você precisa chegar rapidamente à causa raiz de um problema.
É aqui que entra o mapeamento do fluxo de dados.
Benefícios do mapeamento de fluxo de dados
Ter a capacidade de mapear o fluxo de dados automaticamente e detalhar até a camada de dados tem muitos benefícios.
Com o mapeamento do fluxo de dados, você pode:
- Aumentar a cobertura: o mapeamento do fluxo de dados permite que as organizações descubram automaticamente todos os serviços externos, incluindo IA generativa (GenAI), e analisem e classifiquem os dados que fluem para eles.
- Cumpra as regulamentações: saber onde os dados confidenciais estão o tempo todo e protegê-los adequadamente é crucial para cumprir as regulamentações de privacidade e segurança, como o GDPR e o CCPA. O PCI DSS, por exemplo, exige que os dados do cartão de crédito sejam isolados em um ambiente específico, aplicando isso aos dados processados e também aos dados em repouso. Manter essa regulamentação para dados processados não é possível apenas escaneando dados em repouso.
- Reduza os custos de varredura de dados: o mapeamento do fluxo de dados pode reduzir radicalmente os custos da nuvem pública, mantendo o número de digitalizações no mínimo. Uma maneira de fazer isso é fornecer às equipes de segurança a capacidade de identificar quais armazenamentos de dados contêm dados confidenciais ou de alto valor e priorizá-los para verificação e análise, eliminando a necessidade de verificar e analisar armazenamentos de dados de baixo valor. O mapeamento do fluxo de dados também faz isso capturando as mudanças conforme elas ocorrem, em vez de tirar instantâneos de tudo em cada etapa do caminho.
- Remediação de sobrecarga: o mapeamento do fluxo de dados desempenha um papel importante na melhoria da postura de segurança ao visualizar e rastrear o fluxo de dados dentro de uma organização em tempo real. Isso ajuda as organizações a identificar potenciais vulnerabilidades ou riscos à medida que ocorrem, descobrindo serviços não autorizados, interrompendo vazamentos de dados e reduzindo o impacto de tais eventos.
- Tome melhores decisões: o mapeamento do fluxo de dados permite que as organizações tomem decisões mais informadas sobre o gerenciamento de dados, fornecendo contexto comercial e compreensão de como os dados são usados e compartilhados dentro da organização. Isso inclui determinar quais dados coletar, como armazená-los e protegê-los e por quanto tempo eles devem ser retidos.
Desafios com mapeamento de fluxo de dados
A primeira coisa a saber sobre mapeamento de fluxo de dados é que ele pode ser extremamente complicado de implementar, especialmente se feito manualmente. Há vários grandes desafios a serem considerados:
- Complexidade arquitetônica. Um dos maiores desafios do mapeamento do fluxo de dados é que as arquiteturas modernas se tornaram incrivelmente complexas e fragmentadas. É quase impossível controlar dados que trafegam por centenas ou até milhares de aplicações todos os dias.
- Pontos cegos. Os dados geralmente fluem inesperadamente, indo para bancos de dados não gerenciados, armazenamentos de dados sombra e serviços de terceiros. Pode ser difícil mapear e proteger dados que fluem para locais dos quais você nada sabe. O resultado é um mapa de fluxo que pode parecer completo, mas está cheio de pontos cegos. O pior é que esses pontos cegos são provavelmente onde os dados confidenciais precisam de mais proteção.
- Tarefas tediosas e demoradas.As organizações devem monitorar e atualizar continuamente os mapas de fluxo de dados conforme os sistemas mudam e novas rotas de dados são formadas.
Enfrentar esses desafios sozinho não é apenas difícil e demorado, mas também propenso a erros e extremamente frustrante. Na seção a seguir, apresentaremos dois métodos automatizados que podem ajudar a superar esses problemas.
Relatório de Investigação de Ameaças 2024
No Relatório de Investigação de Ameaças 2024 da CrowdStrike, a CrowdStrike revela as mais recentes táticas de mais de 245 adversários modernos e mostra como esses adversários continuam a evoluir e emular o comportamento de usuários legítimos. Obtenha insights para ajudar a impedir ataques aqui.
Baixe agoraMétodos automatizados de mapeamento de fluxo de dados
Existem algumas maneiras diferentes de mapear automaticamente o fluxo de dados, e é importante entender as diferenças entre elas.
Análise de log
Um método comum é criar um mapa de fluxo de dados com base em logs e metadados. Isso envolve coletar dados de log de várias fontes, como servidores, aplicações e dispositivos de rede, e usá-los para criar um mapa de como os dados fluem por uma organização.
Embora essa abordagem forneça informações úteis, ela tem algumas desvantagens significativas. Os dados de log geralmente são limitados em escopo e podem não capturar todos os movimentos de dados. Além disso, os logs são cegos aos dados, pois eles podem identificar que dois ativos se comunicaram, mas não podem dizer nada sobre a natureza dos dados que foram transferidos entre eles. Isso faz com que as equipes de segurança realizem suposições fundamentadas sobre o tipo de dados, o que pode levar a uma ampla gama de lacunas de segurança.
No caso de um banco de dados que contém apenas dados pessoais identificáveis, por exemplo, a análise de logs pode sinalizar erroneamente cada comunicação com esse banco de dados como uma transferência desses dados. Além de causar fadiga de alertas, a análise de logs também pode perder dados pessoais identificáveis vulneráveis que passam despercebidos, escondidos em dados não estruturados, em campos inesperados etc.
Vamos agora nos voltar para uma abordagem que elimina esses problemas olhando diretamente para os dados em si.
Análise de payload em tempo de execução
Um método mais abrangente é criar um mapa de fluxo de dados com base na análise de payload em um módulo de tempo de execução. Isso envolve analisar as payloads reais à medida que elas fluem por uma organização em tempo real.
Essa abordagem fornece uma imagem mais completa e precisa dos movimentos de dados porque captura todos os fluxos de dados e inclui informações sobre o conteúdo e o contexto dos dados. É a única maneira de realmente entender para onde os dados confidenciais estão fluindo, em vez de depender de dados de log incompletos ou potencialmente enganosos.
Para aproveitar todos os benefícios do mapeamento de fluxo de dados, é importante implementá-lo de uma forma que não afete o desempenho. Uma das melhores maneiras de fazer isso é usar um módulo de tempo de execução alimentado pelo eBPF, pois isso mantém os recursos e o atrito no mínimo.