What is data classification?

Data classification is the practice of categorizing different data elements according to predefined criteria — such as type, sensitivity, or business value — so that you can easily reference it.

Como funciona a classificação de dados

Dana Raveh - novembro 08, 2024

O que é classificação de dados?

Nem todos os dados são criados iguais. No complexo mundo digital de hoje, tentar proteger cada ativo de dados com a mesma força não é viável nem sensato. Com terabytes ou mesmo petabytes de dados em mãos, as equipes de segurança de dados precisam se tornar mais sofisticadas, na verdade, elas precisam de classificação de dados.

Classificação de dados é a prática de categorizar diferentes elementos de dados de acordo com critérios predefinidos — como tipo, sensibilidade ou valor comercial — para que você possa referenciá-los facilmente. Isso é essencial para proteger dados críticos e confidenciais porque permite que você aplique medidas de segurança eficazes aos dados mais importantes. A classificação de dados é essencial para proteger dados contra acesso não autorizado e violações, além de garantir total conformidade com regulamentações e padrões do setor.

Neste artigo, exploramos diferentes métodos de classificação de dados, seus benefícios e potenciais desafios, e como você pode usá-los para atingir seus objetivos de negócios.

Relatório Global de Ameaças 2026 da CrowdStrike

As ameaças relacionadas à IA atingiram um ponto crítico. Acesse a análise definitiva do cenário de ciberameaças.

Baixe

O processo de classificação de dados

Classificar dados é um grande desafio, especialmente porque as empresas normalmente lidam com grandes volumes de dados.

Aqui estão alguns passos simples que você pode seguir para ter certeza de que está fazendo a coisa certa:

1. Defina seus objetivos

Antes de iniciar o processo de classificação de dados, é importante primeiro identificar as metas de segurança no contexto das necessidades específicas do seu negócio.

Perguntas importantes para se fazer:

Para que serve isso?
Qual é o desafio que estou tentando resolver?

Se seu principal objetivo é cumprir as regulamentações de privacidade, por exemplo, você deve avaliar regularmente a quais leis e regulamentações sua empresa está sujeita e identificar as etapas necessárias para proteger os dados e evitar penalidades. Regulamentações comuns a serem observadas incluem o GDPR, CCPA, CPRA, HIPAA e PCI DSS.

2. Avalie o escopo e priorize

A classificação de dados pode parecer um desafio monstruoso se você lida com dados em grande escala. Mas com algum pensamento estratégico, a classificação pode ser reduzida a dimensões gerenciáveis. Avaliar dados por meio de um conjunto significativo de critérios, como risco, valor ou requisitos regulatórios, permitirá que você concentre recursos e medidas de segurança nas informações mais confidenciais e valiosas. Isso pode restringir drasticamente o escopo da classificação de dados, tornando-a uma tarefa altamente direcionada e viável.

3. Identifique as partes interessadas relevantes na organização

Identifique quem precisa participar da empresa, incluindo equipes de segurança, governança, risco e conformidade e departamentos de engenharia. Certifique-se de mapear suas necessidades, seus métodos de comunicação e fluxos de trabalho existentes, e como eles esperam usar a classificação de dados em seu processo de trabalho.

4. Implemente o processo de classificação de dados

Configure e execute os métodos de classificação que funcionam melhor para sua arquitetura e objetivos de negócios.

Isso significa resolver algumas questões técnicas, como:

Devo digitalizar dados em repouso ou em movimento?
Devo classificar os dados com base no contexto ou no conteúdo?

5. Automatize

Pode ser útil otimizar o processo de classificação com soluções automatizadas de software de segurança de terceiros. Elas não apenas liberam você da execução manual de tarefas de classificação árduas e propensas a erros, mas também podem ajudar a descobrir lacunas de segurança de dados e dar suporte à remediação.

6. Integre com fluxos de trabalho existentes

Depois de entender o que as partes interessadas precisam e para qual finalidade, você pode integrar seu mecanismo de classificação aos fluxos de trabalho existentes para minimizar o atrito. Isso pode incluir, por exemplo, a geração automática de um Registro de Atividades de Processamento (RoPA) para auditorias do GDPR.

7. Colha os benefícios do seu trabalho

Agora que seus dados críticos estão sendo classificados, é hora de traduzir isso em valor. Do ponto de vista da segurança, você pode definir políticas claras para proteger dados confidenciais, incluindo permissões baseadas em funções que gerenciam como ativos de dados distintos são processados, acessados e armazenados. Do ponto de vista orçamentário, você pode criar políticas para retenção e armazenamento de dados, determinando o local de armazenamento apropriado e o período de retenção para cada tipo de dado.

8. "Enxágue e repita"

É aconselhável reavaliar e atualizar regularmente suas políticas de classificação para garantir que dados confidenciais permaneçam protegidos o tempo todo.

Saiba mais

Leia este blog para saber como combinar proteção em repouso e em tempo de execução cria uma postura de segurança holística e resiliente, garantindo que os dados da sua organização estejam totalmente protegidos no complexo cenário de nuvem atual.

Leia agora: Desmistificando a proteção de dados na nuvem

Métodos de classificação de dados

A classificação de dados é um tópico amplo e há muitas coisas a considerar antes de implementá-la em sua caixa de ferramentas de segurança.

Nesta seção, examinaremos dois aspectos importantes da classificação de dados: os diferentes métodos de classificação de dados e os tipos de dados que estão sendo classificados.

Níveis de classificação

Muitas organizações categorizam seus dados com base em níveis, que podem ser tão detalhados ou amplos quanto a organização desejar.

O exemplo de classificação de dados a seguir mostra como uma organização pode categorizar seus dados com base em níveis que definem o quão confidenciais eles são.

Alta sensibilidade: dados que pertencem a este nível incluem informações importantes que, se acessadas por usuários não autorizados, podem ter efeitos prejudiciais às partes interessadas. Isso inclui números de contas financeiras, informações de cartão de crédito e números de Previdência Social.
Sensibilidade média: esse tipo de dado inclui informações que não são públicas ou disponíveis para pessoas de fora da organização, mas também não são críticas para as operações ou proprietárias. Dados neste nível podem incluir e-mails ou documentos que não contêm dados confidenciais.
Baixa sensibilidade: neste intervalo, você pode encontrar dados que estão disponíveis ao público em sites, diretórios e outros repositórios.

Contexto, conteúdo e classificação baseada no usuário

Para ficar por dentro da segurança de dados, é importante saber o que é cada tipo de classificação e como elas diferem umas das outras.

A classificação baseada em contexto deriva o tipo de dados de informações contextuais, como metadados, incluindo histórico, atributos, proprietário do ativo e ambiente. Por exemplo, os dados serão classificados como um endereço de e-mail se forem encontrados em uma coluna chamada “EmailAddress”. Embora esse tipo de informação seja valiosa, as conclusões tiradas dos metadados podem ser imprecisas, o que pode tornar a classificação enganosa.
A classificação baseada em conteúdo, por outro lado, determina o tipo de dados observando os dados diretamente. Essa abordagem pode identificar se um ativo de dados é um nome, e-mail, endereço ou número de cartão de crédito com um alto grau de certeza, mesmo que esteja marcado incorretamente. Por exemplo, a classificação baseada em conteúdo pode identificar se um número de cartão de crédito está localizado em um campo de “comentário”.
A classificação baseada no usuário depende da entrada manual de um usuário experiente e de seu critério. Normalmente, esses usuários rotulam o quão confidenciais os dados são quando criam ou fazem edições em um documento.

Você pode se surpreender ao saber que a maioria das soluções realiza a classificação com base apenas no contexto. Outro ponto sutil a ser observado aqui é que você não pode obter contexto sem observar os dados em movimento. A única maneira de obter dados em movimento de forma confiável e a um custo razoável é analisar os dados em tempo de execução por meio da payload (em oposição aos logs de nuvem pública, como o AWS Flow Logs).

Se você deseja garantir que dados confidenciais sejam reconhecidos e classificados de forma correta e econômica, você deve fazer parceria com um fornecedor que combine a classificação baseada em conteúdo com a classificação baseada em contexto e garantir que esta última seja realizada por meio da payload. Caso contrário, você corre o risco de acumular custos, perder sinais importantes e expor dados vulneráveis a vazamentos e ataques.

Classificação de dados estruturados vs. não estruturados

Os dados vêm em diferentes formatos, mas podem ser amplamente divididos em dois grupos principais:

Dados estruturados: dados em um formato “chave-valor”, como arquivos CSV, arquivos JSON, planilhas Excel, etc.
Dados não estruturados: texto livre, imagens (que podem incluir texto livre), vídeos, documentos, etc.

O importante a ser observado aqui é que os processos de classificação de dados estruturados e não estruturados são diferentes por natureza, e nem todas as soluções de classificação podem lidar com dados não estruturados.

O ponto principal é este: se você acha que pode ter dados confidenciais escondidos em dados não estruturados, é importante garantir que suas ferramentas de classificação possam detectá-los e classificá-los. Lembre-se de que, quando os dados são processados por determinadas aplicações, eles podem ser alterados de estruturados para não estruturados e vice-versa. Classificar dados não estruturados é quase sempre um bom investimento.

Reconhecimento de entidade nomeada vs. grandes modelos de linguagem

Dados não estruturados costumavam ser classificados por meio de algoritmos tradicionais de reconhecimento de entidades nomeadas (NER), que usam machine learning para analisar conjuntos de dados rotulados. Esses algoritmos eram relativamente eficazes, mas tinham limitações de precisão e contexto, o que significa que só conseguiam reconhecer um pequeno conjunto de classes de dados.

Agora, soluções que usam grandes modelos de linguagem (LLMs) levam a classificação de dados a um nível totalmente novo, reconhecendo uma ampla gama de tipos de dados e capturando o contexto que outros modelos perdem. Os LLMs são treinados com grandes quantidades de dados, o que ajuda a classificação de dados a atingir altos níveis de precisão e se alinhar com referências do setor ou classificações prontas para uso. Exemplos de tipos de dados que podem ser classificados incluem qualquer coisa, desde documentos casuais até códigos-fonte complexos, arquivos de áudio, imagens e vídeos.

Relatório de Investigação de Ameaças 2024

No Relatório de Investigação de Ameaças 2024 da CrowdStrike, a CrowdStrike revela as mais recentes táticas de mais de 245 adversários modernos e mostra como esses adversários continuam a evoluir e emular o comportamento de usuários legítimos. Obtenha insights para ajudar a impedir ataques aqui.

Baixe agora

Os benefícios da classificação de dados

Reservar um tempo para implementar ferramentas de classificação de dados em suas operações de segurança de dados pode dar algum trabalho, mas traz algumas vantagens significativas.

Benefício	Descrição
Clareza	A classificação de dados fornece visibilidade sobre os dados que você possui, onde eles são processados e armazenados e como são acessados. Ao priorizar os dados de acordo com a sensibilidade, as organizações podem estabelecer limites claros sobre quais dados devem ser protegidos e como devem ser tratados. A classificação torna muito mais fácil proteger informações confidenciais em ambientes dinâmicos, principalmente quando os dados fluem entre a nuvem e os ambientes locais ou são compartilhados com serviços externos.
Conformidade	A classificação confiável de dados é essencial se você pretende atender aos requisitos regulatórios, manter a confiança do cliente e evitar penalidades pesadas. Ao categorizar os dados de acordo com a sensibilidade, as organizações podem definir políticas de governança eficazes que garantam que as informações confidenciais sejam protegidas de acordo com a lei.
Economia de custos	A classificação de dados permite que as empresas adotem uma abordagem direcionada à segurança de dados, investindo estrategicamente em medidas de proteção onde o risco é maior e identificando e descartando dados que não são mais necessários. Além disso, quando os dados são categorizados, as equipes de segurança podem identificar vulnerabilidades e corrigir problemas que comprometem dados confidenciais mais rapidamente.
Melhor tomada de decisão	Categorizar dados por sensibilidade ou valor comercial pode ajudar a informar decisões e reduzir o tempo necessário para gerenciar dados. Por exemplo, a classificação pode ajudar você a descobrir e eliminar dados obsoletos ou redundantes e definir políticas de retenção mais inteligentes para seu armazenamento.

Os desafios da classificação de dados

Ao incorporar a classificação de dados à sua estratégia de proteção de dados, há algumas grandes armadilhas que você deve observar. Vamos analisar alguns deles e como lidar com eles.

Controle de custos

Com o enorme volume de dados gerados diariamente, alocar tempo e recursos adequados para coletar, classificar, monitorar e mantê-los pode rapidamente se tornar caro e complexo, principalmente quando se lida com dados legados. Prioridades conflitantes e orçamentos limitados podem agravar ainda mais esse problema.

Para enfrentar esse desafio, as organizações podem adotar uma abordagem automatizada, eliminando tarefas que exigem muito trabalho e os erros humanos que as acompanham. Além disso, as organizações podem priorizar a classificação das informações mais sensíveis e implementar políticas que impeçam a coleta de dados desnecessários, economizando tempo e controlando custos de forma eficaz.

Excesso de confiança nas equipes de engenharia

Depender apenas de equipes de TI e engenharia para classificação de dados pode criar gargalos, sobrecarregar as equipes e levar a erros. Com a complexidade do processo de classificação e seus requisitos técnicos, essa prática pode não ser sustentável a longo prazo.

A automação também pode ajudar aqui. Ele pode acelerar o processo de classificação, aumentar sua precisão e eliminar a tensão que pode surgir entre as equipes de segurança e engenharia.

Políticas e formatos inconsistentes

Ter políticas e formatos inconsistentes escolhidos por diferentes departamentos e equipes pode levar à confusão e aos erros, resultando em perda de informações, má classificação e desperdício de recursos.

Para evitar esse problema, as organizações devem estabelecer políticas e formatos padronizados que sejam seguidos consistentemente em todos os departamentos.

Ferramentas automatizadas podem ajudar a manter esse padrão aplicando políticas e formatos predefinidos. Monitoramento, atualizações e revisões regulares também podem ajudar a garantir que essas políticas e formatos permaneçam relevantes e eficazes.

Classificação incorreta ou contexto ausente

Rótulos incompletos, dados mal classificados, contexto ausente ou informações duplicadas e ambíguas podem levar a uma classificação de dados ruim. Isso pode resultar em erros críticos. Por exemplo, os nomes de indivíduos em um registro financeiro ou de saúde podem receber um baixo nível de sensibilidade quando deveriam ser marcados como sensíveis e confidenciais.

Para enfrentar esses desafios, as organizações devem prestar atenção especial à forma como os dados são coletados, certificando-se de levar em consideração metadados e links ausentes.

Ferramentas de automação podem ajudar ainda mais com isso, usando algoritmos de machine learning que mitigam anomalias, atualizam políticas, corrigem formatos e monitoram a coleta de dados de forma econômica.

Considerações sobre a solução de classificação de dados

Um mecanismo de classificação de dados forte é essencial se você deseja definir regras e controles de segurança que realmente façam seu trabalho. Se você não tiver uma noção clara de que tipo de dados estão fluindo pelo seu sistema, será quase impossível cumprir as regulamentações e mitigar riscos.

A boa notícia é que você não precisa fazer isso sozinho. Existem excelentes ferramentas de terceiros que podem fazer o trabalho para você. No entanto, se você seguir esse caminho, há várias coisas importantes a serem observadas.

Aqui estão algumas coisas importantes a serem avaliadas antes de assinar um contrato com um fornecedor externo que alega classificar dados:

Quão precisa é a solução de classificação? Ele pode lidar com dados não estruturados? Ele usa conteúdo e contexto?
A solução é automatizada? Quão bem ele se integra ao seu fluxo de trabalho?
A solução apenas classifica os dados ou também vem com ferramentas que irão melhorar a postura de segurança da sua organização e fornecer alertas confiáveis?

Se o fornecedor preencher todos esses requisitos, é provável que sua jornada de classificação comece com o pé direito. Isso é motivo de comemoração, afinal a classificação de alta qualidade é um dos grandes marcos para alcançar uma postura de segurança robusta.

Mecanismo de classificação de dados da CrowdStrike

A cada momento, a quantidade de dados sob seus cuidados aumenta. Sem uma estratégia adequada de classificação de dados, as empresas correm o risco de expor informações confidenciais e enfrentar graves consequências legais e de reputação.

A solução de gerenciamento de postura de segurança de dados (DSPM) da CrowdStrike fornece descoberta e classificação automatizadas de dados. Ela foi criada para descobrir e classificar dados estruturados e não estruturados sensíveis, não importa para onde eles fluam — seja no local, na nuvem ou transferidos para serviços externos e bancos de dados sombra.

O CrowdStrike Falcon® Cloud Security traz capacidades de tempo de execução para o DSPM, fornecendo à sua equipe uma camada de contexto de risco adicional que facilita a priorização eficaz de riscos e reduz a fadiga de alertas. Isso permite que as organizações protejam seus dados em implementações híbridas e multinuvem, respondendo a ameaças em tempo real.

Ver demonstração interativa

Dana Raveh é Diretora de Marketing de Produtos para segurança de dados e nuvem na CrowdStrike. Antes de ingressar na CrowdStrike, Dana liderou equipes de marketing em startups de cibersegurança, incluindo Seemplicity Security e Flow Security (adquirida pela CrowdStrike), onde atuou como VP de Marketing. Também trabalhou em vários cargos de gestão e marketing de produtos em diversas organizações globais, como a Checkmarx. Ela é doutora em neurociência cognitiva pela University College London.