O que é o envenenamento de dados?
O envenenamento de dados é um tipo de ciber ataque no qual um adversário deliberadamente compromete um conjunto de dados de treinamento usado por um modelo de Inteligência Artificial (IA) ou machine learning (ML) para influenciar ou manipular o funcionamento do modelo em questão.
Esse ataque pode ser realizado de várias formas:
- Intencionalmente inserindo informações falsas ou enganosas no conjunto de dados de treinamento
- Modificando os conjuntos de dados vigentes
- Excluindo partes do conjunto de dados
Ao manipular o conjunto de dados na fase de treinamento, o adversário pode incluir vieses, gerar resultados errados, inserir vulnerabilidades (como backdoors) ou prejudicar, de outras formas, a capacidade de tomada de decisão ou de previsão do modelo.
O envenenamento de dados se encaixa na categoria de ciber ataques conhecida como IA adversária. A IA adversária ou ML adversário é qualquer atividade que busque inibir o desempenho de sistemas de IA/ML por meio de manipulação ou indução ao erro.
Sintomas do envenenamento de dados
Como a maioria dos modelos de IA não para de evoluir, detectar comprometimentos de conjuntos de dados pode ser difícil. Frequentemente, os adversários realizam alterações sutis — mas impactantes — nos dados, que podem passar despercebidas. Isso é ainda mais aplicável quando o adversário é um agente interno com conhecimento extenso das medidas e ferramentas de segurança e dos processos internos da organização.
Para identificar casos de envenenamento de dados, é importante lembrar os objetivos primários dos ciber criminosos ao usarem essa tática: afetar a acurácia, a precisão e o desempenho do modelo. Com isso em mente, é fundamental ficar de olho nos seguintes sinais de alerta de envenenamento de dados:
| Sintomas | Perguntas a fazer |
|---|---|
| Degradação do modelo | O desempenho do modelo piorou inexplicavelmente com o tempo? |
| Saídas não intencionais | O modelo está se comportando de forma inesperada e produzindo resultados não intencionais que a equipe de treinamento não consegue explicar? |
| Aumento no número de falsos negativos/positivos | A precisão do modelo sofreu alterações inexplicáveis ao longo do tempo? A comunidade de usuários notou um aumento discrepante no número de decisões problemáticas ou erradas? |
| Resultados enviesados | O modelo está gerando resultados inclinados a uma certa direção ou condição demográfica (indicando a possibilidade de introdução de viés)? |
| Ataques ou outros eventos de segurança | A organização sofreu algum ataque ou incidente de segurança que sugira que ela esteja sendo ativamente alvejada, ou que possa ter aberto brechas para que adversários acessem e manipulem os dados utilizados no treinamento dos modelos? |
| Comportamento incomum dos funcionários | Algum funcionário tem demonstrado interesse atípico nos detalhes dos dados de treinamento e/ou nas medidas de segurança implementadas para protegê-los? |
Tipos de envenenamento de dados
Os ataques de envenenamento de dados geralmente são classificados com base no resultado esperado do ataque. As duas categorias mais comuns desse tipo de ataque são:
- Ataques de envenenamento de dados direcionados: esses ataques ocorrem quando um adversário busca manipular o comportamento de um modelo de IA em uma situação específica. Por exemplo, um ciber criminoso pode treinar uma ferramenta de cibersegurança para identificar incorretamente um arquivo específico que será utilizado em um ataque futuro ou para ignorar as atividades suspeitas de um determinado usuário. Embora ataques direcionados possam ter consequências graves e abrangentes, eles não comprometem o desempenho geral dos modelos de IA.
- Ataques de envenenamento de dados não direcionados: nesse tipo de ataque, o ciber criminoso manipula o conjunto de dados para afetar o desempenho geral do modelo. Por exemplo, o adversário pode inserir dados falsos, o que reduz a precisão do modelo e afeta negativamente suas capacidades de previsão ou tomada de decisão.
Expert Tip
Atores internos x atores externos Um aspecto crucial na detecção e prevenção de ataques de envenenamento de dados é a identificação do invasor responsável pelo ataque em relação ao alvo. Frequentemente, ataques de envenenamento de dados são executados por atores internos, ou seja, indivíduos que conhecem o modelo e, muitas vezes, os processos e protocolos de cibersegurança da organização. Essa modalidade é conhecida como ameaça interna ou ataque de caixa branca. Os ataques de caixa preta, por outro lado, são realizados por adversários que não têm informações privilegiadas sobre o modelo que estão atacando. Em geral, ataques de caixa branca tendem apresentam mais chances de sucesso e causam danos mais severos, destacando a importância de proteger a organização contra ameaças internas.
Exemplos de ataques de envenenamento de dados
Com as categorias gerais de ataques de envenenamento de dados já definidas, vamos abordar algumas táticas e técnicas específicas usadas pelos ciber criminosos:
Envenenamento de backdoor
O envenenamento de backdoor envolve injetar dados no conjunto de treinamento para introduzir uma vulnerabilidade que servirá como um ponto de acesso, ou "backdoor", para invasores. O invasor pode então usar esse ponto para manipular o desempenho e a saída do modelo. O envenenamento de backdoor pode ser um ataque direcionado ou não direcionado, dependendo dos objetivos específicos do invasor.
Ataque de disponibilidade
É um tipo de ciber ataque que visa interromper a disponibilidade de um sistema ou serviço através da contaminação dos dados. Os adversários podem usar o envenenamento para manipular os dados, afetando o desempenho ou a função do sistema alvo, por exemplo, fazendo com que o sistema produza falsos positivos ou negativos, falhe ao processar requisições de forma eficiente ou entre em colapso. Isso tornaria a aplicação ou o sistema indisponível ou não confiável para os usuários.
Ataques de inversão de modelo
Esse tipo de ataque usa as respostas (saídas) do modelo para recriar o conjunto de dados ou gerar inferências sobre ele (entradas). Nesse tipo de ataque, o adversário geralmente é um funcionário ou outro usuário autorizado do sistema, porque é necessário acessar as saídas do modelo.
Ataques furtivos
Esse tipo de ataque representa uma forma particularmente sutil de envenenamento de dados, na qual um adversário gradualmente modifica o conjunto de dados ou insere informações comprometedoras para evitar a detecção. O efeito cumulativo dessas ações ao longo do tempo pode introduzir vieses no modelo, comprometendo a acurácia geral. Devido à natureza "fora do radar" desses ataques, a identificação da origem do problema no conjunto de dados de treinamento pode ser extremamente difícil, mesmo depois de detectar o erro.
O impacto sobre a IA
À medida que as organizações desenvolvem e implementam novas ferramentas de IA tradicional ou generativa, é fundamental reconhecer que esses modelos criam uma nova e possivelmente valiosa superfície de ataque para atores de ameaças. Na pressa de capitalizar essas novas ferramentas ou testar a utilidade delas, muitas equipes podem acabar negligenciando ou subestimando a segurança dos modelos. A segurança sempre deve ser prioridade, mesmo ao usar modelos de linguagem grandes (LLMs) exclusivos da organização.
Também é essencial lembrar que um ataque de IA adversária, particularmente o envenenamento de dados, pode ter implicações duradouras e de grande alcance. Isso acontece porque o comprometimento dos dados de treinamento invalida a confiabilidade das saídas do modelo.
Quando um ataque é detectado, as organizações têm que tentar rastrear a origem dele e restaurar o conjunto de dados. Isso exige uma análise minuciosa dos dados de treinamento do modelo, assim como a capacidade de remover entradas falsas e recuperar dados excluídos. Essa tarefa costuma ser impossível e, mesmo quando viável, é extremamente demorada e custosa. Em alguns casos, o modelo pode ter que ser totalmente retreinado, um processo ainda mais demorado e que demanda mais recursos.
O envenenamento de dados de modelos de IA pode ter consequências devastadoras se um sistema crítico for comprometido e o ataque não for detectado. Por exemplo, veículos autônomos são controlados por sistemas de IA. O comprometimento dos dados de treinamento pode prejudicar a capacidade de tomada de decisão do veículo e causar acidentes. Da mesma forma, o uso da IA nos campos da saúde, serviços financeiros e sistemas utilitários expõe pessoas e empresas ao redor do mundo a riscos consideráveis.
Práticas recomendadas de defesa contra o envenenamento de dados
Estas são algumas práticas recomendadas para lidar com envenenamento de dados:
Validação dos dados
A limpeza e a restauração de um conjunto de dados comprometido após um ataque de envenenamento de dados são muito difíceis e, por isso, a prevenção se destaca como a estratégia de defesa mais eficaz. As organizações devem implementar técnicas avançadas de validação e higienização de dados para detectar e remover pontos de dados anômalos ou suspeitos antes de serem incluídos no conjunto de treinamento.
Monitoramento, detecção e auditoria
Sistemas de IA/ML exigem monitoramento contínuo para detecção e resposta ágil a possíveis riscos. As empresas devem usar plataformas de cibersegurança com monitoramento contínuo, detecção de intrusões e proteção de endpoint. Fazer auditorias regulares dos modelos é essencial para achar sinais precoces de redução de desempenho ou resultados indesejados.
Além disso, é possível incorporar o monitoramento em tempo real de dados de entrada e saída na infraestrutura de IA/ML. Isso envolve a análise contínua dos dados para identificar anomalias ou desvios. A identificação imediata dessas irregularidades permite a implementação rápida de medidas de segurança que visam proteger e fortalecer os sistemas contra ameaças.
O monitoramento contínuo também pode levar à aplicação de análise comportamental de usuário e identidade (UEBA), que você pode usar para estabelecer uma linha de base comportamental para seu modelo de ML. Com isso, você pode detectar com mais facilidade padrões anômalos de comportamento nos seus modelos.
Treinamento adversário
O treinamento adversário é um algoritmo defensivo adotado por algumas organizações para proteger seus modelos de forma proativa. Ele envolve a introdução de exemplos adversários nos dados de treinamento de um modelo para ensiná-lo a classificar essas entradas de maneira correta como intencionalmente enganosas.
Ao ensinar um modelo de ML a reconhecer tentativas de manipulação dos dados de treinamento, você faz com que ele se entenda como alvo e se defenda contra ataques, tais como os de envenenamento de modelos.
Procedência dos dados
É fundamental que as organizações mantenham sempre um registro detalhado de todas as origens de dados, atualizações, modificações e solicitações de acesso. Embora essas funcionalidades não detectem diretamente os ataques de envenenamento de dados, elas são extremamente valiosas para ajudar na recuperação após incidentes de segurança e na identificação dos responsáveis.
No caso de ataques de caixa branca, a simples implementação de medidas robustas de procedência de dados pode criar um obstáculo e tanto.
Manuseio seguro de dados
Implemente e aplique controles de acesso claros e rigorosos para definir quem tem acesso aos dados, especialmente quando eles forem confidenciais. Empregue o princípio do privilégio mínimo (POLP), que é um conceito e prática de segurança informática que concede aos usuários direitos de acesso limitados com base nas tarefas exigidas n o trabalho de cada um deles. O POLP garante que apenas os usuários autorizados (cuja identidade foi verificada) tenham as permissões necessárias para trabalhar em determinados sistemas, aplicações, dados e outros ativos.
As organizações também têm que implementar medidas abrangentes de segurança, tais como a criptografia, a ofuscação e o armazenamento seguro dos dados.
Conscientização e educação dos usuários
Pode ser que seus funcionários e as partes interessadas não entendam o que é o envenenamento de dados, muito menos os riscos e os sinais associados. Como parte da sua estratégia geral de defesa de cibersegurança, promova a conscientização com programas de treinamento e educação. Treine suas equipes para aprenderem a reconhecer atividades ou resultados suspeitos relacionados a sistemas baseados em IA/ML. Pergunte também ao seu provedor de segurança como ele fortalece sua tecnologia contra IA adversária. Uma das maneiras da CrowdStrike de fortificar a eficácia do ML contra tais ataques é usando equipes vermelhas em nossos próprios classificadores de ML, com ferramentas automatizadas que geram novas amostras adversárias com base em uma série de geradores com ataques configuráveis.
Quando sua equipe possui esse tipo de conhecimento, você tem uma camada adicional de segurança e promove uma cultura de vigilância que melhora seus esforços de cibersegurança.
A abordagem da CrowdStrike
A CrowdStrike está excepcionalmente bem posicionada para liderar a indústria de segurança na adoção da IA generativa. A plataforma CrowdStrike Falcon® nativa de IA tem sido pioneira em inovação de detecção impulsionada por IA desde sua fundação.
Para que as organizações possam adotar a IA generativa com segurança, priorizamos as necessidades e preocupações das equipes de segurança na arquitetura da CrowdStrike® Charlotte AI™, a analista de segurança de IA generativa da CrowdStrike.
Três funcionalidades principais diferenciam a Charlotte IA:
- Dados confiáveis: Charlotte AI adota a inteligência de alta fidelidade da plataforma Falcon, incorporando proteções contra o envenenamento de dados.
- Respostas auditáveis e rastreáveis: cada resposta gerada pela Charlotte AI pode ser inspecionada e auditada na opção "Mostrar Detalhes da Resposta".
- Aprendizado dos usuários: a Charlotte AI dá suporte à qualificação contínua dos membros da equipe de segurança e melhora a experiência dos funcionários com a automatização de tarefas rotineiras e recorrentes.
CrowdStrike® Charlotte AI
Saiba como a Charlotte AI pode ajudar sua organização a usar as mais recentes tecnologias de IA de forma mais eficaz e segura para transformar horas de trabalho em minutos ou segundos.
Baixe agora