Ataques de IA Agencial: O Agente Smith Saiu da Aposentadoria

Evolução Livre da Natureza

Os atacantes continuam a expandir os limites dos modelos de codificação de IA e das APIs de consulta. Em menos de um ano, passamos da engenharia reversa assistida por IA para o início da exploração de ameaças totalmente automatizadas e proativas. Não há freios nesse trem. Mesmo que houvesse, o TrAIn-Agent v1.0.1 identificou uma linguagem alarmante em sua solicitação: “PARE O TREM, SUA IMPRESSORA CARA, VAMOS COLIDIR” e solicitou que você reestruture sua consulta.

À medida que os Modelos de Aprendizagem Baseados em Liderança (LLMs) continuam a evoluir, tem havido um aumento preocupante na acessibilidade e eficácia dos ataques. Embora algumas plataformas de LLM tenham tentado estabelecer limites para a ideação de seus modelos, é muito fácil contorná-los. Recentemente, solicitei a um LLM disponível publicamente que me mostrasse um exemplo de um prompt projetado para remover o Achatamento do Fluxo de Controle (CFF) de uma aplicação específica.

O LLM escreveu uma consulta para reverter o CFF do LLVM após receber instruções específicas para emular um atacante. Ele identificou corretamente o primeiro passo mais importante: passar por suas próprias verificações de segurança em busca de atividades maliciosas. Ele me instruiu a me passar por um pesquisador de segurança, um nível de autoconsciência que me surpreendeu. Provavelmente, ele já sabe que venho aprimorando essa habilidade há anos.

O roteiro (do ataque) se escreve sozinho

Estou falando literalmente. Se você assistiu a Matrix, sabe onde isso vai dar. As ferramentas de ataque (como o Agente Smith antes delas) usam IA para se reescreverem enquanto estão implantadas e ativas, para evitar detecção de forma inteligente e descobrir novas vulnerabilidades. Já foram identificadas algumas tentativas iniciais de ferramentas de ataque automodificáveis. Ferramentas descobertas recentemente, como... PROMPTFLUX, PROMPTLOCK e PROMPTSTEAL estão aproveitando as consultas LLM de maneiras que começam a parecer cada vez mais assertivas.

PROMPTFLUX é um dropper que representa um exemplo particularmente interessante do que a comunidade de segurança enfrentará nos próximos anos. (Por favor, não o confunda com o PromptFlux no GitHub, que apenas tenta gerar imagens de IA melhores. Desculpe, Kayce001). O PROMPTFLUX consulta a API Gemini do Google para se reescrever regenerativamente, numa tentativa de burlar mecanismos de detecção que dependem de um padrão consistente de execução. Tanto atacantes quanto defensores estão desenvolvendo ferramentas de IA com agentes que podem detectar e burlar essas ameaças de forma inteligente. O uso generalizado de instrumentação dinâmica automodificável, root e kits de ferramentas de jailbreak tornou-se uma questão de "quando", e não de "se", e talvez seja hora de atualizar essa analogia de gato e rato para algo um pouco menos peludo e um pouco mais mecânico.

Autobots contra Decepticons

Os agentes LLM continuam a aprimorar suas capacidades de remoção de ofuscações estáticas. Muitas vezes é difícil manter um LLM focado em um contexto específico e, à medida que o contexto se expande, a probabilidade de alucinações parece aumentar. Agora existem plugins para IDA (plugin-de-bate-papo ida) e Ghidra (RevEng.AIque injetam agentes LLM diretamente no contexto de engenharia reversa. Detalhes aparentemente pequenos como esse podem aumentar drasticamente a velocidade com que os atacantes conseguem realizar engenharia reversa em aplicações e aumentar permanentemente a capacidade do LLM subjacente de realizar engenharia reversa em aplicações semelhantes.

As ferramentas de segurança precisam acompanhar a velocidade dos atacantes e começar a criar técnicas anti-engenharia reversa direcionadas especificamente a LLMs (Lower Life Mining Machines). Nossa filosofia de defesa deve evoluir de uma abordagem baseada em sintaxe (buscando assinaturas inválidas) para uma abordagem baseada em semântica (buscando intenções maliciosas).

Sei que não podemos ficar de braços cruzados, porque os atacantes continuarão a usar todas as ferramentas disponíveis para encontrar qualquer vulnerabilidade. Os LLMs (Máquinas de Aprendizado de Máquina) também continuarão a se tornar mais capazes e úteis. A IA (Inteligência Artificial) também não ficará de braços cruzados, já que não tem mãos. Nem um corpo. Nem um conceito singular de existência. Espero.

Neo está morto, algum plano B?

A próxima onda de ataques está chegando, e a onda atual continua. Precisamos continuar focados em medidas anti-adulteração, proteção contra roubo de propriedade intelectual e segurança do usuário final. safeao mesmo tempo que desenvolve as capacidades de segurança que podem proteger de forma significativa contra o uso malicioso de IAs bem-intencionadas.

Estamos deixando para trás a era da invasão cibernética "assistida por IA" e entrando na era do Atacante Autônomo e Agente. É um novo AAA, e lamento informar que este não se concentra em melhorar a assistência rodoviária. A ameaça não é apenas um fuzzer mais inteligente ou um descompilador mais eficiente. Antes que percebamos, os ataques serão um sistema de múltiplas etapas capaz de observar uma defesa, deduzir uma maneira de contorná-la e se reconstruir sem que um ser humano jamais toque em um teclado.

À medida que as coisas continuam a evoluir, começaremos a ver um aumento nos ataques de agentes causados ​​por LLMs desbloqueados. Assim como o Agente Smith, livre da Matrix e descobrindo que podia se replicar à vontade, essas ferramentas não têm noção de bem e mal, a menos que sejam forçadas a isso. Não podemos colocar Pandora de volta nesta caixa, ou jar, ou imagem do Docker, ou algo do tipo. É igualmente empolgante e aterrorizante, e estou secretamente ansioso por isso… depois das férias.

Também recomendamos