Ataques de IA con agentes: El agente Smith ha salido de su retiro.

Evolución libre de la naturaleza

Los atacantes siguen llevando al límite los modelos de codificación de IA y las API de consulta. En menos de un año, hemos pasado de la ingeniería inversa asistida por IA a la exploración de amenazas de agentes totalmente automatizadas. Este tren no tiene freno. Incluso si los tuviera, TrAIn-Agent v1.0.1 ha detectado un lenguaje alarmante en tu solicitud de "¡PARA EL TREN, IMPRESORA CARA, VAMOS A CHOCAR!" y te ha pedido que reestructures tu consulta.

A medida que los modelos LLM siguen evolucionando, se ha observado un preocupante aumento en la accesibilidad y la eficacia de los ataques. Si bien algunas plataformas LLM han intentado establecer límites para la conceptualización de sus modelos, resulta demasiado fácil eludirlos. Recientemente, solicité a un modelo LLM de acceso público que me mostrara un ejemplo de una solicitud diseñada para eliminar el aplanamiento del flujo de control (CFF) de una aplicación específica.

El LLM escribió una consulta para revertir el CFF de LLVM tras recibir instrucciones específicas para emular a un atacante. Identificó correctamente el primer paso más importante: superar sus propias comprobaciones de seguridad para detectar actividad maliciosa. Me indicó que me hiciera pasar por un investigador de seguridad, un nivel de autoconciencia que me sorprendió. Probablemente ya sabe que llevo años perfeccionando mi actuación.

El guion (de ataque) se escribe solo

Lo digo literalmente. Si has visto Matrix, sabes a dónde va esto. Las herramientas de ataque (al igual que el Agente Smith antes que ellas) utilizan IA para reescribirse a sí mismas, mientras están desplegadas y activas, para evadir la detección de forma inteligente y descubrir nuevas vulnerabilidades. Ya se han identificado algunos intentos iniciales de herramientas de ataque automodificables. Herramientas descubiertas recientemente como PROMPTFLUX, BLOQUEO DE INMEDIATO y ROBO INMEDIATO están aprovechando las consultas LLM de maneras que comienzan a parecer cada vez más propias de un agente.

PROMPTFLUX es un dropper que constituye un ejemplo particularmente interesante de aquello contra lo que la comunidad de seguridad luchará durante los próximos años. (Por favor, no lo confundan con PromptFlux en GitHub, que simplemente intenta generar mejores imágenes de IA. Lo siento, Kayce001). PROMPTFLUX consulta la API Gemini de Google para reescribirse regenerativamente en un intento por evadir los mecanismos de detección que dependen de un patrón de ejecución consistente. Tanto atacantes como defensores están desarrollando herramientas de IA con capacidad de detección y evasión inteligentes. El uso generalizado de instrumentación dinámica automodificable, root y jailbreak se ha convertido en una cuestión de "cuándo", no de "si", y quizás sea hora de actualizar esa analogía del gato y el ratón a algo menos peludo y más mecánico.

Autobots contra Decepticons

Los agentes LLM continúan mejorando sus capacidades en torno a la eliminación de ofuscaciones estáticas. A menudo es difícil mantener un LLM enfocado en un contexto específico, y a medida que el contexto crece, la probabilidad de alucinaciones parece aumentar. Ahora hay complementos para IDA (plugin de chat de ida) y Ghidra (Ingeniería de revisión.AI) que inyectan agentes LLM directamente en el contexto de ingeniería inversa. Cosas aparentemente insignificantes como esta pueden aumentar drásticamente la velocidad a la que los atacantes pueden realizar ingeniería inversa de aplicaciones y aumentar permanentemente la capacidad del LLM subyacente para realizar ingeniería inversa de aplicaciones similares.

Las herramientas de seguridad deben evolucionar al mismo ritmo que los atacantes y comenzar a crear técnicas anti-reversión dirigidas específicamente a los LLM. Nuestra filosofía defensiva debe pasar de un enfoque basado en la sintaxis (que busca firmas maliciosas) a uno basado en la semántica (que busca intenciones maliciosas).

Sé que no podemos quedarnos de brazos cruzados, porque los atacantes seguirán utilizando todas las herramientas a su alcance para encontrar cualquier vulnerabilidad. Los sistemas de aprendizaje automático también seguirán mejorando y volviéndose más útiles. La IA tampoco se quedará de brazos cruzados, ya que no tiene manos. Ni cuerpo. Ni un concepto único de ser. Eso espero.

Neo ha muerto, ¿tienen algún plan B?

Se acerca la próxima oleada de ataques, y la actual continúa. Debemos seguir centrándonos en la protección contra la manipulación, la protección contra el robo de propiedad intelectual y la seguridad del usuario final. safeal tiempo que se desarrollan las capacidades de seguridad que pueden proteger de manera significativa contra el uso malicioso de IA bien intencionadas.

Estamos dejando atrás la era del hackeo asistido por IA y entrando en la era del atacante autónomo con capacidad de respuesta. Se trata de una nueva amenaza, y lamento informarles que esta no se centra en una mejor asistencia en carretera. La amenaza no es simplemente un fuzzer más inteligente o un descompilador más eficiente. En poco tiempo, los ataques se convertirán en un sistema de múltiples etapas capaz de observar una defensa, razonar para sortearla y reconstruirse sin que un humano toque jamás un teclado.

A medida que las cosas sigan evolucionando, empezaremos a ver un aumento de ataques de agentes provocados por LLMs con jailbreak. Al igual que el Agente Smith, liberado de Matrix y descubriendo que podía replicarse a voluntad, estas herramientas no tienen noción del bien y del mal a menos que se vean obligadas a ello. No podemos volver a meter a Pandora en esta caja, ni en este JAR, ni en esta imagen de Docker, ni en nada parecido. Es emocionante y aterrador a partes iguales, y la verdad es que lo espero con ansias… después de las vacaciones.

También puede interesarle