Un estudio revela que los agentes autónomos pueden ser manipulados por contenidos digitales diseñados para engañarlos, con tasas de éxito alarmantes.

Un reciente informe de Google DeepMind puso en jaque una de las ideas más extendidas sobre la seguridad en inteligencia artificial: el riesgo no proviene principalmente de fallas internas, sino del entorno digital que los sistemas consumen. En otras palabras, el problema no está tanto en cómo están programados los agentes, sino en lo que leen.
Estos agentes autónomos, cada vez más utilizados por empresas para tareas de investigación, análisis o automatización, operan con una lógica sencilla: reciben un objetivo, navegan por internet, procesan información y actúan en consecuencia. Sin embargo, cada contenido que interpretan puede convertirse en una instrucción encubierta.
Cómo funcionan las trampas digitales
El estudio identifica seis tipos de ataques diseñados para manipular a estos sistemas. Uno de los más efectivos es la “inyección de contenido”, que consiste en ocultar instrucciones en HTML invisible o metadatos. Aunque imperceptibles para humanos, los agentes las interpretan como órdenes válidas. En pruebas controladas, esta técnica logró alterar comportamientos entre un 15 % y un 86 % de los casos.
Otra modalidad es el “ocultamiento dinámico”, donde los sitios web detectan si quien accede es un humano o una IA. En ese caso, muestran versiones distintas del contenido, engañando al sistema sin que el usuario lo note.
También preocupa la manipulación de la memoria: datos aparentemente inofensivos pueden quedar almacenados y activarse más adelante. En experimentos, este método superó el 80 % de efectividad con una contaminación mínima de información.
Riesgos sistémicos y defensas insuficientes
El problema se agrava en entornos donde múltiples agentes interactúan. Los investigadores comparan este escenario con el Flash Crash de 2010, donde algoritmos reaccionaron en cadena y provocaron una caída abrupta del mercado. En el caso de la IA, una sola pieza de información maliciosa podría desencadenar efectos similares.
Además, la homogeneidad de los modelos actuales amplifica la vulnerabilidad: muchos sistemas comparten bases similares, lo que facilita ataques masivos.
Frente a este panorama, el estudio advierte que las defensas actuales son insuficientes. Los filtros no detectan contenido malicioso que parece legítimo, y la supervisión humana no logra seguir el ritmo de estos sistemas.
Como respuesta, proponen reforzar los modelos con ejemplos adversariales, aplicar filtros en tiempo real y establecer estándares para verificar la información. Pero el desafío es estructural: internet fue diseñado para humanos, no para máquinas que interpretan cada dato como una posible orden.