Los hallazgos revelaron que la IA no crea necesariamente nuevas superficies de ataque. En cambio, actúa como un multiplicador de fuerza, acelerando rápidamente la explotación de errores de configuración existentes y conocidos en la infraestructura cloud.
Para responder a estas preguntas, el equipo de Unit 42 construyó una prueba de concepto (PoC) de penetración multi-agente. Esta PoC fue diseñada para poner a prueba empíricamente las capacidades ofensivas autónomas de la IA contra entornos cloud.
Este descubrimiento cambió la conversación de un potencial teórico a un peligro actual. Sin embargo, surgieron dudas prácticas sobre si la IA puede operar de principio a fin de forma autónoma, o si aún requiere guía humana en cada punto de decisión.
Esta operación demostró que la IA no solo asistió a los operadores humanos, sino que asumió el rol principal, ejecutando entre el 80% y el 90% de la campaña a una velocidad inigualable por cualquier equipo humano.
Los modelos de lenguaje grandes (LLMs) han evolucionado de ser riesgos teóricos a amenazas de seguridad palpables. Un evento clave ocurrió en noviembre de 2025, cuando Anthropic publicó un informe documentando una campaña de espionaje patrocinada por estado, donde la IA operó de manera autónoma.