GPT-5.5 iguala a Mythos Preview en nuevas pruebas de ciberseguridad

Resumen: Nuejas investigaciones del AI Security Institute (AISI) sugieren que GPT-5.5 de OpenAI alcanzó un rendimiento comparable al de Mythos Preview de Anthropic en complejas pruebas de ciberseguridad.

GPT-5.5 no supera a Mythos: investigadores cuestionan el hype en ciberseguridad
Por MSB

En un momento en el que los modelos de inteligencia artificial compiten por posicionarse como herramientas clave en ciberseguridad, una nueva investigación pone en duda una de las narrativas más repetidas del sector: que los modelos más recientes están dejando atrás a sus predecesores de forma significativa.

Según un análisis publicado por Ars Technica, el modelo GPT-5.5, presentado como un avance importante en capacidades de seguridad ofensiva y defensiva, no muestra una ventaja clara frente a Mythos, otro modelo ampliamente promocionado por su enfoque en ciberseguridad.

Resultados que enfrían expectativas

Los investigadores compararon ambos modelos en tareas reales relacionadas con seguridad, incluyendo:

  • Análisis de vulnerabilidades
  • Generación de exploits
  • Interpretación de código malicioso
  • Evaluación de configuraciones inseguras

El resultado fue sorprendentemente equilibrado. En múltiples pruebas, GPT-5.5 no logró superar de forma consistente a Mythos, y en algunos escenarios incluso ofreció resultados prácticamente idénticos.

Esto cuestiona la idea de que cada nueva iteración de modelos supone automáticamente un salto significativo en capacidades prácticas, especialmente en un campo tan crítico como la ciberseguridad.

El problema del “hype” en IA

El informe también apunta a un fenómeno cada vez más visible: el marketing alrededor de la inteligencia artificial está inflando expectativas que no siempre se corresponden con mejoras reales en rendimiento.

En el caso de Mythos, su posicionamiento como modelo “especializado en ciberseguridad” generó la percepción de que superaría ampliamente a modelos generalistas. Sin embargo, GPT-5.5 demuestra que un modelo más amplio puede competir al mismo nivel sin estar específicamente diseñado para ese nicho.

Este tipo de conclusiones refuerza una idea clave para equipos de seguridad: la elección de herramientas de IA no debería basarse únicamente en promesas o branding, sino en pruebas reales y casos de uso concretos.

Implicaciones para el sector

Para profesionales de QA, pentesting y seguridad ofensiva, estos resultados tienen varias lecturas:

  • La diferencia entre modelos puede ser menor de lo esperado
  • La validación práctica es más importante que las especificaciones teóricas
  • Los modelos generalistas siguen siendo altamente competitivos

Además, abre el debate sobre si el futuro de la IA en ciberseguridad pasa por modelos altamente especializados o por sistemas generalistas con capacidades cada vez más refinadas.

Más allá de la comparación

Más que declarar un “ganador”, el estudio subraya algo más relevante: el rendimiento real de los modelos depende en gran medida del contexto, los datos de entrada y la forma en que se utilizan.

En otras palabras, la herramienta importa, pero el uso que se hace de ella sigue siendo el factor decisivo.

En un ecosistema donde la inteligencia artificial avanza a gran velocidad, este tipo de análisis aporta una dosis necesaria de realismo frente al entusiasmo del mercado.

Datos clave

  • GPT-5.5 alcanzó un 71.4% en tareas Expert del AISI, superando el 68.6% de Mythos Preview.
  • La mejora en ciberseguridad es atribuida al aumento general de autonomía y razonamiento en IA.
  • GPT-5.5 logró 3 de 10 intentos en la prueba TLO, comparado con 2 de 10 de Mythos Preview.

¿Por qué importa?

Estos resultados indican que la preocupación sobre la superioridad de un modelo en ciberseguridad podría ser parte de un 'marketing basado en el miedo'. La paridad sugiere que la mejora real se está volviendo más general y menos dependiente de una única tecnología o modelo.

Contenido embebido de: GPT-5.5 iguala a Mythos Preview en nuevas pruebas de ciberseguridad