CTI-REALM: Un nuevo referente para la generación de reglas de detección integral con agentes basados en IA

Summary: Microsoft ha lanzado CTI-REALM, un marco de evaluación de código abierto para evaluar a los agentes basados en IA en la generación de reglas de detección a partir de informes de inteligencia de amenazas. Se centra en la operativización de las inspecciones de amenazas en detectivas de acción.

CTI-REALM es un marco de evaluación de código abierto diseñado por Microsoft para evaluar a los agentes basados en IA en la generación de reglas de detección a partir de informes de inteligencia de amenazas. Diferente a los referentes existentes que prueban el conocimiento paramétrico, como clasificar técnicas, CTI-REALM se centra en el flujo de trabajo end-to-end de convertir informes de CTI narrativos en detectivas operativas. Utiliza 37 informes de CTI curados y evalúa los modelos a través de puntos de conexión Linux, Azure Kubernetes Service (AKS) e infraestructura de nube Azure.

Key facts

  • Microsoft ha lanzado CTI-REALM como un marco de evaluación de código abierto para evaluar a los agentes basados en IA en la generación de reglas de detección a partir de informes de inteligencia de amenazas.
  • CTI-REALM evalúa el flujo de trabajo end-to-end, incluyendo leer informes de CTI, explorar telemetría, escribir consultas KQL y producir reglas Sigma.
  • El referente utiliza 37 informes de CTI curados a través de puntos de conexión Linux, Azure Kubernetes Service (AKS) e infraestructura de nube Azure.
  • Los resultados de evaluar 16 configuraciones del modelo vanguardista en CTI-REALM-50 muestran que los modelos de Anthropic lideran en todas las categorías.

Why it matters

CTI-REALM importa para las empresas porque proporciona un marco de evaluación detallado que mide la operativización del IA en flujos de trabajo de seguridad, ofreciendo insights sobre dónde se necesitan revisiones humanas y barreras. Este referente apoya un mayor uso seguro ayudando a los equipos a evaluar el rendimiento de los modelos antes de desplegarlos en entornos de producción.

Key metrics

  • Rendimiento del Modelo: Los modelos de Anthropic llevan la delantera con Claude ocupando las tres posiciones top (0.587–0.637)