IntermedioMITRE ATT&CKEvaluationsEDRcomparativaherramientas

ATT&CK Evaluations: Cómo Leer los Resultados de EDR

Guía para interpretar los resultados de MITRE Engenuity ATT&CK Evaluations: cómo leer las tablas de detección, qué significan las categorías (Telemetry, General, Tactic, Technique), y cómo comparar EDRs objetivamente.

MalwareIntel Research··6 min lectura
Serie: MITRE ATT&CK y D3FEND — Parte 29

Las ATT&CK Evaluations son la forma más objetiva de comparar EDRs contra adversarios reales

Las ATT&CK Evaluations de MITRE Engenuity son evaluaciones independientes donde productos de seguridad se prueban contra emulaciones de adversarios documentados. A diferencia de tests de AV tradicionales (que usan muestras de malware), las Evaluations ejecutan cadenas de ataque completas mapeadas a ATT&CK. Los resultados son públicos y transparentes, pero interpretarlos requiere entender las categorías de detección.

Rondas de evaluación

RondaAñoAdversarios emuladosFoco
Round 12019APT3 (Gothic Panda)Espionaje chino
Round 22020APT29 (Cozy Bear)Espionaje ruso (SolarWinds-style)
Round 32021Carbanak + FIN7Cibercrimen financiero
Round 42022Wizard Spider + SandwormRansomware + destructivo
Round 52023TurlaEspionaje ruso sofisticado
Enterprise2024DPRK + CL0P (ransomware)Foco en ransomware moderno
Managed ServicesVariosMismos adversariosEvalúa MDR/MSSP, no solo producto

Categorías de detección

Cada sub-step del ataque se clasifica en categorías de detección:

NONE         → No detectado (peor)
  ↓
TELEMETRY    → Datos disponibles en logs, sin alerta automática
  ↓
GENERAL      → Alerta genérica ("actividad sospechosa")
  ↓
TACTIC       → Alerta que identifica la táctica ATT&CK ("Credential Access")
  ↓
TECHNIQUE    → Alerta que identifica la técnica ("T1003.001 LSASS Memory")
               (mejor)

Qué significa cada categoría para el SOC

CategoríaQué ve el analista SOCAccionable?
NoneNadaNo. Ciego ante esta técnica
TelemetryDatos en logs si busca activamenteSolo para threat hunting (manual)
GeneralAlerta: "comportamiento sospechoso en endpoint X"Parcialmente. Requiere investigación
TacticAlerta: "Credential Access detectado en endpoint X"Sí. Contexto de la fase del ataque
TechniqueAlerta: "LSASS Memory dump (T1003.001) en endpoint X"Totalmente. Contexto exacto + respuesta específica

Subcategorías adicionales

ModificadorSignificado
DelayedDetección llegó con retraso (no en tiempo real)
Configuration ChangeRequirió cambio de configuración del producto (no default)
CorrelatedDetección correlacionó múltiples eventos en una sola alerta

Cómo leer los resultados: ejemplo práctico

Paso de ataque: LSASS credential dump (T1003.001)

Vendor A: TECHNIQUE (alerta: "LSASS Memory Access - T1003.001 - Mimikatz")
  → Ideal. El SOC recibe alerta con técnica, herramienta y contexto.

Vendor B: TELEMETRY (log entry: process access to lsass.exe, GrantedAccess=0x1010)
  → Datos disponibles pero sin alerta. El threat hunter puede encontrarlo.
  → El analista N1 lo pierde entre miles de logs.

Vendor C: GENERAL (alerta: "suspicious process behavior")
  → Alerta pero sin contexto. El analista debe investigar qué pasó.

Vendor D: NONE
  → No detectó nada. Ciego ante LSASS dump.

Qué priorizar al comparar

  1. Technique detections (más que Telemetry): un EDR con muchas detecciones Technique reduce la carga del SOC
  2. Sin Configuration Changes: detecciones que funcionan out-of-the-box son más fiables que las que requieren tuning
  3. Sin Delayed: detección en tiempo real es más valiosa que delayed
  4. Cobertura en tácticas críticas: priorizar Credential Access, Lateral Movement, Defense Evasion sobre Discovery
  5. Protections (blocks): en rondas recientes, MITRE también evalúa si el producto bloquea el ataque

Errores al interpretar Evaluations

Error 1: "Vendor A detectó más, es mejor"

No necesariamente. Detectar más puede significar más falsos positivos en producción. Un EDR que alerta sobre todo genera alert fatigue.

Error 2: "Telemetry cuenta como detección"

Telemetry es datos, no alerta. Si tu SOC no hace threat hunting activo, Telemetry = None en la práctica.

Error 3: "Configuration Change es trampa"

No necesariamente. Algunos config changes son razonables (habilitar un módulo). Otros son forzados para la evaluación y no se aplican en producción.

Error 4: Ignorar el contexto del adversario

Un EDR puede detectar muy bien APT29 (espionaje ruso) pero fallar contra Wizard Spider (ransomware). Evalúa contra los adversarios relevantes para tu sector.

Cómo usar los resultados para seleccionar EDR

Framework de evaluación

Para cada vendor, calcular:

1. Technique Detection Rate = Technique detections / total sub-steps
   → Mide calidad de detección

2. Visibility Rate = (Technique + Tactic + General + Telemetry) / total
   → Mide cobertura total (incluye hunting)

3. Protection Rate = Blocks / protection-eligible steps
   → Mide prevención activa

4. Critical Tactic Coverage = detecciones en Credential Access + Lateral + Impact
   → Mide cobertura en fases críticas de ransomware

5. Analyst Efficiency = Technique detections / (total alerts incluyendo General)
   → Mide ratio de alertas útiles vs ruido

Ejemplo comparación

MétricaVendor AVendor BVendor C
Technique Detection85%70%90%
Visibility95%88%92%
Protection60%75%55%
Critical Tactics90%80%88%
Config Changes205

Vendor A: mejor detección, buena protección, 2 config changes aceptables. Vendor B: peor detección pero mejor protección out-of-box (0 config changes). Vendor C: excelente detección pero requiere mucho tuning (5 config changes).

La elección depende de las capacidades del SOC: si tienes SOC 24/7 maduro, Vendor A o C. Si tienes equipo pequeño, Vendor B (más protección automática, menos tuning).

Recursos

RecursoURL
Resultados evaluacionesattackevals.mitre-engenuity.org
MethodologyMITRE Engenuity evaluation methodology docs
Comparador comunitarioattack-eval-compare (GitHub)

Conclusión

Las ATT&CK Evaluations son la referencia más objetiva para comparar EDRs, pero interpretar los datos requiere entender las categorías de detección y los matices de cada ronda. Technique detections, cobertura en tácticas críticas, y config changes necesarios son las tres métricas más importantes para la selección. Nunca confiar en un solo ranking: analizar los datos crudos contra tu threat model específico.

Fuentes y referencias

  • MITRE Engenuity: ATT&CK Evaluations
  • MITRE Engenuity: "How to Use ATT&CK Evaluations" (guide)
  • SANS: "Interpreting MITRE ATT&CK Evaluations" (2024)

Preguntas frecuentes

Artículos relacionados

Este contenido tiene fines exclusivamente educativos y de investigación en ciberseguridad defensiva. No se proporcionan binarios maliciosos ni payloads ejecutables. El uso indebido de esta información es responsabilidad exclusiva del usuario. Leer disclaimer completo.