¿Qué son las ATT&CK Evaluations?

Son evaluaciones independientes realizadas por MITRE Engenuity donde productos de seguridad (EDR/XDR) se prueban contra emulaciones de adversarios reales (APT3, APT29, Turla, Wizard Spider + Sandworm). MITRE no da rankings ni puntuaciones: publica los datos crudos y cada organización interpreta.

¿MITRE Evaluations dice cuál es el mejor EDR?

No. MITRE explícitamente no rankea productos. Publica datos de detección por técnica para que cada organización evalúe según sus necesidades. Un EDR que detecta todo con muchos falsos positivos puede no ser mejor que uno con menos detecciones pero más precisas.

¿Qué significan las categorías de detección (Telemetry, General, Tactic, Technique)?

Telemetry = datos disponibles pero sin alerta. General = alerta genérica sin contexto ATT&CK. Tactic = alerta que identifica la táctica. Technique = alerta que identifica la técnica específica. Technique es la más valiosa para un SOC porque da contexto preciso.

IntermedioMITRE ATT&CKEvaluationsEDRcomparativaherramientas

ATT&CK Evaluations: Cómo Leer los Resultados de EDR

Guía para interpretar los resultados de MITRE Engenuity ATT&CK Evaluations: cómo leer las tablas de detección, qué significan las categorías (Telemetry, General, Tactic, Technique), y cómo comparar EDRs objetivamente.

MalwareIntel Research·27 de mayo de 2026·6 min lectura

Serie: MITRE ATT&CK y D3FEND — Parte 29

Las ATT&CK Evaluations son la forma más objetiva de comparar EDRs contra adversarios reales

Las ATT&CK Evaluations de MITRE Engenuity son evaluaciones independientes donde productos de seguridad se prueban contra emulaciones de adversarios documentados. A diferencia de tests de AV tradicionales (que usan muestras de malware), las Evaluations ejecutan cadenas de ataque completas mapeadas a ATT&CK. Los resultados son públicos y transparentes, pero interpretarlos requiere entender las categorías de detección.

Rondas de evaluación

Ronda	Año	Adversarios emulados	Foco
Round 1	2019	APT3 (Gothic Panda)	Espionaje chino
Round 2	2020	APT29 (Cozy Bear)	Espionaje ruso (SolarWinds-style)
Round 3	2021	Carbanak + FIN7	Cibercrimen financiero
Round 4	2022	Wizard Spider + Sandworm	Ransomware + destructivo
Round 5	2023	Turla	Espionaje ruso sofisticado
Enterprise	2024	DPRK + CL0P (ransomware)	Foco en ransomware moderno
Managed Services	Varios	Mismos adversarios	Evalúa MDR/MSSP, no solo producto

Categorías de detección

Cada sub-step del ataque se clasifica en categorías de detección:

NONE         → No detectado (peor)
  ↓
TELEMETRY    → Datos disponibles en logs, sin alerta automática
  ↓
GENERAL      → Alerta genérica ("actividad sospechosa")
  ↓
TACTIC       → Alerta que identifica la táctica ATT&CK ("Credential Access")
  ↓
TECHNIQUE    → Alerta que identifica la técnica ("T1003.001 LSASS Memory")
               (mejor)

Qué significa cada categoría para el SOC

Categoría	Qué ve el analista SOC	Accionable?
None	Nada	No. Ciego ante esta técnica
Telemetry	Datos en logs si busca activamente	Solo para threat hunting (manual)
General	Alerta: "comportamiento sospechoso en endpoint X"	Parcialmente. Requiere investigación
Tactic	Alerta: "Credential Access detectado en endpoint X"	Sí. Contexto de la fase del ataque
Technique	Alerta: "LSASS Memory dump (T1003.001) en endpoint X"	Totalmente. Contexto exacto + respuesta específica

Subcategorías adicionales

Modificador	Significado
Delayed	Detección llegó con retraso (no en tiempo real)
Configuration Change	Requirió cambio de configuración del producto (no default)
Correlated	Detección correlacionó múltiples eventos en una sola alerta

Cómo leer los resultados: ejemplo práctico

Paso de ataque: LSASS credential dump (T1003.001)

Vendor A: TECHNIQUE (alerta: "LSASS Memory Access - T1003.001 - Mimikatz")
  → Ideal. El SOC recibe alerta con técnica, herramienta y contexto.

Vendor B: TELEMETRY (log entry: process access to lsass.exe, GrantedAccess=0x1010)
  → Datos disponibles pero sin alerta. El threat hunter puede encontrarlo.
  → El analista N1 lo pierde entre miles de logs.

Vendor C: GENERAL (alerta: "suspicious process behavior")
  → Alerta pero sin contexto. El analista debe investigar qué pasó.

Vendor D: NONE
  → No detectó nada. Ciego ante LSASS dump.

Qué priorizar al comparar

Technique detections (más que Telemetry): un EDR con muchas detecciones Technique reduce la carga del SOC
Sin Configuration Changes: detecciones que funcionan out-of-the-box son más fiables que las que requieren tuning
Sin Delayed: detección en tiempo real es más valiosa que delayed
Cobertura en tácticas críticas: priorizar Credential Access, Lateral Movement, Defense Evasion sobre Discovery
Protections (blocks): en rondas recientes, MITRE también evalúa si el producto bloquea el ataque

Errores al interpretar Evaluations

Error 1: "Vendor A detectó más, es mejor"

No necesariamente. Detectar más puede significar más falsos positivos en producción. Un EDR que alerta sobre todo genera alert fatigue.

Error 2: "Telemetry cuenta como detección"

Telemetry es datos, no alerta. Si tu SOC no hace threat hunting activo, Telemetry = None en la práctica.

Error 3: "Configuration Change es trampa"

No necesariamente. Algunos config changes son razonables (habilitar un módulo). Otros son forzados para la evaluación y no se aplican en producción.

Error 4: Ignorar el contexto del adversario

Un EDR puede detectar muy bien APT29 (espionaje ruso) pero fallar contra Wizard Spider (ransomware). Evalúa contra los adversarios relevantes para tu sector.

Cómo usar los resultados para seleccionar EDR

Framework de evaluación

Para cada vendor, calcular:

1. Technique Detection Rate = Technique detections / total sub-steps
   → Mide calidad de detección

2. Visibility Rate = (Technique + Tactic + General + Telemetry) / total
   → Mide cobertura total (incluye hunting)

3. Protection Rate = Blocks / protection-eligible steps
   → Mide prevención activa

4. Critical Tactic Coverage = detecciones en Credential Access + Lateral + Impact
   → Mide cobertura en fases críticas de ransomware

5. Analyst Efficiency = Technique detections / (total alerts incluyendo General)
   → Mide ratio de alertas útiles vs ruido

Ejemplo comparación

Métrica	Vendor A	Vendor B	Vendor C
Technique Detection	85%	70%	90%
Visibility	95%	88%	92%
Protection	60%	75%	55%
Critical Tactics	90%	80%	88%
Config Changes	2	0	5

Vendor A: mejor detección, buena protección, 2 config changes aceptables. Vendor B: peor detección pero mejor protección out-of-box (0 config changes). Vendor C: excelente detección pero requiere mucho tuning (5 config changes).

La elección depende de las capacidades del SOC: si tienes SOC 24/7 maduro, Vendor A o C. Si tienes equipo pequeño, Vendor B (más protección automática, menos tuning).

Recursos

Recurso	URL
Resultados evaluaciones	attackevals.mitre-engenuity.org
Methodology	MITRE Engenuity evaluation methodology docs
Comparador comunitario	attack-eval-compare (GitHub)

Conclusión

Las ATT&CK Evaluations son la referencia más objetiva para comparar EDRs, pero interpretar los datos requiere entender las categorías de detección y los matices de cada ronda. Technique detections, cobertura en tácticas críticas, y config changes necesarios son las tres métricas más importantes para la selección. Nunca confiar en un solo ranking: analizar los datos crudos contra tu threat model específico.

Fuentes y referencias

MITRE Engenuity: ATT&CK Evaluations
MITRE Engenuity: "How to Use ATT&CK Evaluations" (guide)
SANS: "Interpreting MITRE ATT&CK Evaluations" (2024)