Avanzadopapersmachine learningclasificacióndetección

Machine Learning para clasificación de malware: survey

Survey de técnicas de machine learning para clasificación de malware: features, modelos, datasets, adversarial attacks y estado del arte 2024-2026.

MalwareIntel Research·26 de mayo de 2026·4 min lectura

Serie: Papers Técnicos — Parte 14

Estado del arte

La clasificación de malware con ML ha evolucionado de modelos simples basados en features manuales (Random Forest sobre imports/sections) a arquitecturas deep learning que procesan bytes crudos (MalConv) o representaciones gráficas (malware visualization). Este survey compila las líneas de investigación más relevantes entre 2020 y 2026.

Enfoques principales

1. Feature engineering + modelos clásicos

Idea: extraer features de binarios (headers PE, imports, secciones, strings, entropy) y entrenar modelos clásicos de ML.

Features comunes:

Estáticas: headers PE, imports, exports, secciones (nombre, tamaño, entropy), strings
Dinámicas: API calls durante ejecución, syscalls, operaciones de archivo/registro/red
Byte-level: n-gramas de bytes, histograma de opcodes, entropy por sección

Modelos: Random Forest, Gradient Boosting (XGBoost/LightGBM), SVM

Estado: sigue siendo el enfoque más práctico para producción. LightGBM sobre EMBER features da ~97% accuracy con inference en milisegundos. Interpretable y rápido.

2. Deep learning end-to-end

Idea: alimentar el modelo directamente con bytes crudos del binario, sin feature engineering.

Arquitecturas clave:

MalConv (Raff et al., 2018): CNN 1D sobre bytes raw. Input: primeros 2MB del PE como secuencia de bytes. Aprende patrones discriminativos sin features manuales.
DMDS: detección por streams de bytes con redes recurrentes
Transformers (2023-2026): modelos tipo BERT pre-entrenados sobre corpora de binarios. Estado del arte en accuracy pero costosos en inference.

Ventaja: no requiere expertise en feature engineering. El modelo descubre features automáticamente.

Desventaja: menos interpretable, más lento en inference, vulnerable a adversarial examples triviales (añadir bytes al final del PE).

3. Malware visualization

Idea: convertir binarios en imágenes (cada byte = un pixel con valor 0-255) y usar CNNs de clasificación de imágenes.

Técnicas:

Binary texture: binario como imagen en escala de grises
Control flow graph rendering: grafos de flujo como imágenes
API call sequences como spectrogramas

Ventaja: reutiliza arquitecturas maduras de computer vision (ResNet, EfficientNet).

Desventaja: pierde información estructural del PE. Más un truco que una solución robusta. Vulnerable a padding.

4. Graph-based approaches

Idea: representar binarios como grafos (control flow graph, call graph, data dependency graph) y usar Graph Neural Networks para clasificación.

Ventaja: captura relaciones estructurales que los modelos secuenciales pierden.

Estado: investigación activa, menos maduro que feature engineering pero prometedor.

Datasets públicos

Dataset	Muestras	Features	Acceso
EMBER	1.1M	PE features precalculadas	GitHub
SOREL-20M	20M	Labels + features	GitHub
MalwareDB (VirusTotal)	100M+	Hashes + metadata	API (rate limited)
BODMAS	58K	Features + timestamps	Paper
Windows PE Malware	200K+	Binarios raw	VirusShare

Problemas abiertos

Concept drift

El malware evoluciona. Un modelo entrenado con muestras de 2024 tiene degradación de rendimiento con malware de 2026. La re-entrenamiento continuo es necesario pero costoso.

Adversarial robustness

Técnicas triviales como append bytes, modify unused headers o section injection pueden evadir modelos ML sin cambiar la funcionalidad del malware. Los modelos deben ser robustos a estas perturbaciones.

Explainability

En producción, un analista necesita saber POR QUÉ el modelo clasificó algo como malware. "Porque el modelo dijo 0.97" no es suficiente para tomar acción. SHAP, LIME y attention maps son técnicas de interpretabilidad, pero no están estandarizadas.

Malware polyglot

Malware empaquetado, cifrado o metamórfico cambia de apariencia en cada instancia. Los modelos basados en apariencia (bytes, strings) fallan. Modelos basados en comportamiento (API calls, syscalls) son más robustos pero requieren ejecución dinámica.

Escala

VirusTotal procesa 2M+ muestras diarias. Los modelos de producción necesitan inference < 100ms por muestra. Transformers grandes no cumplen esta restricción. LightGBM/XGBoost sí.

Recomendaciones prácticas

Para producción: LightGBM sobre EMBER features. Rápido, interpretable, 97% accuracy
Para investigación: MalConv o Transformers sobre bytes raw. Mejor accuracy, más lento
Para clustering: ssdeep/TLSH para agrupamiento por similitud, luego ML para clasificación de clusters
Siempre: temporal split (entrenar pasado, testear futuro), evaluar FP rate, no solo accuracy

Veredicto

ML para malware es maduro para features clásicas (LightGBM/EMBER) y activo en deep learning (Transformers). El gap principal no es accuracy sino robustez: adversarial evasion y concept drift son problemas sin solución definitiva. Para producción, modelos clásicos sobre features extraídas siguen siendo la opción más pragmática en 2026.

Este contenido tiene fines exclusivamente educativos y de investigación en ciberseguridad defensiva. No se proporcionan binarios maliciosos ni payloads ejecutables. El uso indebido de esta información es responsabilidad exclusiva del usuario. Leer disclaimer completo.