Inteligencia artificial aplicada a detección
Guía práctica para construir tu primer clasificador de malware con Python y scikit-learn. Desde la carga de datasets hasta la evaluación del modelo con métricas reales de detección, usando Random Forest y features estáticas de binarios PE.
Técnicas avanzadas de extracción de features de binarios PE para modelos de Machine Learning: headers, imports, secciones, entropía, histogramas de bytes, strings, recursos y metadata. Cómo convertir un ejecutable en un vector numérico que un clasificador pueda procesar.
Aplicación de redes neuronales profundas a la detección de malware: CNN para clasificación de binarios como imágenes en escala de grises, LSTM para secuencias de API calls dinámicas, y arquitecturas híbridas que combinan análisis estático y dinámico.
Cómo aplicar procesamiento de lenguaje natural (NLP) para extraer IOCs, TTPs y entidades de amenaza de informes CTI en texto libre. Named Entity Recognition, clasificación de texto y extracción de relaciones aplicados a Threat Intelligence.
Aplicación de algoritmos de clustering (DBSCAN, HDBSCAN, K-Means) para agrupar muestras de malware en familias sin etiquetas previas. Reducción de dimensionalidad con t-SNE y UMAP, métricas de evaluación de clusters y aplicaciones en threat hunting.
Aplicación de Graph Neural Networks (GNN) al análisis de malware: construcción de call graphs, control flow graphs, grafos de comportamiento, node embeddings con GCN y GAT, y detección de familias a través de la estructura del código.
Técnicas adversariales que el malware usa para evadir modelos de Machine Learning: ataques de evasión, envenenamiento de datos, ataques de extracción de modelo. Defensas prácticas y estrategias de robustez para detección de malware en producción.
Aplicaciones prácticas de Large Language Models en operaciones de seguridad: triaje de alertas, análisis de malware asistido, generación de reportes, enriquecimiento de IOCs, hunting queries. Riesgos de prompt injection, alucinaciones y soberanía de datos.
Por qué la explicabilidad es crítica en detección de malware. SHAP values, LIME, feature importance, decision trees interpretables y requisitos de compliance para modelos ML en ciberseguridad.
Pipeline MLOps completo para detección de malware en producción. Training pipeline, model versioning con MLflow, monitoreo de concept drift, retraining automatizado y CI/CD para modelos de ML en ciberseguridad.
Guía completa de datasets públicos para entrenar modelos de detección de malware: EMBER, SOREL-20M, BODMAS, MalwareBazaar, VirusShare. Métricas de evaluación, leaderboards y cómo elegir el dataset adecuado para tu investigación.
Análisis de la carrera armamentística entre IA ofensiva y defensiva en ciberseguridad. Malware autónomo, deepfake phishing, detección behavioral con ML, respuesta automatizada, regulación y predicciones para los próximos años.