Malware Source Code: repositorios educativos en GitHub
Repositorios de código fuente de malware con fines educativos: Conti leaks, malware histórico, PoC de técnicas y frameworks de investigación. Qué estudiar y qué evitar.
Por qué estudiar código fuente de malware
Analizar binarios compilados con IDA/Ghidra es reverse engineering. Leer el código fuente original es entender la intención del desarrollador. Cuando tienes el source code, ves las decisiones de diseño, los comentarios del autor, las funciones sin usar, los bugs. Es un nivel de comprensión que el análisis de binarios no puede igualar.
Varios eventos han hecho que código fuente de malware sea accesible para investigación: los Conti leaks (2022), las filtraciones de herramientas de Hacking Team y Shadow Brokers, y proyectos educativos deliberados donde investigadores publican PoCs de técnicas.
Disclaimer: todo el código referenciado en este artículo es para estudio defensivo. Compilar, distribuir o ejecutar malware contra sistemas sin autorización es ilegal.
Repositorios clave
1. vx-underground/MalwareSourceCode
Repo: vx-underground/MalwareSourceCode Stars: 15,000+ | Estado: archivado (contenido estático)
La colección más grande de código fuente de malware histórico en GitHub. Incluye source code de familias icónicas: Zeus, Mirai, TinyNuke, Hidden Tear y decenas más. Organizado por tipo (botnet, ransomware, RAT, rootkit).
Valor educativo: ver cómo se implementaban técnicas de C2, cifrado, persistencia e inyección en diferentes épocas y lenguajes.
Precaución: algunas muestras pueden ser compilables. Nunca compiles ni ejecutes fuera de un sandbox aislado sin networking.
2. Conti Leaks
Los leaks de Conti (2022) expusieron el código fuente completo del ransomware Conti, herramientas internas, playbooks de operación y chats del grupo. Varios repositorios conservan este material para investigación.
Valor educativo: es el caso de estudio más completo de una operación ransomware-as-a-service. Ves el código del locker, el panel de administración, las instrucciones para afiliados, las herramientas de post-exploitation. Ningún informe CTI puede igualar la profundidad de tener el source code completo.
Qué estudiar:
- Implementación del cifrado (AES-256 + RSA)
- Mecanismos de propagación en red (SMB, WMI)
- Estructura del builder (cómo generan payloads personalizados)
- Playbooks de operación (cómo atacan paso a paso)
3. Proyectos PoC educativos
Repositorios donde investigadores publican proof-of-concept de técnicas específicas para investigación defensiva:
- Process injection techniques: colecciones de implementaciones de las diferentes técnicas de inyección (classic DLL injection, process hollowing, APC injection, etc.)
- Persistence techniques: implementaciones de mecanismos de persistencia en Windows para que los defensores entiendan qué monitorizar
- Evasion techniques: PoCs de técnicas anti-AV, anti-EDR, unhooking, direct syscalls
Valor: cada PoC es un test case para tus reglas de detección. Si tu EDR/SIEM no detecta el PoC, tienes un gap.
4. Malware histórico
Código fuente de malware histórico con valor educativo:
| Malware | Año | Tipo | Valor educativo |
|---|---|---|---|
| Morris Worm | 1988 | Worm | Primer worm de Internet, técnicas de propagación |
| Mirai | 2016 | Botnet IoT | C2 simple, credential stuffing, DDoS |
| Zeus | 2011 | Banking trojan | Web injection, form grabbing |
| TinyNuke | 2017 | Banking trojan | Evolución moderna de Zeus |
| Hidden Tear | 2015 | Ransomware | Ransomware "educativo" (controversialmente publicado) |
5. Frameworks de investigación
No son malware per se, pero implementan técnicas equivalentes para red teaming y investigación:
- Cobalt Strike (comercial, pero documentado): framework C2 usado tanto por red teams como por APTs
- Sliver (open source): alternativa C2 open source, código Go legible
- Havoc (open source): C2 framework moderno, buen código para estudiar evasión
Cómo estudiar código fuente de malware
Método recomendado
- Elige una familia: empieza con algo simple (Mirai, un RAT básico)
- Lee sin ejecutar: navega el código en GitHub o en un editor. No compiles
- Identifica componentes: builder, implant, C2 server, módulos
- Mapea a ATT&CK: cada función → qué técnica implementa
- Escribe detecciones: para cada técnica, cómo la detectarías (YARA, Sigma, EDR)
- Documenta: tus notas son tu knowledge base personal
Errores a evitar
- Compilar y ejecutar: no necesitas ejecutar para aprender. Lee el código
- Estudiar todo a la vez: elige un componente (por ejemplo, el módulo de persistencia) y profundiza
- Ignorar el contexto: el código solo cobra sentido con el informe CTI que lo acompaña
- No mapear a defensa: si lees source code sin pensar en detección, es entretenimiento, no formación
Veredicto
Leer código fuente de malware es el equivalente a que un médico estudie anatomía antes de hacer cirugía. No es obligatorio para un analista SOC de nivel 1, pero es transformador para cualquiera que quiera profundizar en análisis de malware, threat hunting o detection engineering. Los Conti leaks son probablemente el mejor case study disponible. Mirai es el mejor punto de partida por su simplicidad.
Preguntas frecuentes
Este contenido tiene fines exclusivamente educativos y de investigación en ciberseguridad defensiva. No se proporcionan binarios maliciosos ni payloads ejecutables. El uso indebido de esta información es responsabilidad exclusiva del usuario. Leer disclaimer completo.