1. Obtención, Selección y Tratamiento de Datos
- Filtrado de datos: Se eliminan transacciones irrelevantes, como aquellas de pequeño monto con bajo riesgo de fraude.
- Reducción de redundancia: Se consolidan registros duplicados y se emplean técnicas de hashing para identificación eficiente.
- Compresión de datos: Uso del formato Parquet para optimizar el almacenamiento y la consulta de datos.
- Selección activa de datos: Se utiliza muestreo por incertidumbre para etiquetar solo las transacciones con mayor probabilidad de ser fraudulentas, reduciendo la cantidad de datos procesados.
2. Desarrollo, Entrenamiento y Gestión del Modelo
- Selección eficiente de arquitecturas: Se elige un modelo basado en LightGBM en lugar de redes neuronales profundas, logrando alta precisión con menor consumo computacional.
- Pruning y Quantization: Se reducen los parámetros del modelo eliminando nodos innecesarios y representando pesos en 8 bits en vez de 32 bits.
- Entrenamiento distribuido eficiente: Se implementa aprendizaje federado, permitiendo el entrenamiento en dispositivos locales sin transferir datos a la nube.
- Gestor de hiperparámetros eficiente: Uso de optimización bayesiana en lugar de grid search para reducir las iteraciones de entrenamiento.
3. Implementación de Modelos Pre-entrenados y Fundacionales
- Transfer Learning: Se reutiliza un modelo preentrenado en detección de anomalías financieras y se ajusta con datos específicos de la empresa.
- Knowledge Distillation: Se entrena un modelo compacto basado en la versión optimizada de un modelo más grande.
4. Despliegue y Evaluación Energética
- Inferencia optimizada: Se utiliza batching para procesar varias transacciones en paralelo, reduciendo el uso de recursos.
- Estrategias de despliegue sostenible: Se opta por servidores cloud con energía renovable y se implementa una estrategia de escalado automático para ajustar el uso de recursos según la demanda.
- Monitoreo del impacto energético: Se mide el consumo de energía y carbono emitido, realizando ajustes para minimizar el impacto ambiental.