# Plan de Trabajo: Construcción de Primera Versión del Modelo de Predicción de Pago y No Pago ## Semana 1: Preparación y Recopilación de Datos - **Responsables:** Data Engineer **Entregables:** - Entender los requisitos de datos específicos para la primera versión del modelo. - Evaluar diccionarios de datos y construir el mapa de datos a utilizar para la construcción de consultas. - Evaluar la disponibilidad de datos de DataCrédito y definir procesos de extracción y almacenamiento. **Detalles Adicionales:** - El proyecto se trabaja sobre Databricks utilizando PySpark. - Los datos se exportarán en formato Parquet para su eficiente manejo. - Durante el entrenamiento, se registrará y reportará en MLflow. - Se deberá tener cuidado de no utilizar la biblioteca pandas en el proceso. ## Semana 2: Preprocesamiento y Limpieza de Datos - **Responsables:** Analista de Datos 1, Analista de Datos 2 **Entregables:** - Extracción y preprocesamiento de datos de DataCrédito para la primera versión. - Limpieza de datos y manejo de valores faltantes. - Informe de Análisis de Variables para la primera versión. **Detalles Adicionales:** - El preprocesamiento se realizará utilizando PySpark en Databricks. ## Semana 3: Análisis Exploratorio de Datos (EDA) - **Responsables:** Analista de Datos 1, Analista de Datos 2 **Entregables:** - Realizar un EDA para comprender la distribución y relaciones de las variables en la primera versión. - Identificar patrones y características clave de los datos. - Informe de Correlaciones y Visualizaciones EDA. **Detalles Adicionales:** - El análisis se realizará utilizando PySpark en Databricks. ## Semana 4: Construcción y Evaluación de Modelos - **Responsables:** Analista de Datos 1, Analista de Datos 2 **Entregables:** - Desarrollar modelos iniciales de predicción para la primera versión. - Evaluar y comparar el rendimiento de los modelos utilizando métricas apropiadas. - Informe de Modelos y Resultados de Evaluación para la primera versión. **Detalles Adicionales:** - La construcción y evaluación de modelos se llevará a cabo utilizando PySpark en Databricks. ## Semana 5: Optimización de Modelos - **Responsables:** Analista de Datos 1, Analista de Datos 2 **Entregables:** - Optimizar los modelos seleccionados para la primera versión. - Asegurar que los modelos sean robustos y generalicen bien. **Detalles Adicionales:** - La optimización se realizará utilizando PySpark en Databricks. ## Semana 6: Implementación y Validación en Producción - **Responsables:** Data Engineer, Equipo de Infraestructura **Entregables:** - Preparar la infraestructura para implementar la primera versión del modelo en producción. - Desplegar y validar el modelo en un ambiente de producción controlado. - Informe de Validación en Producción y Aprobación de la Primera Versión. **Detalles Adicionales:** - La implementación se realizará en Databricks, asegurando que el modelo sea compatible con la infraestructura de producción. - Se gestionará la entrega formal del modelo a DataCrédito como artefacto para su incorporación en el core de Tangelo. ## Semana 7-8: Pruebas Finales y Aprobación - **Responsables:** Equipo Interno **Entregables:** - Realizar pruebas finales y ajustes según sea necesario. - Obtener la aprobación final para el despliegue completo. **Nota:** Este plan de trabajo se enfoca en la construcción de la primera versión del modelo en un período de 8 semanas. Los entregables y las reuniones con stakeholders se alinean con la metodología CRISP-DM y el ciclo de vida del desarrollo de Machine Learning, y se contextualizan como una versión inicial del modelo.