# Plan de Trabajo: Construcción de Primera Versión del Modelo de Predicción de Pago y No Pago
## Semana 1: Preparación y Recopilación de Datos
- **Responsables:** Data Engineer
**Entregables:**
- Entender los requisitos de datos específicos para la primera versión del modelo.
- Evaluar diccionarios de datos y construir el mapa de datos a utilizar para la construcción de consultas.
- Evaluar la disponibilidad de datos de DataCrédito y definir procesos de extracción y almacenamiento.
**Detalles Adicionales:**
- El proyecto se trabaja sobre Databricks utilizando PySpark.
- Los datos se exportarán en formato Parquet para su eficiente manejo.
- Durante el entrenamiento, se registrará y reportará en MLflow.
- Se deberá tener cuidado de no utilizar la biblioteca pandas en el proceso.
## Semana 2: Preprocesamiento y Limpieza de Datos
- **Responsables:** Analista de Datos 1, Analista de Datos 2
**Entregables:**
- Extracción y preprocesamiento de datos de DataCrédito para la primera versión.
- Limpieza de datos y manejo de valores faltantes.
- Informe de Análisis de Variables para la primera versión.
**Detalles Adicionales:**
- El preprocesamiento se realizará utilizando PySpark en Databricks.
## Semana 3: Análisis Exploratorio de Datos (EDA)
- **Responsables:** Analista de Datos 1, Analista de Datos 2
**Entregables:**
- Realizar un EDA para comprender la distribución y relaciones de las variables en la primera versión.
- Identificar patrones y características clave de los datos.
- Informe de Correlaciones y Visualizaciones EDA.
**Detalles Adicionales:**
- El análisis se realizará utilizando PySpark en Databricks.
## Semana 4: Construcción y Evaluación de Modelos
- **Responsables:** Analista de Datos 1, Analista de Datos 2
**Entregables:**
- Desarrollar modelos iniciales de predicción para la primera versión.
- Evaluar y comparar el rendimiento de los modelos utilizando métricas apropiadas.
- Informe de Modelos y Resultados de Evaluación para la primera versión.
**Detalles Adicionales:**
- La construcción y evaluación de modelos se llevará a cabo utilizando PySpark en Databricks.
## Semana 5: Optimización de Modelos
- **Responsables:** Analista de Datos 1, Analista de Datos 2
**Entregables:**
- Optimizar los modelos seleccionados para la primera versión.
- Asegurar que los modelos sean robustos y generalicen bien.
**Detalles Adicionales:**
- La optimización se realizará utilizando PySpark en Databricks.
## Semana 6: Implementación y Validación en Producción
- **Responsables:** Data Engineer, Equipo de Infraestructura
**Entregables:**
- Preparar la infraestructura para implementar la primera versión del modelo en producción.
- Desplegar y validar el modelo en un ambiente de producción controlado.
- Informe de Validación en Producción y Aprobación de la Primera Versión.
**Detalles Adicionales:**
- La implementación se realizará en Databricks, asegurando que el modelo sea compatible con la infraestructura de producción.
- Se gestionará la entrega formal del modelo a DataCrédito como artefacto para su incorporación en el core de Tangelo.
## Semana 7-8: Pruebas Finales y Aprobación
- **Responsables:** Equipo Interno
**Entregables:**
- Realizar pruebas finales y ajustes según sea necesario.
- Obtener la aprobación final para el despliegue completo.
**Nota:** Este plan de trabajo se enfoca en la construcción de la primera versión del modelo en un período de 8 semanas. Los entregables y las reuniones con stakeholders se alinean con la metodología CRISP-DM y el ciclo de vida del desarrollo de Machine Learning, y se contextualizan como una versión inicial del modelo.