--- title: Pi 546 - Projeto M7 --- ![](https://s3-sa-east-1.amazonaws.com/lcpi/10ad66c9-adca-4f2f-bd07-2b03e6aecdfd.png) ---------- <center> <font size="+3"><b> Pi 546 - Módulo 7 - Machine Learning</b></font></center> <center> <font size="+2"><b> Crédito para Financiamento de Imóveis - Especificação do Projeto</b></font></center> ---------- ### Deadline - Dia 14/mai, às 23h50. ---------- ### Envio E-mail para rychard.guedes@letscode.com.br, com título *Pi 546 Projeto 07 - Squad XX*. ---------- ### Contextualização A PyCoders Ltda., cada vez mais especializada no mundo da Inteligência Artificial e Ciência de Dados, foi procurada por uma fintech para desenvolver um projeto de concessão de crédito para imóveis. Nesse projeto, espera-se a criação de valor que discrimine ao máximo os bons pagadores dos maus pagadores. Para isso, foi disponibilizada uma base de dados com milhares de casos de empréstimos do passado com diversas características dos clientes. Devem ser entregues um modelo. Por questões contratuais, o pagamento será realizado baseado no desempenho (ROC AUC) do modelo ao longo do tempo. ---------- ### Base de Dados Serão utilizadas bases de dados com informações cadastrais, histórico de crédito e balanços financeiros de diversos clientes. O conjunto de dados está dividido em treino e teste, todos no formato csv. Toda a modelagem, validação e avaliação deve ser feita em cima do conjunto de treino, subdividindo tal base como a squad achar melhor. Existe também os das variáveis explicativas, para ajudar no desenvolvimento do projeto. Serão necessários diversos cruzamentos e vocês estão livres para usar os dados da maneira que acharem mais conveniente. [Baixar](https://drive.google.com/file/d/17fyteuN2MdGdbP5_Xq_sySN_yH91vTup/view?usp=sharing) ---------- ### Definições #### Nota A nota final da squad será composta por: - Desempenho do modelo em uma base de label escondida (50 pontos), sendo avaliado o Gini. - A squad com melhor desempenho na base escondida receberá 50 pontos; - A squad com segundo melhor desempenho na base escondida receberá 40 pontos; - A squad com terceiro melhor desempenho na base escondida receberá 30 pontos; - A squad com quarto melhor desempenho na base escondida receberá 25 pontos; - Fluxo para decisão de qual modelo será efetivamente usado (50 pontos) - Serão avaliados todo o fluxo de modelagem, incluindo (mas não exclusivamente) pré-processamento, métricas, seleção de modelo (25 pontos); - Os fatos que levam a squad a decisão de escolha de um modelo final (15 pontos); - Motivos que levaram a squad a usar ou não usar determinadas variáveis (estamos simulando uma financeira, então pensem em questões de ética e imagem da empresa, por exemplo) (10 pontos). #### Regras de Entrega 1. Deve ser entregue uma base com as predições para a base de teste. - Essa base deverá ser um Data Frame com duas colunas: a primeira sendo o SK_ID_CURR e a segunda a probabilidade de inadimplência. - :WARNING: Entregar as predições com a probabilidade da inadimplência ocorrer. 2. Devem ser entregues (i) um notebook com a análise exploratória e construção das variáveis explicativas; e (ii) um notebook com a análise de modelagem, mostrando o processo das avaliações dos modelos e os motivos das decisões tomadas sobre qual modelo usar. 3. Um vídeo de até 15 min fazendo o walk-through desse notebook (não se preocupem em criar a apresentação ou coisas do tipo, apenas gravem a ---------- ### Dicas - Explorar o conceito das variáveis: possui risco de imagem uma empresa utilizar variável de idade para determinar risco de crédito? Vale a pena trazer a variável para o modelo? - Criar novas variáveis usando as variáveis que já estão na base: criatividade tem que ser mato. - Conversar com Rychard para tirar dúvidas sobre o projeto. ---------- ### Squads - Amarela - Eduardo Hermman de Freitas - Marjorie Yumie Noda Tamura - Ricardo Pacheco Nagamatsu - Azul - Vinicius Lande de Sales - Jessica Ludiane Andreotti - Gabriel Huzian - Verde - Octavio Loures Bellozi - Adriano Gonçalves da Silva - Eduardo Ozanique Guarizo - Jeferson de Paula Bressan - Vermelha - Joyce de Freitas Grasselli - Matheus Facci - Weslley Mateus dos Santos ---------- ### Ranking | Posição | Squad | Gini | Pontos | | ------- | -------- | ----- | ------ | | 1 | X | Y | 50 | | 2 | X | Y | 40 | | 3 | X | Y | 30 | | 4 | X | Y | 25 |