--- title: Pi 545 - Projeto M7 --- ![](https://s3-sa-east-1.amazonaws.com/lcpi/10ad66c9-adca-4f2f-bd07-2b03e6aecdfd.png) ---------- <center> <font size="+3"><b> Pi 545 - Machine Learning</b></font></center> <center> <font size="+2"><b> Crédito para Financiamento de Imóveis - Especificação do Projeto</b></font></center> ---------- ### Deadline - Dia 04-jul, às 18h00. ---------- ### Envio E-mail para filipe.furlan@letscode.com.br, com título *Pi 545 Projeto 07 - Squad XX*. ---------- ### Contextualização A PyCoders Ltda., cada vez mais especializada no mundo da Inteligência Artificial e Ciência de Dados, foi procurada por uma fintech para desenvolver um projeto de concessão de crédito para imóveis. Nesse projeto, espera-se a criação de valor que discrimine ao máximo os bons pagadores dos maus pagadores. Para isso, foi disponibilizada uma base de dados com milhares de casos de empréstimos do passado com diversas características dos clientes. Devem ser entregues um modelo. Por questões contratuais, o pagamento será realizado baseado no desempenho (ROC AUC) do modelo ao longo do tempo. ---------- ### Base de Dados Serão utilizadas bases de dados com informações cadastrais, histórico de crédito e balanços financeiros de diversos clientes. O conjunto de dados está dividido em treino e teste, todos no formato csv. Toda a modelagem, validação e avaliação deve ser feita em cima do conjunto de treino, subdividindo tal base como a squad achar melhor. Existe também os das variáveis explicativas, para ajudar no desenvolvimento do projeto. Serão necessários diversos cruzamentos e vocês estão livres para usar os dados da maneira que acharem mais conveniente. [Baixar](https://drive.google.com/file/d/17fyteuN2MdGdbP5_Xq_sySN_yH91vTup/view?usp=sharing) ---------- ### Definições #### Nota A nota final da squad será composta por: - Desempenho do modelo em uma base de label escondida (50 pontos), sendo avaliado o Gini. - A squad com melhor desempenho na base escondida receberá 50 pontos; - A squad com segundo melhor desempenho na base escondida receberá 40 pontos; - A squad com terceiro melhor desempenho na base escondida receberá 30 pontos; - A squad com quarto melhor desempenho na base escondida receberá 25 pontos; - Fluxo para decisão de qual modelo será efetivamente usado (50 pontos) - Serão avaliados todo o fluxo de modelagem, incluindo (mas não exclusivamente) pré-processamento, métricas, seleção de modelo (25 pontos); - Os fatos que levam a squad a decisão de escolha de um modelo final (15 pontos); - Motivos que levaram a squad a usar ou não usar determinadas variáveis (estamos simulando uma financeira, então pensem em questões de ética e imagem da empresa, por exemplo) (10 pontos). #### Regras de Entrega 1. Deve ser entregue uma base com as predições para a base de teste. - Essa base deverá ser um Data Frame com duas colunas: a primeira sendo o SK_ID_CURR e a segunda a probabilidade de inadimplência. - :WARNING: Entregar as predições com a probabilidade da inadimplência ocorrer. 2. Devem ser entregues (i) um notebook com a análise exploratória e construção das variáveis explicativas; e (ii) um notebook com a análise de modelagem, mostrando o processo das avaliações dos modelos e os motivos das decisões tomadas sobre qual modelo usar. 3. Um vídeo de até 15 min fazendo o walk-through desse notebook (não se preocupem em criar a apresentação ou coisas do tipo, apenas gravem a ---------- ### Dicas - Explorar o conceito das variáveis: possui risco de imagem uma empresa utilizar variável de sexo para determinar risco de crédito? Vale a pena trazer a variável para o modelo? - Criar novas variáveis usando as variáveis que já estão na base: criatividade tem que ser mato. - Conversar com Filipe para tirar dúvidas sobre o projeto. ---------- ### Squads - Amarela - Gustavo, Lucas, Gabriel - Azul - Guilherme, Danilo, Sérgio, Helber - Verde - Thomas, Izabela, Bruna - Vermelha - Renan, Rafael, Victor ---------- ### Ranking | Posição | Squad | ROC_AUC | Pontos | Desenvolvimento | | ------- | -------- | ----- | ------ | ------ | | 1 | vermelha | 0.72 | 50 | 45 | | 2 | verde | 0.67 | 40 | 40 | | 3 | azul | ? | 30 | 35 | | 4 | amarela | não entregou | 0 | 0 |