---
title: Pi 373 - Projeto M7
---

----------
<center> <font size="+3"><b> Pi 373 - Módulo 7 - Machine Learning</b></font></center>
<center> <font size="+2"><b> Crédito para Veículos - Especificação do Projeto</b></font></center>
----------
### Deadline
- Dia 12/10/2020, às 23h50.
----------
### Envio
E-mail para rychard.guedes@letscode-academy.com, com título *Pi 373 Projeto 07 - Squad XX*.
----------
### Contextualização
A PyCoders Ltda., cada vez mais especializada no mundo da Inteligência Artificial e Ciência de Dados, foi procurada por uma fintech para desenvolver um projeto de concessão de crédito para veículos. Nesse projeto, espera-se a criação de valor que discrimine ao máximo os bons pagadores dos maus pagadores. Para isso, foi disponibilizada uma base de dados com mais de 185 mil casos de empréstimos do passado com diversas características dos clientes. Devem ser entregues um modelo. Por questões contratuais, o pagamento será realizado baseado no desempenho (gini) do modelo ao longo do tempo.
----------
### Base de Dados
Será utilizada uma base de dados com informações cadastrais e histórico de crédito de clientes indianos. O conjunto de dados está dividido em [treino](https://s3-sa-east-1.amazonaws.com/lcpi/e2cdeaa9-6bed-4df6-a586-16443a8371bc.gz) e [teste sem variável resposta](https://s3-sa-east-1.amazonaws.com/lcpi/727eb883-16f8-4021-be1a-6489e657be42.gz), todos no formato pickle comprimido com gzip. Para leitura, basta executar `df = pd.read_pickle('nome_do_arquivo.pkl.gz')`. Toda a modelagem e validação deve ser feita em cima do conjunto de treino, subdividindo tal base como a squad achar melhor. Existe também os [metadados](https://s3-sa-east-1.amazonaws.com/lcpi/f2ca5dd5-9752-4ae6-8567-8334a55fb934.xlsx) das variáveis explicativas, para ajudar no desenvolvimento do projeto.
----------
### Definições
#### Nota
A nota final da squad será composta por:
- Desempenho do modelo em uma base de label escondida (50 pontos), sendo avaliado o Gini.
- A squad com melhor desempenho na base escondida receberá 50 pontos;
- A squad com segundo melhor desempenho na base escondida receberá 40 pontos;
- A squad com terceiro melhor desempenho na base escondida receberá 30 pontos;
- Fluxo para decisão de qual modelo será efetivamente usado (50 pontos)
- Serão avaliados todo o fluxo de modelagem, incluindo (mas não exclusivamente) pré-processamento, métricas, seleção de modelo (25 pontos);
- Os fatos que levam a squad a decisão de escolha de um modelo final (15 pontos);
- Motivos que levaram a squad a usar ou não usar determinadas variáveis (estamos simulando uma financeira, então pensem em questões de ética e imagem da empresa, por exemplo) (10 pontos).
#### Regras de Entrega
1. Deve ser entregue uma base com as predições para a base de teste.
- Essa base deverá ser um Data Frame com duas colunas: a primeira sendo o ID da pessoa (variável `id_pessoa`) e a segunda a probabilidade de inadimplência.
- :WARNING: Entregar as predições com a probabilidade da inadimplência ocorrer.
2. Deve ser entregue um notebook com a análise exploratória e análise de modelagem, mostrando como as variáveis foram investigadas, as hipóteses levantas, o por quê das decisões.
3. Um vídeo de até 10 min fazendo o walk-through desse notebook (não se preocupem em criar a apresentação ou coisas do tipo, apenas gravem a tela do notebook explicando cada step).
3. Uma tabela-resumo com todos os modelos testados, as variáveis usadas nesse modelo e a métrica encontrada no treino e teste. Isso também pautará as decisões sobre qual modelo foi escolhido.
----------
### Dicas
- Explorar o conceito das variáveis: possui risco de imagem uma empresa utilizar variável de idade para determinar risco de crédito? Vale a pena trazer a variável para o modelo?
- Criar novas variáveis usando as variáveis que já estão na base: criatividade tem que ser mato.
- Conversar com Rychard para tirar dúvidas sobre o projeto.
----------
### Ranking
| Posição | Squad | Gini | Pontos |
| ------- | -------- | ----- | ------ |
| 1 | X | Y | 50 |
| 2 | X | Y | 40 |
| 3 | X | Y | 30 |