Pi 294 - Módulo 7 - Machine Learning

# Pi 294 - Módulo 7 - Machine Learning ![](https://letscode-academy.com/assets/logo_lc_png.png) ---------- <center> Pi 294 - Módulo 7 - Machine Learning</center> <center> Crédito para Veículos - Especificação do Projeto</center> ---------- ### Deadline - ~~09/06/2020, 13h~~ - 12/06/2020, 23h50 ---------- ### Envio E-mail para rychard.guedes@letscode-academy.com, com título *Pi 294 Projeto 07 - Squad XX*. ---------- ### Contextualização A PyCoders Ltda., cada vez mais especializada no mundo da Inteligência Artificial e Ciência de Dados, foi procurada por uma fintech para desenvolver um projeto de concessão de crédito para veículos. Nesse projeto, espera-se a criação de valor que discrimine ao máximo os bons pagadores dos maus pagadores. Para isso, foi disponibilizada uma base de dados com mais de 185 mil casos de empréstimos do passado com diversas características dos clientes. Devem ser entregues pelo menos dois modelos, dos quais ao menos um deverá ser explicável. O modelo que entrará em produção será escolhido em reunião com a contratante. Por questões contratuais, o pagamento será realizado baseado no desempenho (gini) do modelo ao longo do tempo. ---------- ### Base de Dados Será utilizada uma base de dados com informações cadastrais e histórico de crédito de clientes indianos. O conjunto de dados está dividido em [treino](https://s3-sa-east-1.amazonaws.com/lcpi/e2cdeaa9-6bed-4df6-a586-16443a8371bc.gz), [teste sem variável resposta](https://s3-sa-east-1.amazonaws.com/lcpi/727eb883-16f8-4021-be1a-6489e657be42.gz) e [teste com variável resposta](https://www.dropbox.com/s/0tlk518ubkhhbx3/ieie.png?dl=0), todos no formato pickle comprimido com gzip. Para leitura, basta executar `df = pd.read_pickle('nome_do_arquivo.pkl.gz')`. Toda a modelagem e validação deve ser feita em cima do conjunto de treino, subdividindo tal base como a squad achar melhor. Existe também os [metadados](https://s3-sa-east-1.amazonaws.com/lcpi/f2ca5dd5-9752-4ae6-8567-8334a55fb934.xlsx) das variáveis explicativas, para ajudar no desenvolvimento do projeto. ---------- ### Definições #### Nota A nota final da squad será composta por: - Desempenho do modelo em uma base de label escondida (50 pontos) - A squad com melhor desempenho na base escondida receberá 50 pontos; - A squad com segundo melhor desempenho na base escondida receberá 45 pontos; - A squad com terceiro melhor desempenho na base escondida receberá 40 pontos; - A squad com quarto melhor desempenho na base escondida receberá 35 pontos; - Fluxo para decisão de qual modelo será efetivamente usado (50 pontos) - Serão avaliados todo o fluxo de modelagem, incluindo (mas não exclusivamente) pré-processamento, métricas, seleção de modelo (25 pontos); - Os fatos que levam a squad a decisão de escolha de um modelo final (15 pontos); - Motivos que levaram a squad a usar ou não usar determinadas variáveis (estamos simulando uma financeira, então pensem em questões de ética e imagem da empresa, por exemplo) (10 pontos). #### Regras de Entrega 1. Ao menos dois modelos\* devem ser entregues, com suas respectivas predições no conjunto de teste\*\*; 3. As predições devem ser replicáveis (serão reestimadas e comparadas com os arquivos entregues); 4. Ao menos um modelo deve ser explicável; 5. De todos os modelos entregues, aquele que será submetido ao teste da base escondida será definido em uma conversa com o professor; 6. Um resumo com todos os testes feitos, com suas respectivas métricas, deve ser entregue (coisa simples, planilha de excel, markdown, ou qualquer outra ferramenta que julgar necessária); 7. Será realizada um check nos códigos, então é importante guardar as partes mais importantes. **Obs:** *O não cumprimento de uma ou mais partes acarretará em pontos decrescidos da nota final.* \* Modelo = um arquivo pickle que recebe todo o conjunto de dados de teste e solta uma saída. \*\* Predições = arquivo com uma series na qual o índice é o ID único da pessoa e o valor é o score/valor discriminante de bons e maus pagadores. ---------- ### Ranking | Posição | Squad | Gini | Pontos | | ------- | -------- | ----- | ------ | | 1 | Vermelha | 29.78 | 50 | | 2 | Amarela | 18.49 | 45 | | 3 | Verde | 2.16 | 40 | | 4 | Azul | - | 35 | :::warning **Principal problema:** entregar a predição em formato binário, e não em formato de probabilidade da variável resposta. Dessa forma, o Gini ou ROC AUC não "tem liberdade para variar" a nota de corte. :::