---
title: c02. XGBoost
---
XGBoost
===
## Introdução
**Repositório**: [link](https://curso-r.github.io/202111-xgboost/)
**Google class**: [link](https://classroom.google.com/u/0/c/MzAzNzM1NjExNjQ0)
**Trabalho final**: Link com as informações gerais do desafio. [link](https://www.kaggle.com/c/xgboost-curso-r-202111/)
## Aula 01
{%youtube DHPzTOplB3w %}
Fonte: https://www.youtube.com/watch?v=DHPzTOplB3w
## Aula 02
{%youtube urtyvm0uV3Q %}
Fonte: https://www.youtube.com/watch?v=urtyvm0uV3Q
## Aula 03
{%youtube 7Y6ifYbRWqk %}
Fonte: [none](https://www.youtube.com/watch?v=7Y6ifYbRWqk)
* [Xgboost Readthedocs]( https://xgboost.readthedocs.io/en/stable/index.html)
* [Julia Silge](https://www.youtube.com/c/JuliaSilge/videos?view=0&sort=p&flow=grid)
* [Trabalho Panosso - curso R](https://github.com/arpanosso/tuberculose_bovina/)
Loss reduction é o lambda
Boa prática: Imputação de missing.
Alta cardinalidade -> muitas categorias
Muitas categorias pra criar dummys pode criar problemas, principalmente se temos N pequeno.
Verificar embed e word_embed.
- https://github.com/tidymodels/embed
Passos
1. Dividir base treino e base teste
2. Criar Recepi (recepi())
3. Prep a Recepi (prep())
4. Criar os Folds (v_fold(base,n))
5. Tunar os hiperparâmetros
6. Especificar o engine
7. Criar o workflow
* Setar o modelo
* Setar o engine
8. tunar os parâmetros
* Verificar estratégias
Usamos a versão preparada no cross-validation. data prep para cada fold criado.
cache=TRUE (o que faz no rmarkdown)
###### tags: `curso-R` `capítulos`