--- title: c02. XGBoost --- XGBoost === ## Introdução **Repositório**: [link](https://curso-r.github.io/202111-xgboost/) **Google class**: [link](https://classroom.google.com/u/0/c/MzAzNzM1NjExNjQ0) **Trabalho final**: Link com as informações gerais do desafio. [link](https://www.kaggle.com/c/xgboost-curso-r-202111/) ## Aula 01 {%youtube DHPzTOplB3w %} Fonte: https://www.youtube.com/watch?v=DHPzTOplB3w ## Aula 02 {%youtube urtyvm0uV3Q %} Fonte: https://www.youtube.com/watch?v=urtyvm0uV3Q ## Aula 03 {%youtube 7Y6ifYbRWqk %} Fonte: [none](https://www.youtube.com/watch?v=7Y6ifYbRWqk) * [Xgboost Readthedocs]( https://xgboost.readthedocs.io/en/stable/index.html) * [Julia Silge](https://www.youtube.com/c/JuliaSilge/videos?view=0&sort=p&flow=grid) * [Trabalho Panosso - curso R](https://github.com/arpanosso/tuberculose_bovina/) Loss reduction é o lambda Boa prática: Imputação de missing. Alta cardinalidade -> muitas categorias Muitas categorias pra criar dummys pode criar problemas, principalmente se temos N pequeno. Verificar embed e word_embed. - https://github.com/tidymodels/embed Passos 1. Dividir base treino e base teste 2. Criar Recepi (recepi()) 3. Prep a Recepi (prep()) 4. Criar os Folds (v_fold(base,n)) 5. Tunar os hiperparâmetros 6. Especificar o engine 7. Criar o workflow * Setar o modelo * Setar o engine 8. tunar os parâmetros * Verificar estratégias Usamos a versão preparada no cross-validation. data prep para cada fold criado. cache=TRUE (o que faz no rmarkdown) ###### tags: `curso-R` `capítulos`