# Oficina Machine Learning na Prática Oficina oferecida na terceira edição do [ExpoJud](https://www.expojud.com/): Congresso sobre a Revolução Exponencial do Ecossistema de Justiça. Data: quinta-feira, 15/10, das 13:30 às 16hs ## Links da Oficina Cadernos Jupyter a serem executados no Google Colaboratory: - Introdução ML: https://drive.google.com/file/d/1m_FtQV8Av_WGg8iP8Y1PUfoaRXSulczr/view?usp=sharing - Introdução NLP: https://drive.google.com/file/d/1FnA0cZghpMWwGJZ2FZ9JG06OLKKEs7du/view?usp=sharing Você pode abrir os cadernos acima, diretamente no Google Colab ou então baixar os cadernos e então carregá-los no Colab, no seguinte endereço: https://colab.research.google.com/ **OPORTUNIDADE:** **Curso completo de Machine Learning em Projetos** (30h, iniciando em 9 de novembro): bit.ly/MLprojetos ou hackmd.io/@emfs/H1Br3I8UP **Quero participar do curso em turmas futuras:** Preencha o formulário com seus dados e entraremos em contato: http://bit.ly/curso_MLProjetos ## Informações da Oficina **Introdução ao Machine Learning na Prática** - classificando dados tabulares e textos jurídicos com python e scikit-learn Oficina a distância, com apresentação dos conceitos fundamentais de machine learning para criar uma intuição de como modelos de IA funcionam e sua aplicação prática, em código executado em nuvem computacional (Google Colab, de acesso gratuito, com limitações) para execução de código e treinamento de primeiros modelos mais simples de Machine Learning (ML): Classificação de objetos em categorias, utilizando modelos KNN e regressão logística Classificação de texto jurídico: aplicação na classificação de ementas jurisprudênciais do TCU em temas mais frequentes As situações-desafio descritas acima são muito genéricas, permitindo fácil reuso com adaptação para classificar outros dados tabulares ou textuais em categorias relevantes para os participantes. **Pré-requisitos**: familiaridade mínima com programação, pois apresentaremos e executaremos código em python para controlar funções já existentes da biblioteca scikit-learn. Conta na Google, como uma conta de email GMail, para poder acessar a platforma de computação em nuvem Google Colab (https://colab.research.google.com/) Possíveis atividades preparatórias para quem não tem qualquer familiaridade com python e pandas: realizar dois micro-cursos (~4h) gratuitos no Kaggle: https://www.kaggle.com/learn/python https://www.kaggle.com/learn/pandas **Objetivos de aprendizagem**: o participante realizará o primeiro passo na longa trilha para desenvolver habilidades em Machine Learning (ML) desenvolvendo uma intuição inicial das situações em que se aplica, a lógica de seu funcionamento, e seus pré-requisitos de dados. Também realizará primeiros treinamentos de modelos preditivos (para estimar uma variável de interesse em função de outros dados correlacionados), para entender na prática o que está envolvido no processo de modelagem de dados, seu uso para melhor compreender o fenômeno modelado, uso para apoio a decisão e como adaptar o código apresentado para outros projetos. **Principais Tópicos** Diferenças entre programação e aprendizado de máquina (ML): O desafio de prever resultados de um fenômeno sem um modelo explícito de seu funcionamento. Categorias de machine learning (ML): Supervisionado, não supervisionado. Diversidade de aplicações. Classificação de dados tabulares (em formatos como planilhas Excel) por regressão logística. Intuição, cenários de uso. Preparação de dados para modelização. Uso da biblioteca python scikit-learn. Classificação de texto, com técnicas básicas de Processamento de Linguagem Natural (NLP), com vetorização de palavras, bag-of-words e tf-idf. ## Instrutores ![](https://i.imgur.com/0OmkBTM.jpg =100x) **ERICK MUZART FONSECA DOS SANTOS** Graduado em computação, especializado em análise de dados e Deep Learning (DL). Egresso do Deep Learning Summer School da Université de Montreal, Canadá, em 2017, onde teve contato com o estado da arte de DL e com alguns dos melhores pesquisadores mundiais da área. Auditor e cientista de dados no Tribunal de Contas da União (TCU), lotado no Centro de Pesquisa e Inovação onde atua no programa de capacitação dos auditores em análise de dados. Um dos fundadores do grupo de estudo em DL de Brasília, tendo sido instrutor em mais de uma dezena de cursos, presenciais e à distância, e na pós-graduação em ciência de dados do TCU. ![](https://i.imgur.com/KD2YrsC.jpg =100x) **FERNANDO LUIZ BRITO DE MELO** Cientista de dados do Senado Federal, é bacharel em Administração e possui especialização em Inteligência Artificial pela Johns Hopkins University. Com experiência de mais de 20 anos em projetos de análise de dados, é co-organizador do grupo meetup Machine Learning Brasília com mais de 1.800 participantes. Co-organizador do Grupo de Estudos Deep Learning Brasília, onde atua como professor voluntário com o objetivo de popularizar o uso da Inteligência Artificial e organizar cursos abertos à toda a comunidade de Brasília. Foi instrutor em pelo menos 8 cursos de machine learning e deep learning, ministrados presencialmente no Centro de Treinamento ISC-TCU e remotamente pela ENAP e TCU.