Orair
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
      • Invitee
      • No invitee
    • Publish Note

      Publish Note

      Everyone on the web can find and read all notes of this public team.
      Once published, notes can be searched and viewed by anyone online.
      See published notes
      Please check the box to agree to the Community Guidelines.
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Engagement control
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Versions and GitHub Sync Engagement control Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
Invitee
No invitee
Publish Note

Publish Note

Everyone on the web can find and read all notes of this public team.
Once published, notes can be searched and viewed by anyone online.
See published notes
Please check the box to agree to the Community Guidelines.
Engagement control
Commenting
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
  • Everyone
Suggest edit
Permission
Disabled Forbidden Owners Signed-in users Everyone
Enable
Permission
  • Forbidden
  • Owners
  • Signed-in users
Emoji Reply
Enable
Import from Dropbox Google Drive Gist Clipboard
   owned this note    owned this note      
Published Linked with GitHub
Subscribed
  • Any changes
    Be notified of any changes
  • Mention me
    Be notified of mention me
  • Unsubscribe
Subscribe
# Curso de Processamento de Linguagem Natural, com Deep Learning, baseado no curso da fast.ai Área compartilhada para troca de links e comentários durante as aulas: http://abre.ai/share-fastnlp Wifi, rede: TCU-VISITANTES-ISC Uma vez conectado na rede wifi, acessar pelo navegador. Uma página de identificação aparecerá, com opção para criar um novo usuário, no link no canto inferior direito. Esse novo usuário é independente do usuário no portal do TCU e é válido por 7 dias. ![frescura para agradar a Carla, de hunanas!](https://i.imgur.com/TDMn7w2.jpg) ______________________ ## PRÓXIMO ENCONTRO ### 8/10 - Apresentações finais dos participantes do curso 9:10 - Geração de Musicas Polifônicas por Redes Neurais, por Pedro Henrique Mendes: Utilizando técnicas de NLP em redes neurais profundas conseguimos obter novas melodias conforme os padrões aprendidos provenientes de uma base de dados, assim criando amostras de musicas com harmonias e ritmos próximos ao gênero característico dos dados originais. 9:30 Detecção de Fake News por NLP, por Pedro Henrique Mendes: apenas uma ensaio sobre o tema Fake News para relacionar e fixar os conteúdos aprendidos durante o curso, portanto foi criada uma base fictícia de noticias reais e falsas com material de sites de humor de notícia, como por exemplo: o "O Sensacionalista" e o "O Otarianista", para que modelos preditivos possam diferenciar esses dois tipos de noticias. No estudo em questão utilizou as técnicas de NLP Bag of Words e UMLfit afim de montar um comparativo. Link da competição:https://www.kaggle.com/t/b0bf6050ab9647318d8be2d429255020 9:50 Sumarizador Abstrato de texto em cima do corpus dos Acordãos do TCU, por Daniel Beigelman GoogleColab: https://colab.research.google.com/drive/1UBRY2ZuygTMHRbr4abrFQcBPiZjWba45 10:10 NLP aplicado às normas da ANVISA, por equipe da ANVISA1. Geração automática de normas; 2. Classificação de normas em macrotemas (84% de acurácia); 3. Clusterização das normas por similaridade utilizando a representação vetorial gerada pelo encoder. [Apresentacao-Slides](https://drive.google.com/file/d/1o9aPjCULakyQ8Cf2Jy0GC-f61rGSs1_I/view?usp=sharing) [Repositório no GitHub](https://github.com/thiagodma/Cluster-Normas) 10:30 Comparação de Modelos para Classificação de Medicamentos nas Classes ATC pelas Indicações Terapêuticas Contidas nas Bulas, por equipe ANVISA. Comparação entre modelos clássicos e modelos de deep learning para classificar diferentes medicamentos na classificação ATC: 1. Regressão Logística, SVM linear, Naive Bayes e Random Forest. 2. Modelo de deep learning sem pré-treinamento com os textos em português; 3. Modelo de deep learning com pré-treinamento com os textos em português; 4. Modelo de deep learning com pré-treinamento com os textos traduzidos para o inglês usando a tradução do Microsoft Word (tradução de máquina). [Apresentacao-Slides] https://drive.google.com/file/d/1_A4kMmsIQM9bSOYaK2op3weEf96YxSpG/view?usp=sharing 10:50 - 100 Dias de Código Machine Learning - 10 min - Joel Melo - https://drive.google.com/file/d/1HayxvzKJNBs7J-7cZZVXXikMK4C6miss/view?usp=sharing 11:00 Classificador de Tweets dos Correios, por Alex e Hederson. Clusterizados com Kmeans. Os grupos serviram para definir os labels que serviram como input para o modelo gerado rodando LSTM. Clusterização com kmeans: https://drive.google.com/open?id=15KZkEI5CswmbIccm6uJFn4gq7ibMLckj Encoder ULMFit: https://drive.google.com/open?id=1HtkAXfL1HkrPq2Lty6MX7PRdk-n-YXoD Classificador: https://drive.google.com/file/d/1RLKoUA4R6oUuJUth47EtMtOZoCtyPtLy/view?usp=sharing Quem pretende apresentar e não comunicou tema/resumo ainda assim compareça amanhã que encontraremos um encaixe. Até amanhã! 11:10 Tutorial Ludwig: Eric Hans Messias e Alexandre Roriz Link para o repositório que será usado: https://github.com/erichans/ludwig-deeplearning-bsb Modelo de linguagem para o português + classificador de textos legais do TCU fine-tuned pelo método MultiFiT: Pierre Guillou https://github.com/piegu/language-models ______________________ ## Calendário do curso | Data | Aula | Conteúdo | | ---- | ---| -------- | |06/08 | 1 | Apresentação Geral; NLP tradicional| |13/08 | 2 | Modelagem de Tópicos com SVD e NMF| |20/08 | 3 | DL: modelagem de linguagem & transferência; análise de sentimentos| |27/08 | 4 | Naive Bayes, Regex, Language Modeling e visão geral ULMFiT| |03/09 | 5 | Transfer learning| |10/09 | 6 | ULMFiT para não inglês; laboratório| |17/09 | - | Seminário sobre Análise de Dados, apresentações de NLP na Administração Pública| |24/09 | 7 | RNNs, Seq2Seq| |01/10 | 8 | Geração de texto; GRU: implementação; Atenção & Transformer| |08/10 | 9 | Apresentações dos participantes e tutorial Ludwig| ## Memória das aulas ### 1/10 - Aula 8 - Geração de texto, GRU & Transformer * vídeos * 14 - Text generation algorithms (25'): https://youtu.be/3oEb_fFmPnY * 15 - Implementing a GRU (23'): https://youtu.be/Bl6WVj6wQaE * 17 - Introduction to the Transformer (23'): https://youtu.be/AFkGPmU16QA * 18 - The Transformer for language translation (55'): https://youtu.be/KzfyftiH7R8 * cadernos: * 7b, attention: https://github.com/fastai/course-nlp/blob/master/7b-seq2seq-attention-translation.ipynb * 7b, nucleus: https://github.com/fastai/course-nlp/blob/master/7b-seq2seq-nucleus.ipynb * 8: https://github.com/fastai/course-nlp/blob/master/8-translation-transformer.ipynb * anotações: Text generation: 4 abordagens para seleção da próxima palavra (decoding): 1. ingênua/greedy: {7b-seq2seq-attention-transformer, In[20]}: argmax() palavra mais provável Explicar defeito da abordagem greedy: ao selecionar sempre a próxima palavra mais provável corre-se o risco de gerar uma sequência completa de menor probabilidade total, assim como entrar em loop, gerando repetições. Comentar gráfico do paper: [The Curious Case of Neural Text Degeneration](https://arxiv.org/abs/1904.09751) ![](https://i.imgur.com/0AwJ6Ne.png) 2. beam search: {desenho tela + biblioteca fastai} seleciona k strings (sequências) de próximas palavras mais prováveis, permitindo identificar uma sequência completa mais provável ainda que não tenha tido a primeira palavra mais provável. Modera a busca greedy. 3. top k sampling: {7b-seq2seq-nucleus, In[11]}: retorna aleatoriamente uma das k palavras mais prováveis 4. **nucleus sampling**: {7b-seq2seq-nucleus, In[12]}: sampling, similar a top k, com k dinâmico em função de probabilidade cumulada superior a algum patamar ### 24/09 - Aula 7 - RNNs, Seq2Seq * vídeos * 11 - Understanding RNNs (33'): https://youtu.be/l1rlFh0PmZw * 12 - Seq2Seq Translation (1h): https://youtu.be/IfsjMg4fLWQ * 14 - Text generation algorithms (25'): https://youtu.be/3oEb_fFmPnY * cadernos 6 e 7: https://github.com/fastai/course-nlp Sondar interesse/disponibilidade para [oficina de Ludwig](https://speakerfight.com/events/5o-seminario-internacional-sobre-analise-de-dados-na-administracao-publica/#construcao-e-experimentacao-de-modelos-de-deep-learning-de-forma-rapida-e-sem-codigo) (autoML Uber): *Ludwig is a toolbox that allows to train and test deep learning models without the need to write code* Vejam também a experiência do colega Pierre Guillou, que treinou modelo ULMFiT para o francês, publicando todos os resultados: https://twitter.com/pierre_guillou/status/1175054315804864517 ### 17/09 - Seminário sobre Análise de Dados na Administração Pública Forte programação em NLP: http://www.brasildigital.gov.br/brasil-digital/programa/ ### 10/09 - Aula 6 - Treinando um modelo de linguagem ULMFiT em línguas não inglesas: * vídeo 10 (https://youtu.be/MDX_x6rKXAs) * caderno https://github.com/fastai/course-nlp/blob/master/nn-imdb-more.ipynb * laboratório de ULMFiT em português, conduzido pelo colega Ami Aram. https://colab.research.google.com/drive/1Mw4aJmYIUXiQ84pB9H0F6Ls_6SilQdDl Na próxima terça-feira, 17/9/2019, não teremos aula devido à realização do 5º Seminário Internacional sobre Análise de Dados na Administração Pública, que ocorrerá no ISC de 16 a 18 de setembro. Recomendo que venham ao seminário, pelo menos no dia 17/9, para aproveitar a ampla oferta de palestras de casos de aplicação de NLP na Administração Pública. Confira a programação: http://www.brasildigital.gov.br/brasil-digital/programa/ ### 03/09 - Aula 5 - Transfer learning Assistir ao vídeo 9. Concluíremos o caderno 5-nn-imdb.ipynb e assistiremos a extratos do vídeo 9. Deixaremos o laboratório com aplicação de ULMFiT para português para a aula seguinte, após o vídeo 10. #### Videos * Transfer learning (NLP video 9) https://www.youtube.com/watch?v=5gCQvuznKn0 * ULMFit for non-English Languages (NLP Video 10) - https://www.youtube.com/watch?v=MDX_x6rKXAs ### 27/08 - Aula 4 - Naive Bayes, Regex, Language Modeling e ULMFiT para não inglês #### Cadernos * Caderno 5: https://github.com/fastai/course-nlp/blob/master/5-nn-imdb.ipynb ** Colab: https://colab.research.google.com/github/fastai/course-nlp/blob/master/5-nn-imdb.ipynb #### Videos * Derivation of Naive Bayes & Numerical Stability (NLP video 6) (24') - https://www.youtube.com/watch?v=z8-Tbrg1-rE Teorema de Bayes, estabilidade numérica, representação de números floating point, velocidade relativa dos diversos tipos de memória e *regex*. Obs: Foco em regex e exercícios: https://regexone.com/ * Revisiting Naive Bayes, and Regex (NLP video 7) (37') - https://www.youtube.com/watch?v=Q1zLqfnEXdw Obs: Exercícios: regexr.com, callumacrae.github.io/regex-tuesday/) * Intro to Language Modeling (NLP video 8) (41')- https://www.youtube.com/watch?v=PNNHaQUQqW8 Obs: Language Modeling, transfer learning, exemplos de aplicação de ULMFiT, recomendações GPU em nuvem (Colab), gerador de texto Para a aula presencial, deve ser dado um overview de regex e apresentado o caderno 4: criar tokenizador próprio, com exemplos de uso de regex em python. Na segunda parte da aula, deve ser dado um overview do vídeo 8 e apresentado o caderno 5: primeiro uso de ULMFiT com dados IMDB ### 20/08/2019 Aula 3 - Análise de Sentimentos #### Videos * Sentiment Classification with Naive Bayes (NLP video 4) - https://www.youtube.com/watch?v=hp2ipC5pW4I * Sentiment Classification with Naive Bayes & Logistic Regression, contd. (NLP video 5) - https://www.youtube.com/watch?v=dt7sArnLo1g #### Cadernos * Caderno 3: https://github.com/fastai/course-nlp/blob/master/3-logreg-nb-imdb.ipynb * Colab: https://colab.research.google.com/github/fastai/course-nlp/blob/master/3-logreg-nb-imdb.ipynb * Caderno 3b: https://github.com/fastai/course-nlp/blob/master/3b-more-details.ipynb #### Laboratório Análise de Sentimentos * Dataset-OLIST no Kaggle: https://www.kaggle.com/olistbr/brazilian-ecommerce * csv com amostra de 1000 avaliações OList, no formato esperado pelo caderno 3 da fast.ai: https://drive.google.com/uc?authuser=0&id=1--d0SRPUGdoj3rZSrMbWWMC32Po4tKT6&export=download ###### Cadernos * Caderno (antigo) no Colab: https://colab.research.google.com/drive/1ziTEQBXm9t4fRzoCtoyr1qTcrqxQjLUR * Caderno (modificado) no Colab: https://colab.research.google.com/drive/1MpgfN6U66ypP-s1H4DSxMuTdusdU1QgT#scrollTo=JbKsmIv261l4 * Caderno com tratamento de emoji: http://abre.ai/fasttext-olist Vejam como importar o arquivo csv seja pela url acima, seja acessando seu Google Drive a partir do Colab. ### 13/08/2019 Aula 2 - Modelagem de Tópicos com SVD e NMF ### 06/08/2019 - Aula 1 - Aula inaugural: Apresentação: https://docs.google.com/presentation/d/19BqOlc-QIGAzjvL8ldpyxYdH8RsZnUo6foy7I7DGkvA/edit?usp=sharing ______________________ ## Links Importantes Grupo no WhatsApp: https://chat.whatsapp.com/Fsav0dMRIXZGpGbYuYFxf0 Inscrição no Curso: https://contas.tcu.gov.br/ords/f?p=portal:detalhe:::::V:161124 Chamada: - https://kahoot.it/ Material: - compartilhamento links: http://dontpad.com/fastNLP - conteúdo fast.ai: https://www.fast.ai/2019/07/08/fastai-nlp/ - playlist YouTube: https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9 - cadernos Jupyter: https://github.com/fastai/course-nlp - cadernos Jupyter no Colab: https://colab.research.google.com/github/fastai/course-nlp - SVD : https://www.youtube.com/watch?v=d7iIb_XVkZs ______________________ ## Informações Úteis Canais de comunicação: - email cadastrado no TCU; - whatsapp para notícias do curso: https://chat.whatsapp.com/Fsav0dMRIXZGpGbYuYFxf0 - fórum fast.ai para dúvidas: https://forums.fast.ai/t/study-group-in-brazil/25789/43 Criar contas para acesso gratuito a instâncias na nuvem com GPU: * Colaboratory (http://colab.research.google.com/notebooks/welcome.ipynb) * Kaggle (https://www.kaggle.com/) * Google Cloud (GCP): https://cloud.google.com/ * Detalhes de configuração para fast.ai: https://course.fast.ai/ ______________________ ## Introdução sobre o Curso Estamos lançando o primeiro curso de NLP organizado pelo grupo de estudo em Deep Learning de Brasília, baseado no curso da fast.ai Os encontros serão às terças pela manhã (9h às 12h) no ISC/TCU, iniciando na primeira terça-feira de agosto, 6/8/2019. Serão 8 encontros de 3h, voltado para programadores, com experiência em python e ML. Como todos os cursos da fast.ai, esse de NLP também será extremamente prático e voltado para replicar resultados no estado da arte. Conteúdo do curso: 1. **Métodos tradicionais de NLP** 2. **Modelagem de Tópicos com SVD e NMF** * Classificação de sentimentos com Naive Bayes e Regressão Logística * Derivação de Naive Bayes e Estabilidade Numérica * Revisitando Naive Bayes e Regex 3. **Aprendizado Profundo (Deep Learning): Transferência de aprendizado para NLP** * Introdução à modelagem de linguagem * Transferência de aprendizagem * ULMFit para idiomas não ingleses 4. **Deep Learning: tradução Seq2Seq e o Transformer** * Noções básicas sobre RNNs * Tradução com Seq2Seq * Algoritmos de geração de texto * Implementando uma GRU * Introdução ao Transformer * O Transformer para tradução de idiomas 5. **Questões Éticas em NLP** Detalhes do curso da fast.ai: https://www.fast.ai/2019/07/08/fastai-nlp/ Peço ajuda para organizarmos essa área de compartilhamento para uso no curso. Outro canal para dúvidas pelo nosso grupo no Telegram: t.me/DeepLearningBSB Vídeos de resultados recentes em NLP: * Seminário de IA aplicada, resultados de NLP do GEDL: https://youtu.be/5f5J8ZFAN2o?t=7818 * Panorama de NLP (julho 2019): https://youtu.be/fkicHKdxrT0

Import from clipboard

Advanced permission required

Your current role can only read. Ask the system administrator to acquire write and comment permission.

This team is disabled

Sorry, this team is disabled. You can't edit this note.

This note is locked

Sorry, only owner can edit this note.

Reach the limit

Sorry, you've reached the max length this note can be.
Please reduce the content or divide it to more notes, thank you!

Import from Gist

Import from Snippet

or

Export to Snippet

Are you sure?

Do you really want to delete this note?
All users will lose their connection.

Create a note from template

Create a note from template

Oops...
This template is not available.
Upgrade
All
  • All
  • Team
No template found.

Create custom template

Upgrade

Delete template

Do you really want to delete this template?
Turn this template into a regular note and keep its content, versions, and comments.

This page need refresh

You have an incompatible client version.
Refresh to update.
New version available!
See releases notes here
Refresh to enjoy new features.
Your user state has changed.
Refresh to load new user state.

Sign in

Forgot password

or

By clicking below, you agree to our terms of service.

Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
Wallet ( )
Connect another wallet

New to HackMD? Sign up

Help

  • English
  • 中文
  • Français
  • Deutsch
  • 日本語
  • Español
  • Català
  • Ελληνικά
  • Português
  • italiano
  • Türkçe
  • Русский
  • Nederlands
  • hrvatski jezik
  • język polski
  • Українська
  • हिन्दी
  • svenska
  • Esperanto
  • dansk

Documents

Help & Tutorial

How to use Book mode

How to use Slide mode

API Docs

Edit in VSCode

Install browser extension

Get in Touch

Feedback

Discord

Send us email

Resources

Releases

Pricing

Blog

Policy

Terms

Privacy

Cheatsheet

Syntax Example Reference
# Header Header 基本排版
- Unordered List
  • Unordered List
1. Ordered List
  1. Ordered List
- [ ] Todo List
  • Todo List
> Blockquote
Blockquote
**Bold font** Bold font
*Italics font* Italics font
~~Strikethrough~~ Strikethrough
19^th^ 19th
H~2~O H2O
++Inserted text++ Inserted text
==Marked text== Marked text
[link text](https:// "title") Link
![image alt](https:// "title") Image
`Code` Code 在筆記中貼入程式碼
```javascript
var i = 0;
```
var i = 0;
:smile: :smile: Emoji list
{%youtube youtube_id %} Externals
$L^aT_eX$ LaTeX
:::info
This is a alert area.
:::

This is a alert area.

Versions and GitHub Sync
Upgrade to Prime Plan

  • Edit version name
  • Delete

revision author avatar     named on  

More Less

No updates to save
Compare
    Choose a version
    No search result
    Version not found
Sign in to link this note to GitHub
Learn more
This note is not linked with GitHub
 

Feedback

Submission failed, please try again

Thanks for your support.

On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

Please give us some advice and help us improve HackMD.

 

Thanks for your feedback

Remove version name

Do you want to remove this version name and description?

Transfer ownership

Transfer to
    Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

      Link with GitHub

      Please authorize HackMD on GitHub
      • Please sign in to GitHub and install the HackMD app on your GitHub repo.
      • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
      Learn more  Sign in to GitHub

      Push the note to GitHub Push to GitHub Pull a file from GitHub

        Authorize again
       

      Choose which file to push to

      Select repo
      Refresh Authorize more repos
      Select branch
      Select file
      Select branch
      Choose version(s) to push
      • Save a new version and push
      • Choose from existing versions
      Include title and tags
      Available push count

      Upgrade

      Pull from GitHub

       
      File from GitHub
      File from HackMD

      GitHub Link Settings

      File linked

      Linked by
      File path
      Last synced branch
      Available push count

      Upgrade

      Danger Zone

      Unlink
      You will no longer receive notification when GitHub file changes after unlink.

      Syncing

      Push failed

      Push successfully