## Espaço de Tecnologias e Artes - Sesc Avenida Paulista
### `hackmd.io/@sesc-av-paulista/estudos-em-python-18-junho`
# Grupo de estudos em Python
## 18/6 Ferramentas de processamento de linguagem natural
- REF: https://hackmd.io/@villares/mares-de-texto
- Notebook do Bruno Guide... https://colab.research.google.com/drive/1FlMfC3OaM9RpTxl7JqHL2NseJ227Xcc2#scrollTo=_8m-oJihq0pt
### Dicionário contador
```python!
>> from collections import Counter
>>> atividades = Counter(['bordado', 'boradado', 'macramê', 'impressão 3D', 'impressão 3D', 'impressão 3D',
'impressão 3D', 'Python', 'Python', 'aquarela'])
>>> atividades
Counter({'impressão 3D': 4, 'Python': 2, 'bordado': 1, 'boradado': 1, 'macramê': 1, 'aquarela': 1})
>>> atividades['Python']
2
>>> atividades['serigrafia']
0
>>> atividades.most_common(3)
[('impressão 3D', 4), ('Python', 2), ('bordado', 1)]
>>> atividades.most_common(1)
[('impressão 3D', 4)]
>>>
```
Exemplo com corpus do Machado de Assis
```python!
# importando coisas da biblioteca padrão
from collections import Counter
# importando bibliotecas de terceiros
import spacy
import nltk
from nltk.corpus import machado
from nltk.corpus import stopwords # nltk.download('stopwords')
nlp = spacy.load("pt_core_news_sm")
ligas = stopwords.words('portuguese')
tokens_machado = machado.words() # tokens ~ palavras + pontuação
pontuacao = [',','.','!','?',';','-','"',"'",'[',']','(',')','@', '\x97',
'--', '...', ':', 'si', 'sr', 'd', '\x93',
'tão', 'sra', 'lo', 'la', 'lhe']
palavras_proibidas = ligas + pontuacao
tokens_limpos = [palavra for palavra in tokens_machado
if palavra.lower() not in palavras_proibidas]
contagem = Counter(tokens_limpos)
print(contagem.most_common(50))
```