## Espaço de Tecnologias e Artes - Sesc Avenida Paulista ### `hackmd.io/@sesc-av-paulista/estudos-em-python-18-junho` # Grupo de estudos em Python ## 18/6 Ferramentas de processamento de linguagem natural - REF: https://hackmd.io/@villares/mares-de-texto - Notebook do Bruno Guide... https://colab.research.google.com/drive/1FlMfC3OaM9RpTxl7JqHL2NseJ227Xcc2#scrollTo=_8m-oJihq0pt ### Dicionário contador ```python! >> from collections import Counter >>> atividades = Counter(['bordado', 'boradado', 'macramê', 'impressão 3D', 'impressão 3D', 'impressão 3D', 'impressão 3D', 'Python', 'Python', 'aquarela']) >>> atividades Counter({'impressão 3D': 4, 'Python': 2, 'bordado': 1, 'boradado': 1, 'macramê': 1, 'aquarela': 1}) >>> atividades['Python'] 2 >>> atividades['serigrafia'] 0 >>> atividades.most_common(3) [('impressão 3D', 4), ('Python', 2), ('bordado', 1)] >>> atividades.most_common(1) [('impressão 3D', 4)] >>> ``` Exemplo com corpus do Machado de Assis ```python! # importando coisas da biblioteca padrão from collections import Counter # importando bibliotecas de terceiros import spacy import nltk from nltk.corpus import machado from nltk.corpus import stopwords # nltk.download('stopwords') nlp = spacy.load("pt_core_news_sm") ligas = stopwords.words('portuguese') tokens_machado = machado.words() # tokens ~ palavras + pontuação pontuacao = [',','.','!','?',';','-','"',"'",'[',']','(',')','@', '\x97', '--', '...', ':', 'si', 'sr', 'd', '\x93', 'tão', 'sra', 'lo', 'la', 'lhe'] palavras_proibidas = ligas + pontuacao tokens_limpos = [palavra for palavra in tokens_machado if palavra.lower() not in palavras_proibidas] contagem = Counter(tokens_limpos) print(contagem.most_common(50)) ```