# Ata - 2ª Reunião das pessoas mantenedoras
*Quinta-feira, 25 de fevereiro de 2021*
[TOC]
### Presentes
- Mário Sérgio
- Ariane Alves
- Ana Cecília Vieira
- Bernardo Baron
- Giulio Carvalho
- André Assumpção
- José Guilherme Vanz
- Juliana Trevine
- André Fomento
- Rosângela Lotfi
- Victor Baptista
## Pautas
- André apresenta o **toolbox** - ferramenta com potencial de fomentar o envolvimento da comunidade. Contém todas as ferramentas que entrarão em produção na plataforma do QD. A ferramenta acessa uma edição do diário, processa a informação e extrai o conteúdo a ser analisado.
- Ferramenta de extraçãod e CPF e CNPJ já está implementado
- Reconhecimento de entidades - no radar
- Conversão dos arquivos para TXT
- Exclusão de quebras de linha e pontuações em excesso e duplicações de cabeçalho e rodapé
- Segmentação de edições - identificar seções específicas (nomeações, compras, licitações etc.) - no radar
- Fatiamento por páginas - no radar
- **Contribuições desejaveis: testes, apontamento de erros e sugestões de melhorias pela comunidade**
- Mecanismo de busca: diferentes métodos possíveis, escolha da busca semântica - identificação automatizada do significado dos termos e adaptação dos resultados. Exs: "licitação" retorna também "licitações", "servidora" retorna também "servidor"
- André realizou testes com modelos diferentes. Bons resultados com o BERTimbau, versão adaptada ao português da ferramenta BERT, do Google
- Desafios:
- 1º: Como fatiar os diários de maneira consistente.
- 2º: Como retornar os resultados mais relevantes primeiro.
- Por ora, vamos manter a busca lexical como prioridade de produção para o lançamento do MVP, enquanto paralelamente aprimoramos a busca semântica
- André fez testes de busca semântica com um dataset de manchetes de jornais brasileiros do Kaggle e obteve resultados satisfatórios. Posteriormente, fez testes com alguns exemplares de diários oficiais, mas os resultados não foram tão bons. A hipótese de André para explicar essa diferença é a de que o texto dos diários ainda não está tão bem processado
- Giulio sugeriu uma redação de Milestone para a construção do mecanismo de busca.
- Giulio fala sobre conversa com Igor Steinmacher - anotações e vídeo [disponíveis aqui](https://www.notion.so/Ata-do-papo-sobre-documenta-o-com-Igor-Steinmacher-afe5420b68e7434ca706e0c5757eafcb).
- Giulio resumiu a discussão sobre as linguagens oficiais no projeto: https://github.com/okfn-brasil/querido-diario/issues/215
- Igor tem pesquisas relevantes na área de contrução e manutenção de projetos open source
- Igor sugeriu que o português seja a língua prioritária do projeto devido à origem brasileira da maioria das pessoas contribuidoras
- Igor sugeriu a adoção de métricas para monitorar a participação da comunidade e conhecer seu perfil
- Retomaremos o contato com o Igor quando o projeto estiver mais amadurecido para receber contribuições em maior quantidade
- Igor informou a retomada das aulas em seu grupo de pesquisa e disse que divulgará o projeto para quem tiver interesse em contribuir
- Mário falou sobre o trabalho da jornalista de dados Beatriz que está investigando o colápso de Manaus via os atos públicos do Diário Oficial municipal.
- Giulio e Vanz se comprometeram a verificar o status do raspador de Manaus para inserir na API.
- Comentamos do desafio financeiro de sustentar a infraestrutura do projeto, com máquinas para manter o motor de busca e storage de armazenamento dos arquivos. O Vanz fez um convite para quem quiser ajudar nessa parte
- Mário falou do plano de lançamento do MVP 1 com a Jurema para o final do primeiro semestre de 2021
###### tags: `Maintainers`, `February`