# Ata - 2ª Reunião das pessoas mantenedoras *Quinta-feira, 25 de fevereiro de 2021* [TOC] ### Presentes - Mário Sérgio - Ariane Alves - Ana Cecília Vieira - Bernardo Baron - Giulio Carvalho - André Assumpção - José Guilherme Vanz - Juliana Trevine - André Fomento - Rosângela Lotfi - Victor Baptista ## Pautas - André apresenta o **toolbox** - ferramenta com potencial de fomentar o envolvimento da comunidade. Contém todas as ferramentas que entrarão em produção na plataforma do QD. A ferramenta acessa uma edição do diário, processa a informação e extrai o conteúdo a ser analisado. - Ferramenta de extraçãod e CPF e CNPJ já está implementado - Reconhecimento de entidades - no radar - Conversão dos arquivos para TXT - Exclusão de quebras de linha e pontuações em excesso e duplicações de cabeçalho e rodapé - Segmentação de edições - identificar seções específicas (nomeações, compras, licitações etc.) - no radar - Fatiamento por páginas - no radar - **Contribuições desejaveis: testes, apontamento de erros e sugestões de melhorias pela comunidade** - Mecanismo de busca: diferentes métodos possíveis, escolha da busca semântica - identificação automatizada do significado dos termos e adaptação dos resultados. Exs: "licitação" retorna também "licitações", "servidora" retorna também "servidor" - André realizou testes com modelos diferentes. Bons resultados com o BERTimbau, versão adaptada ao português da ferramenta BERT, do Google - Desafios: - 1º: Como fatiar os diários de maneira consistente. - 2º: Como retornar os resultados mais relevantes primeiro. - Por ora, vamos manter a busca lexical como prioridade de produção para o lançamento do MVP, enquanto paralelamente aprimoramos a busca semântica - André fez testes de busca semântica com um dataset de manchetes de jornais brasileiros do Kaggle e obteve resultados satisfatórios. Posteriormente, fez testes com alguns exemplares de diários oficiais, mas os resultados não foram tão bons. A hipótese de André para explicar essa diferença é a de que o texto dos diários ainda não está tão bem processado - Giulio sugeriu uma redação de Milestone para a construção do mecanismo de busca. - Giulio fala sobre conversa com Igor Steinmacher - anotações e vídeo [disponíveis aqui](https://www.notion.so/Ata-do-papo-sobre-documenta-o-com-Igor-Steinmacher-afe5420b68e7434ca706e0c5757eafcb). - Giulio resumiu a discussão sobre as linguagens oficiais no projeto: https://github.com/okfn-brasil/querido-diario/issues/215 - Igor tem pesquisas relevantes na área de contrução e manutenção de projetos open source - Igor sugeriu que o português seja a língua prioritária do projeto devido à origem brasileira da maioria das pessoas contribuidoras - Igor sugeriu a adoção de métricas para monitorar a participação da comunidade e conhecer seu perfil - Retomaremos o contato com o Igor quando o projeto estiver mais amadurecido para receber contribuições em maior quantidade - Igor informou a retomada das aulas em seu grupo de pesquisa e disse que divulgará o projeto para quem tiver interesse em contribuir - Mário falou sobre o trabalho da jornalista de dados Beatriz que está investigando o colápso de Manaus via os atos públicos do Diário Oficial municipal. - Giulio e Vanz se comprometeram a verificar o status do raspador de Manaus para inserir na API. - Comentamos do desafio financeiro de sustentar a infraestrutura do projeto, com máquinas para manter o motor de busca e storage de armazenamento dos arquivos. O Vanz fez um convite para quem quiser ajudar nessa parte - Mário falou do plano de lançamento do MVP 1 com a Jurema para o final do primeiro semestre de 2021 ###### tags: `Maintainers`, `February`