# Ata - 11ª Reunião das pessoas mantenedoras *Quinta-feira, 24 de fevereiro de 2022* [TOC] ## Presentes - Giulio Carvalho - Juliana Trevine - André Formento - Nitai Bezerra - Renne Rocha - David Pierre - Emanuelle - Bernardo Baron - Pedro Guimarães - Luxu Luciano ## Pauta: Planejamento do Querido Diário para 2022 Para 2022, planejamos melhorar o projeto em várias frentes. Muitas dessas melhorias estão vinculadas a editais e projetos que estamos participando. Nesse planejamento também pensamos em estruturar o projeto para no próximo ano estar mais estável e ter um planejamento com prazos mais longos e menos vinculado a editais e talvez a produtos oferecidos pelo próprio projeto. Os itens planejados para 2022 são: 1. Elaboração de um Plano de Patrocínio 1. Projeto de produto - Idear um produto a partir do QD permitiria mais liberdade de planejamento do projeto, sem estar tão vinculado aos editais que participamos 1. Melhoria dos mecanismos de busca - Permitir tipos de busca diferentes do que temos, que é o de "palavras chave" 1. Novas modalidades de filtro - Permitir buscas temáticas, incluindo inicialmente tema dentro da área ambiental e da área de educação - Renne comenta que a busca por contexto nao é muito fazivel. Giulio responde que já experimentamos algumas categorias de busca. Também comenta que não vai ficar aberto pro usuário, é dentro de contextos que já classificamos 1. Explorador de Tecnologia de Educação - Dentro da temática de tecnologias para educação, gestores municipais poderão consultar o que outros municípios estão implementando dentro do QD. Assim, pretendemos que as boas práticas fiquem menos isoladas, havendo maior integração entre diferentes partes do país 1. Download de resultados e da base completa - Todo projeto de dados abertos deve disponibilizar a base completa em formato agregado (ZIP, CSV, etc.). Também vamos fazer isso para os resultados da busca 1. Modelagem do banco de dados e desenho do fluxo de dados - Reestruturar a arquitetura de dados do projeto - Começar a construir a interação com um data lake que permitirá o cruzamento com outras bases de dados 1. Expansão da cobertura municipal de DOs, adicionando 50 cidades - Parte voltadas para ambiental (edital), parte para educação (edital) - Também continuamos com a intenção de completar as capitais na medida do possível e também cidade com mais de 100 mil habitantes - Esse número é um chão, podemos ir além disso se conseguirmos 1. Manutenção de raspadores - Com mais raspadores sendo integrados, a manutenção será mais crítica. Precisamos criar uma rotina de manutenção. 1. Toolkit sobre abertura de dados - Documento de boas práticas de publicação de DOs - Mentoria pra gestores municipais 1. Foco em melhorias de documentação no primeiro semestre: - Catarse - Documentação em geral (completa, amigável e bilíngue) 1. Integração do cadastro de URLs do Censo ao repositório de raspadores - Tornar parte do processo de adicionar raspadores buscar onde ficam todos os endereços de publicação daquela cidade 1. Sprints - Planejamos executar pelo menos 4 sprints nesse ano. A primeira será dia 05/03, no contexto do ODD. 1. Fomentar matérias utilizando o QD como fonte de dados como fizemos ano passado - Renne Rocha: relembra que vai dar palestra na PyCon US em Abril sobre o QD. Questiona se terá algo que pode aproveitar da PyCon pra agregar ao projeto, e também pediu ajuda pra elaborar a palestra (com mais conteúdo no geral sobre o projeto e não só de raspadores). Giulio responde de fazer reuniões para acertarmos isso até a data da conferência. ## Pauta: NLP com o Fabio Collado Foi um trabalho para uma disciplina de Mestrado na UNICAMP. Objetivo: Identificar as seções de licitação de alguns diários utilizando Deep Learning - Treinou o algoritmo de forma não-supervisionada (sem indicar previamente o que seria uma licitação) - Achados do projeto: 1. Melhorar a qualidade dos dados textuais é essencial para aprimorar o NLP 1. Seria interessante experimentar encontrar maneiras de segmentar o Diário em seções e a partir daí descobrir qual o tipo da seção fazendo buscas simples. Provavelmente a seção que tenha mais palavras "licitação" será a seção que trata deste assunto. 1. Sugeriu também tentar algoritmos mais simples do que Deep Learning. - A frente de NLP do projeto ainda está bastante incipiente. Giulio aponta que é uma frente aberta pra quem quiser desenvolver. - Bernardo: Alguns sistemas disponibilizam as seções já segmentadas, mas a equipe cadastrando fontes de Diários no QD combinou de focar nas fontes em PDF. Questiona quais as implicações disso no projeto. - Giulio confirma que sim, foi uma decisão de projeto privilegiar PDF porque é o formato mais comum de publicação. Pelo lado do consumo automatizado, o formato segmentado pode até ser mais interessante, mas são poucos os lugares que já disponibilizam o Diário assim. - Renne reafirma que a maior parte dos diários segue esse padrão. - Bernardo sugere que quando tem fontes múltiplas pro mesmo local, e se elas forem de formatos diferentes, usar as fontes diferentes para aprendizado supervisionado: comparar o aprendizado obtido com o consumo de uma das fontes e checar com outra fonte a corretude. ## Pauta: Projeto RO-DOU com o Nitai RO-DOU: Robô Minerador do Diário Oficial da União Apresentação do projeto: * Objetivo: "Libertar as pessoas da tarefa manual de pesquisa no DOU" * É um software livre; * Utiliza Airflow como motor e a API da Imprensa Nacional como fonte * Utiliza Airflow: ferramenta de orquestração de tarefas * Configuração através de YAML * YAMLs utilizados para configurar os termos que são desejados no clipping do Diário * Cada retorno de busca é compilado e enviado, em resumo, por email * Observações: - Executado todo dia às 5h buscando o DOU do dia anterior. Isto porque teoricamente é a hora que o DOU já deveria estar anexado. - Retoma uma conversa que houve no Discord da OKBR sobre a confiabilidade da busca e conta que concluiu que 2 dias anteriores é a referência de seguro. Ou seja, por diferenças de momento de publicação dos DOs municipais, por vezes, o DOM do dia anterior ainda não está publicado, então busca o de dois dias antes pra evitar esse problema. - API do DOU / Imprensa Nacional - YAML cobre todos os parâmetros que tem na API do DOU - Comenta da issue que abriu em dezembro no QD sobre busca com mais de um termo. - Lista dinâmica de termos: Cada usuário pode configurar quais termos deseja que sejam buscados no YAML - Diversifica fontes. Poderemos colocar mais de uma fonte para ser usada para consulta, a medida que mais fontes forem implementadas. * RO-DOU no github: https://github.com/economiagovbr/Ro-dou * Quem desejar testar o projeto, tem um docker-compose disponível e um servidor SMTP é criado para simular o recebimento de emails. E também é possível fazer contribuições para o aprimoramento do projeto através do repositório no GitHub. Metas do projeto: 1. Integração com o QD: - Era uma meta, mas que já foi feita. Está no fork dele e irá contribuir em breve pro GitHub do QD. 1. Desenvolver uma interface web mais simples para edição - YAMLs demandam manutenção, até mesmo manual, dos termos buscados. Interface que gera o YAML com mais facilidade. 1. Disponibilização de um Serviço Público - Giulio comenta da Fernanda Campagnucci usando o RO-DOU. - Nitai comenta que conversou com algumas pessoas e está dando acesso e configurando as buscas para elas em seu servidor. Mas que seu desejo é que ele se concretize como Serviço Público. Perguntas: - André: pergunta o que roda na DAG. - Nitai: o worker do Airflow são tasks python que fazem a leitura dos YAML para configurar a busca na API e depois enviar por email. Email é um recurso do próprio Airflow. - Giulio: funcionalidade de mandar email e do uso de airflow são desejos para o QD. Como ele enxerga a integração com o QD no sentido da manuteção do sistema de conjunto? - Espera que o QD seja um serviço como o RO-DOU pra melhor acompanhamento do que sai nos municipios - API do QD ajuda a possibilitar o desenvolvimento de soluções, mas que atualmente está limitada apenas ao buscador. - Hora de pensar mais em serviços como (monitoramento.qd ou clipping.qd) para escalar as potencialidades do projeto e provocar os municipios até mesmo a investir no QD e se adequar para o padrão do projeto. Fechar o ciclo do município mesmo investir no raspador de seu DOM pros próprios servidores usarem. - Renne emenda na pergunta de como o RO-DOU adaptado ao QD consome a API. - Nitai diz que faz por requests. - Renne devolve que tem um wrapper pra API para garantir melhor integração, estabilidade e confiabilidade. - Nitai acha que a toolbox é o caminho mesmo, para possibilitar a integração dos dois projetos. - Giulio: toolbox e o wrapper tem caminhos separados. A toolbox é uma biblioteca que executa as tarefas que o QD consegue realizar, por exemplo, a extração de texto. Já o wrapper seria uma biblioteca que abstrai as requisições que são feitas para a API. - Decidimos que o wrapper do Renne será "oficializado" dentro do projeto com repo próprio no GitHub da OK. - Nitai comenta que a API do QD está desatualizadas desde o dia 17/fev. - Giulio comentou que está junto com a infra da Serenata e descobriu ontem (23/02) que o disco da máquina havia chegado ao limite e talvez tenha sido isso. Esperaremos para ver se amanhã voltará a funcionar - Renne: Pergunta se inclumos no Planejamento a meta de separar os servidores do QD e da Serenata. - Giulio confirma que é critico elas estarem juntas e que planejamos sim separar dentro da reformulação da arquitetura. - Giulio: Também queremos disponibilizar os dados dos QD para as pessoas. Elaborar um produto para cadastro de pessoas para o buscador. Dúvida: como seguir nesse caminho a partir do momento atual? Como integrar os dois projetos e dar atenção de qualidade para ambos? Será integrando interfaces? Manter o RO-DOU na OK? Apresentando preocupação em ter coisas coesas enquanto comunidade: não precisamos dividir os esforços em atuação separadas e não conversadas, podemos nos alinhar. - Nitai não pretende desenvolver sozinho. Tenta provocar o Ministério a apoiar financeiramente, mas vê muitas barreiras. Está recebendo devolutivas negativas das solicitações de apoio que pede junto ao governo. - Nitai fica mantendo os YAMLs manualmente hoje para algumas pessoas. - Durante apresentação no CODA, percebeu que, por hoje o uso do RO-DOU estar intermediado por ele, algumas pessoas que tinham se interessado pelo RO-DOU não foram em frente para dizer quais buscas gostariam. Talvez por ser um público de jornalistas (que podem fazer pesquisas sensíveis ou não querem expor a busca que fazem). Isto reafirmou a meta dele de criar uma interface web que permite a configuração da busca sem intermédio humano. - Giulio devolve que é um desenvolvimento conjunto e que estamos dispostos a apoiar a parceria. Indicação pro segundo semestre que é quando vamos fazer mudanças mais técnicas já que o primeiro semestre está mais dedicado à documentação. Possibilidade de sprints e pareamentos para desenvolvimento. Enquanto o segundo semestre não chega, podemos manter a integração via wrapper e aí então passar a aprimorar isso junto às demais manutenções técnicas planejadas. - Nitai se dispõe a possibilitar a parceria também, inclusive com a realização de oficinas (como de Airflow). Sugeriu também colocar no ar uma versão de teste interna para a equipe do QD ir conhecendo e experimentando. Pode também ajudar na melhoria da escolha dos termos para YAMLs. - Giulio: sim, queremos muito. <3 - Pedro: além da integração, as possibilidades de destino do conteúdo achado também podem se diversificar: além do e-mail, poderia ter opções de feed rss, site, bot no telegram... ###### tags: `Maintainers`, `February`, `2022`