# Ata - 11ª Reunião das pessoas mantenedoras
*Quinta-feira, 24 de fevereiro de 2022*
[TOC]
## Presentes
- Giulio Carvalho
- Juliana Trevine
- André Formento
- Nitai Bezerra
- Renne Rocha
- David Pierre
- Emanuelle
- Bernardo Baron
- Pedro Guimarães
- Luxu Luciano
## Pauta: Planejamento do Querido Diário para 2022
Para 2022, planejamos melhorar o projeto em várias frentes. Muitas dessas melhorias estão vinculadas a editais e projetos que estamos participando. Nesse planejamento também pensamos em estruturar o projeto para no próximo ano estar mais estável e ter um planejamento com prazos mais longos e menos vinculado a editais e talvez a produtos oferecidos pelo próprio projeto.
Os itens planejados para 2022 são:
1. Elaboração de um Plano de Patrocínio
1. Projeto de produto
- Idear um produto a partir do QD permitiria mais liberdade de planejamento do projeto, sem estar tão vinculado aos editais que participamos
1. Melhoria dos mecanismos de busca
- Permitir tipos de busca diferentes do que temos, que é o de "palavras chave"
1. Novas modalidades de filtro
- Permitir buscas temáticas, incluindo inicialmente tema dentro da área ambiental e da área de educação
- Renne comenta que a busca por contexto nao é muito fazivel. Giulio responde que já experimentamos algumas categorias de busca. Também comenta que não vai ficar aberto pro usuário, é dentro de contextos que já classificamos
1. Explorador de Tecnologia de Educação
- Dentro da temática de tecnologias para educação, gestores municipais poderão consultar o que outros municípios estão implementando dentro do QD. Assim, pretendemos que as boas práticas fiquem menos isoladas, havendo maior integração entre diferentes partes do país
1. Download de resultados e da base completa
- Todo projeto de dados abertos deve disponibilizar a base completa em formato agregado (ZIP, CSV, etc.). Também vamos fazer isso para os resultados da busca
1. Modelagem do banco de dados e desenho do fluxo de dados
- Reestruturar a arquitetura de dados do projeto
- Começar a construir a interação com um data lake que permitirá o cruzamento com outras bases de dados
1. Expansão da cobertura municipal de DOs, adicionando 50 cidades
- Parte voltadas para ambiental (edital), parte para educação (edital)
- Também continuamos com a intenção de completar as capitais na medida do possível e também cidade com mais de 100 mil habitantes
- Esse número é um chão, podemos ir além disso se conseguirmos
1. Manutenção de raspadores
- Com mais raspadores sendo integrados, a manutenção será mais crítica. Precisamos criar uma rotina de manutenção.
1. Toolkit sobre abertura de dados
- Documento de boas práticas de publicação de DOs
- Mentoria pra gestores municipais
1. Foco em melhorias de documentação no primeiro semestre:
- Catarse
- Documentação em geral (completa, amigável e bilíngue)
1. Integração do cadastro de URLs do Censo ao repositório de raspadores
- Tornar parte do processo de adicionar raspadores buscar onde ficam todos os endereços de publicação daquela cidade
1. Sprints
- Planejamos executar pelo menos 4 sprints nesse ano. A primeira será dia 05/03, no contexto do ODD.
1. Fomentar matérias utilizando o QD como fonte de dados como fizemos ano passado
- Renne Rocha: relembra que vai dar palestra na PyCon US em Abril sobre o QD. Questiona se terá algo que pode aproveitar da PyCon pra agregar ao projeto, e também pediu ajuda pra elaborar a palestra (com mais conteúdo no geral sobre o projeto e não só de raspadores). Giulio responde de fazer reuniões para acertarmos isso até a data da conferência.
## Pauta: NLP com o Fabio Collado
Foi um trabalho para uma disciplina de Mestrado na UNICAMP.
Objetivo: Identificar as seções de licitação de alguns diários utilizando Deep Learning
- Treinou o algoritmo de forma não-supervisionada (sem indicar previamente o que seria uma licitação)
- Achados do projeto:
1. Melhorar a qualidade dos dados textuais é essencial para aprimorar o NLP
1. Seria interessante experimentar encontrar maneiras de segmentar o Diário em seções e a partir daí descobrir qual o tipo da seção fazendo buscas simples. Provavelmente a seção que tenha mais palavras "licitação" será a seção que trata deste assunto.
1. Sugeriu também tentar algoritmos mais simples do que Deep Learning.
- A frente de NLP do projeto ainda está bastante incipiente. Giulio aponta que é uma frente aberta pra quem quiser desenvolver.
- Bernardo: Alguns sistemas disponibilizam as seções já segmentadas, mas a equipe cadastrando fontes de Diários no QD combinou de focar nas fontes em PDF. Questiona quais as implicações disso no projeto.
- Giulio confirma que sim, foi uma decisão de projeto privilegiar PDF porque é o formato mais comum de publicação. Pelo lado do consumo automatizado, o formato segmentado pode até ser mais interessante, mas são poucos os lugares que já disponibilizam o Diário assim.
- Renne reafirma que a maior parte dos diários segue esse padrão.
- Bernardo sugere que quando tem fontes múltiplas pro mesmo local, e se elas forem de formatos diferentes, usar as fontes diferentes para aprendizado supervisionado: comparar o aprendizado obtido com o consumo de uma das fontes e checar com outra fonte a corretude.
## Pauta: Projeto RO-DOU com o Nitai
RO-DOU: Robô Minerador do Diário Oficial da União
Apresentação do projeto:
* Objetivo: "Libertar as pessoas da tarefa manual de pesquisa no DOU"
* É um software livre;
* Utiliza Airflow como motor e a API da Imprensa Nacional como fonte
* Utiliza Airflow: ferramenta de orquestração de tarefas
* Configuração através de YAML
* YAMLs utilizados para configurar os termos que são desejados no clipping do Diário
* Cada retorno de busca é compilado e enviado, em resumo, por email
* Observações:
- Executado todo dia às 5h buscando o DOU do dia anterior. Isto porque teoricamente é a hora que o DOU já deveria estar anexado.
- Retoma uma conversa que houve no Discord da OKBR sobre a confiabilidade da busca e conta que concluiu que 2 dias anteriores é a referência de seguro. Ou seja, por diferenças de momento de publicação dos DOs municipais, por vezes, o DOM do dia anterior ainda não está publicado, então busca o de dois dias antes pra evitar esse problema.
- API do DOU / Imprensa Nacional
- YAML cobre todos os parâmetros que tem na API do DOU
- Comenta da issue que abriu em dezembro no QD sobre busca com mais de um termo.
- Lista dinâmica de termos: Cada usuário pode configurar quais termos deseja que sejam buscados no YAML
- Diversifica fontes. Poderemos colocar mais de uma fonte para ser usada para consulta, a medida que mais fontes forem implementadas.
* RO-DOU no github: https://github.com/economiagovbr/Ro-dou
* Quem desejar testar o projeto, tem um docker-compose disponível e um servidor SMTP é criado para simular o recebimento de emails. E também é possível fazer contribuições para o aprimoramento do projeto através do repositório no GitHub.
Metas do projeto:
1. Integração com o QD:
- Era uma meta, mas que já foi feita. Está no fork dele e irá contribuir em breve pro GitHub do QD.
1. Desenvolver uma interface web mais simples para edição
- YAMLs demandam manutenção, até mesmo manual, dos termos buscados. Interface que gera o YAML com mais facilidade.
1. Disponibilização de um Serviço Público
- Giulio comenta da Fernanda Campagnucci usando o RO-DOU.
- Nitai comenta que conversou com algumas pessoas e está dando acesso e configurando as buscas para elas em seu servidor. Mas que seu desejo é que ele se concretize como Serviço Público.
Perguntas:
- André: pergunta o que roda na DAG.
- Nitai: o worker do Airflow são tasks python que fazem a leitura dos YAML para configurar a busca na API e depois enviar por email. Email é um recurso do próprio Airflow.
- Giulio: funcionalidade de mandar email e do uso de airflow são desejos para o QD. Como ele enxerga a integração com o QD no sentido da manuteção do sistema de conjunto?
- Espera que o QD seja um serviço como o RO-DOU pra melhor acompanhamento do que sai nos municipios
- API do QD ajuda a possibilitar o desenvolvimento de soluções, mas que atualmente está limitada apenas ao buscador.
- Hora de pensar mais em serviços como (monitoramento.qd ou clipping.qd) para escalar as potencialidades do projeto e provocar os municipios até mesmo a investir no QD e se adequar para o padrão do projeto. Fechar o ciclo do município mesmo investir no raspador de seu DOM pros próprios servidores usarem.
- Renne emenda na pergunta de como o RO-DOU adaptado ao QD consome a API.
- Nitai diz que faz por requests.
- Renne devolve que tem um wrapper pra API para garantir melhor integração, estabilidade e confiabilidade.
- Nitai acha que a toolbox é o caminho mesmo, para possibilitar a integração dos dois projetos.
- Giulio: toolbox e o wrapper tem caminhos separados. A toolbox é uma biblioteca que executa as tarefas que o QD consegue realizar, por exemplo, a extração de texto. Já o wrapper seria uma biblioteca que abstrai as requisições que são feitas para a API.
- Decidimos que o wrapper do Renne será "oficializado" dentro do projeto com repo próprio no GitHub da OK.
- Nitai comenta que a API do QD está desatualizadas desde o dia 17/fev.
- Giulio comentou que está junto com a infra da Serenata e descobriu ontem (23/02) que o disco da máquina havia chegado ao limite e talvez tenha sido isso. Esperaremos para ver se amanhã voltará a funcionar
- Renne: Pergunta se inclumos no Planejamento a meta de separar os servidores do QD e da Serenata.
- Giulio confirma que é critico elas estarem juntas e que planejamos sim separar dentro da reformulação da arquitetura.
- Giulio: Também queremos disponibilizar os dados dos QD para as pessoas. Elaborar um produto para cadastro de pessoas para o buscador. Dúvida: como seguir nesse caminho a partir do momento atual? Como integrar os dois projetos e dar atenção de qualidade para ambos? Será integrando interfaces? Manter o RO-DOU na OK? Apresentando preocupação em ter coisas coesas enquanto comunidade: não precisamos dividir os esforços em atuação separadas e não conversadas, podemos nos alinhar.
- Nitai não pretende desenvolver sozinho. Tenta provocar o Ministério a apoiar financeiramente, mas vê muitas barreiras. Está recebendo devolutivas negativas das solicitações de apoio que pede junto ao governo.
- Nitai fica mantendo os YAMLs manualmente hoje para algumas pessoas.
- Durante apresentação no CODA, percebeu que, por hoje o uso do RO-DOU estar intermediado por ele, algumas pessoas que tinham se interessado pelo RO-DOU não foram em frente para dizer quais buscas gostariam. Talvez por ser um público de jornalistas (que podem fazer pesquisas sensíveis ou não querem expor a busca que fazem). Isto reafirmou a meta dele de criar uma interface web que permite a configuração da busca sem intermédio humano.
- Giulio devolve que é um desenvolvimento conjunto e que estamos dispostos a apoiar a parceria. Indicação pro segundo semestre que é quando vamos fazer mudanças mais técnicas já que o primeiro semestre está mais dedicado à documentação. Possibilidade de sprints e pareamentos para desenvolvimento. Enquanto o segundo semestre não chega, podemos manter a integração via wrapper e aí então passar a aprimorar isso junto às demais manutenções técnicas planejadas.
- Nitai se dispõe a possibilitar a parceria também, inclusive com a realização de oficinas (como de Airflow). Sugeriu também colocar no ar uma versão de teste interna para a equipe do QD ir conhecendo e experimentando. Pode também ajudar na melhoria da escolha dos termos para YAMLs.
- Giulio: sim, queremos muito. <3
- Pedro: além da integração, as possibilidades de destino do conteúdo achado também podem se diversificar: além do e-mail, poderia ter opções de feed rss, site, bot no telegram...
###### tags: `Maintainers`, `February`, `2022`