# Ata - 15ª Reunião das pessoas mantenedoras
*Quinta-feira, 30 de junho de 2022*
[TOC]
## Presentes
- Giulio Carvalho
- Ariane Alves
- Juliana Trevine
- Renne Rocha
- anibalsolon
- Benigni
## Recados
--
## Pauta: requisitos para adicionar raspadores ao projeto
Aproveitando as recentes discussões sobre OCR e integração com o processamento de dados, o uso do Censo, assim como a discussão https://github.com/okfn-brasil/querido-diario/issues/546, vamos revisitar o que achamos que seria necessário um raspador conter de informação associada a ele ao ser adicionado ao projeto?
E não esqueçam de adicionar tópicos que achem relevantes para discussão na Pauta Colaborativa (https://github.com/okfn-brasil/querido-diario-comunidade/discussions/10) !
---
Básico do Censo de Diários Municipais: ter as urls das cidades que queremos raspar
Tópico: https://github.com/okfn-brasil/querido-diario/issues/546
- Renne:
- Muitos raspadores tem códigos curtos. Talvez não precise documentar eles, somente nos raspadores mais complexos pode ser necessário.
- Documentação do padrão de projeto dos raspadores (https://github.com/okfn-brasil/querido-diario/pull/280). Guidelines podem incluir a natureza do DO (legislativo, executivo, judiciário)
- Guia de desenvolvimento de raspadores no repo de comunidade. https://github.com/okfn-brasil/querido-diario/pull/280
- Pasta de documentações dentro do repo do QD, para spiders mais tensos
* Vão começar com alguns raspadores, de forma livre. https://github.com/okfn-brasil/querido-diario/issues/546
Ponto sobre a natureza dos diários:
- Temos certeza de qual a natureza dos DOs que colhemos? Nem sempre.
- Conclusão: sugerir fazer uma avaliação manual, ao ler uma certa amostra de DOs do municipio, e escolher uma classificação. Incluir a informação no guia de contribuição. Indicação do que procurar no DO para saber classificar.
Censo:
- Dificuldade de seguir o censo em frente
- Mas ele é importante pro repo de raspadores
- Sugestão: reduzir a qualidade de info de cadastro. Mover os dados do Censo pro repo dos raspadores, e vincular o processo de cadastro de URLs à escrita de raspadores para determinado município. A contribuição não precisa extrair todos os sistemas de publicação de DOs da cidade (se houver mais de um), mas raspar uma URL deixando ciente quais outras faltam. Bater a cobertura do censo com os raspadores que já existem.
- Ariane, dúvida:
- O Censo possui 3 dimensões: url de publicação, data da primeira publicação e formato do diário extraído. Abdicaríamos de quais?
- Data já esta no raspador, vamos manter as outras duas
- Renne: onde ficam os dados do Censo?
- SQLite no projeto do Censo
- Renne sugere criar uma API para alimentar o censo, e deixar tudo no postgres
- Renne defende que se muitos repos dependem dessa info e consome elas, melhor deixar tudo junto
- Ari pergunta da facilidade com consumir os dados do BD, para fazer analise de dados do censo
- Dá pra criar um export csv do bd
- Giulio: a responsabilidade de cadastro no censo fica com quem for fazer o raspador ou com as pessoas mantenedoras?
- Renne:
- Acho que seriam coisas diferentes, não vejo que o censo seria tão útil assim pro repositório de raspadores
###### tags: `Maintainers`, `June`, `2022`