# Ata - 15ª Reunião das pessoas mantenedoras *Quinta-feira, 30 de junho de 2022* [TOC] ## Presentes - Giulio Carvalho - Ariane Alves - Juliana Trevine - Renne Rocha - anibalsolon - Benigni ## Recados -- ## Pauta: requisitos para adicionar raspadores ao projeto Aproveitando as recentes discussões sobre OCR e integração com o processamento de dados, o uso do Censo, assim como a discussão https://github.com/okfn-brasil/querido-diario/issues/546, vamos revisitar o que achamos que seria necessário um raspador conter de informação associada a ele ao ser adicionado ao projeto? E não esqueçam de adicionar tópicos que achem relevantes para discussão na Pauta Colaborativa (https://github.com/okfn-brasil/querido-diario-comunidade/discussions/10) ! --- Básico do Censo de Diários Municipais: ter as urls das cidades que queremos raspar Tópico: https://github.com/okfn-brasil/querido-diario/issues/546 - Renne: - Muitos raspadores tem códigos curtos. Talvez não precise documentar eles, somente nos raspadores mais complexos pode ser necessário. - Documentação do padrão de projeto dos raspadores (https://github.com/okfn-brasil/querido-diario/pull/280). Guidelines podem incluir a natureza do DO (legislativo, executivo, judiciário) - Guia de desenvolvimento de raspadores no repo de comunidade. https://github.com/okfn-brasil/querido-diario/pull/280 - Pasta de documentações dentro do repo do QD, para spiders mais tensos * Vão começar com alguns raspadores, de forma livre. https://github.com/okfn-brasil/querido-diario/issues/546 Ponto sobre a natureza dos diários: - Temos certeza de qual a natureza dos DOs que colhemos? Nem sempre. - Conclusão: sugerir fazer uma avaliação manual, ao ler uma certa amostra de DOs do municipio, e escolher uma classificação. Incluir a informação no guia de contribuição. Indicação do que procurar no DO para saber classificar. Censo: - Dificuldade de seguir o censo em frente - Mas ele é importante pro repo de raspadores - Sugestão: reduzir a qualidade de info de cadastro. Mover os dados do Censo pro repo dos raspadores, e vincular o processo de cadastro de URLs à escrita de raspadores para determinado município. A contribuição não precisa extrair todos os sistemas de publicação de DOs da cidade (se houver mais de um), mas raspar uma URL deixando ciente quais outras faltam. Bater a cobertura do censo com os raspadores que já existem. - Ariane, dúvida: - O Censo possui 3 dimensões: url de publicação, data da primeira publicação e formato do diário extraído. Abdicaríamos de quais? - Data já esta no raspador, vamos manter as outras duas - Renne: onde ficam os dados do Censo? - SQLite no projeto do Censo - Renne sugere criar uma API para alimentar o censo, e deixar tudo no postgres - Renne defende que se muitos repos dependem dessa info e consome elas, melhor deixar tudo junto - Ari pergunta da facilidade com consumir os dados do BD, para fazer analise de dados do censo - Dá pra criar um export csv do bd - Giulio: a responsabilidade de cadastro no censo fica com quem for fazer o raspador ou com as pessoas mantenedoras? - Renne: - Acho que seriam coisas diferentes, não vejo que o censo seria tão útil assim pro repositório de raspadores ###### tags: `Maintainers`, `June`, `2022`