# Ata - 17ª reunião de pessoas mantenedoras *Quinta-feira, 29 de setembro de 2022* [TOC] ## Presentes - Giulio Carvalho - Juliana Trevine - Renne Rocha - Lucas Guimarães - Pedro Guimarães - Gustavo Bonesso - Lucas Villela - José Vanz ## Recados 1. Atualização do site do QD - A empresa Jurema está atualizando o frontend do QD. A pré-visualização das mudanças sendo implementadas podem ser vistas aqui: https://queridodiario.jurema.la/ - Muitas mudanças para usabilidade mobile. - Questão sobre adicionar um Content Management Service (CMS) para as publicações ou não. Discussão sobre usar wordpress, plone, django, jekyll. - Preocupação com o esforço extra de manutenção de mais uma ferramenta. - Esta é uma entrega futura. Apenas sendo adiantada na reunião para darem opinião sobre. 2. Parcerias com universidades - As parcerias tiveram início. Matéria no [site da OK](https://ok.org.br/noticia/querido-diario-nas-universidades/) - Começaram com duas que irão atacar problemas de ciencia de dados como segmentação de diários. - CEFET-RJ devm entrar a partir de agora também, estudando recomendação de conteúdo em base aos datasets de questão ambiental e educação. - Em paralelo ao acompanhamento dos grupos, estamos realizando uma pesquisa de estado-da-arte sobre Processamento de Linguagem Natural voltado para documentos em português, focando principalmente em diários oficiais ou documentos similares. Com isso, pretendemos embasar melhor uma segunda rodada de parcerias. - Lucas Vilella indica interesse em experimentar extração de texto de pdf para tentar raspar o Acre. - Discussão sobre ferramentas para isso: apache tika ou fitz ## Pauta: Hacktoberfest https://ok.org.br/noticia/voce-conhece-os-projetos-da-okbr-que-estao-participando-do-hacktoberfest/ - Passos sendo dados: - Atualização da documentação, de issues nos repositórios e do catarse. - Foi adicionada a tag de hacktoberfest nos repositórios participantes. - Os 2 repositórios que costumamos ter mais contribuição (querido-diario e querido-diario-frontend) tem mantenedores próprios: o Renne e o Lucas. - Como Giulio já é familiarizado com os repositórios querido-diario-toolbox, querido-diario-data-processing e querido-diario-api, vai abrir issues simples como de adição de testes unitários e ficar responsável por eles. - Uma sprint planejada: na Python Brasil, entre 17 e 19 de outubro. - Será híbrida, parte presencial no evento e parte online. - Tema: raspadores para municípios da Amazônia Legal. - Neste mesmo tema, terá uma sprint no CODA.br (em novembro). A ideia é que essas sprints sejam complementares. - Incerteza sobre como serão as sprints da pybr quanto a infraestrutura. Se for possível, o ideal seria se a parte online da sprint fosse de 4h, um turno do dia. - Além da pessoa dando a sprint presencial, outra pessoa precisa ser encarregada de cuidar da parte online. - Renne: Vai construir um projeto no github para deixar por volta de 15 maiores cidades da Amazônia Legal indicadas, com pré-avaliação, para a sprint. - Gustavo: dúvida sobre como funciona o processo de "aceite" da contribuição até entrar em produção. - Raspadores em produção executam 2x por dia. Quais são? Os que estão no arquivo enabled_spiders. GitHub Action envia para Zyte rodar. - Como eles entram em produção: todos os parâmetros de avaliação que garantem a execução diária precisam ser validados antes de entrar em produção. - Antes um PR era aceito no github, mas não imediatamente entrava em produção. Hoje temos mais conforto com infra, então já deve passar a entrar em produção após revisão. - Uma pessoa mantenedora puxa toda as publicações uma vez, para ter o histórico de publicações no acervo do Querido Diário e então, ao entrar em produção, eles só raspam o diário dia a dia. - Gustavo comenta sentir falta de testes esperados na documentação. Indicação: https://github.com/okfn-brasil/querido-diario/issues/463 - O que buscamos? Que o raspador adicionado seja o mais simples possível. Que seja capaz de baixar todos os diários do site em uma única raspagem completa. Ter um start_date e end_date funcionais para qualquer conjunto de datas. Que faça o mínimo de requisições possível, principalmente na raspagem diária. Informações disponíveis no site devem constar nos metadados armazenados. - https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html ###### tags: `Maintainers`, `September`, `2022`