# Ata - 17ª reunião de pessoas mantenedoras
*Quinta-feira, 29 de setembro de 2022*
[TOC]
## Presentes
- Giulio Carvalho
- Juliana Trevine
- Renne Rocha
- Lucas Guimarães
- Pedro Guimarães
- Gustavo Bonesso
- Lucas Villela
- José Vanz
## Recados
1. Atualização do site do QD
- A empresa Jurema está atualizando o frontend do QD. A pré-visualização das mudanças sendo implementadas podem ser vistas aqui: https://queridodiario.jurema.la/
- Muitas mudanças para usabilidade mobile.
- Questão sobre adicionar um Content Management Service (CMS) para as publicações ou não. Discussão sobre usar wordpress, plone, django, jekyll.
- Preocupação com o esforço extra de manutenção de mais uma ferramenta.
- Esta é uma entrega futura. Apenas sendo adiantada na reunião para darem opinião sobre.
2. Parcerias com universidades
- As parcerias tiveram início. Matéria no [site da OK](https://ok.org.br/noticia/querido-diario-nas-universidades/)
- Começaram com duas que irão atacar problemas de ciencia de dados como segmentação de diários.
- CEFET-RJ devm entrar a partir de agora também, estudando recomendação de conteúdo em base aos datasets de questão ambiental e educação.
- Em paralelo ao acompanhamento dos grupos, estamos realizando uma pesquisa de estado-da-arte sobre Processamento de Linguagem Natural voltado para documentos em português, focando principalmente em diários oficiais ou documentos similares. Com isso, pretendemos embasar melhor uma segunda rodada de parcerias.
- Lucas Vilella indica interesse em experimentar extração de texto de pdf para tentar raspar o Acre.
- Discussão sobre ferramentas para isso: apache tika ou fitz
## Pauta: Hacktoberfest
https://ok.org.br/noticia/voce-conhece-os-projetos-da-okbr-que-estao-participando-do-hacktoberfest/
- Passos sendo dados:
- Atualização da documentação, de issues nos repositórios e do catarse.
- Foi adicionada a tag de hacktoberfest nos repositórios participantes.
- Os 2 repositórios que costumamos ter mais contribuição (querido-diario e querido-diario-frontend) tem mantenedores próprios: o Renne e o Lucas.
- Como Giulio já é familiarizado com os repositórios querido-diario-toolbox, querido-diario-data-processing e querido-diario-api, vai abrir issues simples como de adição de testes unitários e ficar responsável por eles.
- Uma sprint planejada: na Python Brasil, entre 17 e 19 de outubro.
- Será híbrida, parte presencial no evento e parte online.
- Tema: raspadores para municípios da Amazônia Legal.
- Neste mesmo tema, terá uma sprint no CODA.br (em novembro). A ideia é que essas sprints sejam complementares.
- Incerteza sobre como serão as sprints da pybr quanto a infraestrutura. Se for possível, o ideal seria se a parte online da sprint fosse de 4h, um turno do dia.
- Além da pessoa dando a sprint presencial, outra pessoa precisa ser encarregada de cuidar da parte online.
- Renne: Vai construir um projeto no github para deixar por volta de 15 maiores cidades da Amazônia Legal indicadas, com pré-avaliação, para a sprint.
- Gustavo: dúvida sobre como funciona o processo de "aceite" da contribuição até entrar em produção.
- Raspadores em produção executam 2x por dia. Quais são? Os que estão no arquivo enabled_spiders. GitHub Action envia para Zyte rodar.
- Como eles entram em produção: todos os parâmetros de avaliação que garantem a execução diária precisam ser validados antes de entrar em produção.
- Antes um PR era aceito no github, mas não imediatamente entrava em produção. Hoje temos mais conforto com infra, então já deve passar a entrar em produção após revisão.
- Uma pessoa mantenedora puxa toda as publicações uma vez, para ter o histórico de publicações no acervo do Querido Diário e então, ao entrar em produção, eles só raspam o diário dia a dia.
- Gustavo comenta sentir falta de testes esperados na documentação. Indicação: https://github.com/okfn-brasil/querido-diario/issues/463
- O que buscamos? Que o raspador adicionado seja o mais simples possível. Que seja capaz de baixar todos os diários do site em uma única raspagem completa. Ter um start_date e end_date funcionais para qualquer conjunto de datas. Que faça o mínimo de requisições possível, principalmente na raspagem diária. Informações disponíveis no site devem constar nos metadados armazenados.
- https://docs.queridodiario.ok.org.br/pt/latest/escrevendo-um-novo-spider.html
###### tags: `Maintainers`, `September`, `2022`