# Dados * Oficial Ministério da Saúde: https://covid.saude.gov.br/ * São 4 CSVs * Se atente com a coluna `regiao`/`estado` que se estiver com `Brasil` ou vazia é o Brasil todo * Tweets: https://zenodo.org/record/5073680 * 01-01-2019 até 31-12-2019 * 01-01-2020 até 31-12-2020 * 01-01-2021 até 30-06-2021 * SRAG * SRAG 2019: https://opendatasus.saude.gov.br/dataset/bd-srag-2019 * SRAG 2020: https://opendatasus.saude.gov.br/dataset/bd-srag-2020 * SRAG 2021: https://opendatasus.saude.gov.br/dataset/bd-srag-2021 ## Localização do Usuário do Twitter API do Twitter: $\approx 3$mi usuários únicos e $\approx 410$mil locations únicas * coluna `location` Pegar o `unique` dessa coluna e passar pros alunos rotularem com: * `nation`: `string` -- fechado para apenas `BR` ou `Outro` * `state`: `string` -- fechado apenas para UF dois dígitos, e.g. `SP`, `RJ` etc. * `city`: `string` * `valid`: `bool` -- `0` ou `1` * Talvez usar somente as `location`s com ocorrência $\geq 2$ Prova de conceito em [`COVID-Classifier/Twitter_Perfis_de_Usuarios_COVID19.ipynb`](https://github.com/LabCidades/COVID-Classifier/blob/pandas-srag/scripts/Twitter_Perfis_de_Usuarios_COVID19.ipynb).