---
title: 2020/2 - Alan Dariva de Oliveira
tags: Aluno, Big Data, Data Science, Data Analytics
---
# Alan Dariva de Oliveira
O objetivo deste arquivo é documentar o processo de pesquisa para elaboração do projeto aplicado para conclusão do curso Big Data, Data Science e Data Analytics.
## Etapas iniciais
Definindo o tema
### Cronograma:
TODO
## Semana do dia 26/07/2020
* Reunião do dia 28/07/2020:
* Objetivo: fazer as apresentações e alinhamentos iniciais, bem como definir os próximos passos.
* Ideia proposta:
* Propus trabalhar com o tema "Relação entre a evolução no número de óbitos com as tendências de deslocamento nas diferentes categorias de locais".
* Gabriel apresentou outras propostas de temas, entre eles: diagnóstico de covid-19 via imagem toráxica e diagnóstico de estenose.
* Próximos passos:
* Definição do tema (prazo: 31/07/2020)
* Completar curso [Python for Data Science and AI](https://www.coursera.org/learn/python-for-applied-data-science-ai) (prazo: 08/08/2020)
## Semana do dia 02/08/2020
* Reunião do dia 03/08/2020:
* Apresentação do tema e exibição da proposta/dados que serão trabalhados
* Próximos passos:
* Analisar os dados do xml (prazo: 07/08/2020)
* Definição do cronograma para criação do dataset (prazo: 10/08/2020)
### Análise do XML do portal https://portal.gdc.cancer.gov/:
Project: TCGA-BRCA
Data Category: clinical
Data Type: Clinical Supplement
Data Format: bcr xml
Arquivos contem 2 nós, admin e patient
* Admin: contem informação gerais do projeto e arquivo
* Patient: dados referentes ao paciente, os nós contem um atributo chamado cde (Common Data Elements: https://datascience.cancer.gov/resources/metadata). Informações sobre cada cde podem ser vistas aqui: https://cdebrowser.nci.nih.gov/
Parece já haver programas para trabalhar diretamente com esses arquivos xml com cde's (https://datascience.cancer.gov/resources/metadata)
## Semana do dia 09/08/2020