--- title: 2020/2 - Alan Dariva de Oliveira tags: Aluno, Big Data, Data Science, Data Analytics --- # Alan Dariva de Oliveira O objetivo deste arquivo é documentar o processo de pesquisa para elaboração do projeto aplicado para conclusão do curso Big Data, Data Science e Data Analytics. ## Etapas iniciais Definindo o tema ### Cronograma: TODO ## Semana do dia 26/07/2020 * Reunião do dia 28/07/2020: * Objetivo: fazer as apresentações e alinhamentos iniciais, bem como definir os próximos passos. * Ideia proposta: * Propus trabalhar com o tema "Relação entre a evolução no número de óbitos com as tendências de deslocamento nas diferentes categorias de locais". * Gabriel apresentou outras propostas de temas, entre eles: diagnóstico de covid-19 via imagem toráxica e diagnóstico de estenose. * Próximos passos: * Definição do tema (prazo: 31/07/2020) * Completar curso [Python for Data Science and AI](https://www.coursera.org/learn/python-for-applied-data-science-ai) (prazo: 08/08/2020) ## Semana do dia 02/08/2020 * Reunião do dia 03/08/2020: * Apresentação do tema e exibição da proposta/dados que serão trabalhados * Próximos passos: * Analisar os dados do xml (prazo: 07/08/2020) * Definição do cronograma para criação do dataset (prazo: 10/08/2020) ### Análise do XML do portal https://portal.gdc.cancer.gov/: Project: TCGA-BRCA Data Category: clinical Data Type: Clinical Supplement Data Format: bcr xml Arquivos contem 2 nós, admin e patient * Admin: contem informação gerais do projeto e arquivo * Patient: dados referentes ao paciente, os nós contem um atributo chamado cde (Common Data Elements: https://datascience.cancer.gov/resources/metadata). Informações sobre cada cde podem ser vistas aqui: https://cdebrowser.nci.nih.gov/ Parece já haver programas para trabalhar diretamente com esses arquivos xml com cde's (https://datascience.cancer.gov/resources/metadata) ## Semana do dia 09/08/2020