L'un des enjeux actuels autour du traitement et de l'analyse de données se trouve au niveau des étapes de préparation (nettoyage, filtre, restructuration) et d'exploration (statistique, visualisation, cartographie) des jeux de données. L'open data c'est super, mais bien souvent les jeux de données mis à disposition ne sont pas "prets" et "optimisés" à être directement intégrés au sein des logiciels d'analyse comme les SIG. La principale problématique est bien celle du volume des données. Dans un fichier .csv ou .xls classique, la plupart des opérations de préparation et d'exploration de données peuvent aisement être réalisées avec excel ou librecalc. Mais lorsqu'on commence à vouloir manipuler et explorer des jeux de données plus volumineux (plus d'un million de lignes), ces logiciels familiers ne sont plus en capacité de répondre aux besoins. Et le passage à des environnement plus "adapatés" aux données plus volumineuses comme R s'impose. Présentation du Tidyverse L'une des solutions les plus efficaces pour cette étape primordiale de "Dataprep" réside dans l'utilisation de l'environnement R qui permet au sein d'un outil unique de disposer d'une multitude de fonctionnalités pour répondre aux besoins des explorateurs de données.
12/18/2023L'objectif de cette séance est de mobiliser différents packages de R pour cartographier à partir des données DVF l'évolution dans le temps des prix au m² des ventes d'appartements et de maisons de l'aire urbaine de Nantes (2014-2019). Cette séance revient à la fois sur la préparation de données (filtre, agrégation, calcul d'indicateurs, restructuration) et la réalisation de cartes thématiques dans l'environnement R. PARTIE 1 : Préparer les données DVF pour la France La première partie de la séance consiste à mettre en place un **script de préparation des données DVF (nettoyage, structuration et enrichissement). Séance > https://hackmd.io/KQkBGA1MTiujiWYtjOJdvA?view Résultat de la première partie de la séance
11/22/2021PRÉPARATION DES DONNÉES DVF OPENDATA Ce script a comme objectif de préparer les données DVF géolocalisées disponibles en opendata (nettoyage, filtrage, agrégation,...). 1.Préparation du projet Télécharger les données de 2020 https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres-geolocalisees/ Définition de l'environnement de travail On définit ici le dossier qui centralise les données et où les différents jeux de données seront exportés
11/20/20211- PRÉPARATION DES DONNÉES DVF OPENDATA Cette première partie du script a comme objectif de préparer les données DVF en opendata avant de commencer les analyses (nettoyage, filtrage, agrégation,...). Seul le package tidyverse dédié à la manipulation de données est nécessaire. library(tidyverse) Définition de l'environnement de travail
7/2/2021or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up