Cartographier l'évolution des prix de l'immobilier résidentiel avec R

# Cartographier l'évolution des prix de l'immobilier résidentiel avec R L'objectif de cette séance est de mobiliser différents **packages de R** pour cartographier à partir des **données DVF** l'évolution dans le temps des prix au m² des ventes d'appartements et de maisons de l'aire urbaine de Nantes (2014-2019). Cette séance revient à la fois sur la **préparation de données** (filtre, agrégation, calcul d'indicateurs, restructuration) et la réalisation de **cartes thématiques** dans l'environnement R. ![](https://i.imgur.com/zgy8ECb.png) --- ## PARTIE 1 : Préparer les données DVF pour la France La **première partie de la séance** consiste à mettre en place un **script de préparation des données DVF (nettoyage, structuration et enrichissement). Séance > https://hackmd.io/KQkBGA1MTiujiWYtjOJdvA?view > Résultat de la première partie de la séance ![](https://i.imgur.com/d6qmkfL.png) --- ## PARTIE 2 : Analyses des données DVF à l'échelle de l'aire urbaine de Nantes La **seconde partie de la séance** consiste à travailler sur les d**onnées DVF de l'aire urbaine de Nantes de 2014 à 2019** ## Données & Packages ### Données --- * Transactions DVF issues de la base ["Demandes de valeurs foncières géolocalisées"](https://www.data.gouv.fr/fr/datasets/5cc1b94a634f4165e96436c1/) produite par Etalab > Attention les données DVF utilisées ici sont préparées en amont (séance précédente) * Contours des IRIS/communes (IGN) > Attention il n'existe pas de fichier de contours IRIS/communes pour l'aire urbaine de Nantes, il faut en amont préparer ce jeu de données géographique en mobilisant des données IGN et de l'INSEE ### Packages --- **Tidyverse** pour la manipulation et la restructuration des données https://www.tidyverse.org/ ``` library(tidyverse) ``` **SF** pour la manipulation de données spatiales (importation de shapefile, reprojection, jointures spatiales) https://r-spatial.github.io/sf/ ``` library(sf) ``` **Cartography** pour la cartographie thématique https://rcarto.github.io/carto_avec_r/chapitre2.html ``` library(cartography) ``` ## Cartographier les prix de l'immobilier et autre indicateurs pour toute la période (2014-2019) ### Importer les transactions 1. Importer le shapefile dans R ``` Transactions <- st_read(dsn = "C:/Users/Xo/Desktop/DVF_NANTES/TransactionsDVF.shp", stringsAsFactors = FALSE) ``` 2. Visualiser les transactions selon le code de la commune ``` plot(Transactions["codecommun"]) ``` ![](https://i.imgur.com/Xp90z8N.png) ### Importer les contours des IRIS/communes 1. Importer le shapefile dans R ``` IRIS <- st_read(dsn = "C:/Users/Xo/Desktop/DVF_NANTES/iris.shp", stringsAsFactors = FALSE) ``` 2. Visualiser les transactions selon le nom de l'IRIS ``` plot(IRIS["nom_iris"]) ``` ![](https://i.imgur.com/12YTUY9.png) ### Reprojeter les contours des IRIS/communes 1. Verifier les SCR des deux couches ``` st_crs(Transactions) ``` ``` st_crs(IRIS) ``` ### Procéder aux agrégations statistiques entre transactions DVF et les IRIS Calculer : * Le nombre total de transactions * Le prix moyen des biens vendus * La surface moyenne * Le prix moyen au m² ***Quelles est la variable la plus adaptée pour l'aggrégation ?*** ``` IRISDVF <- IRIS %>% st_join(Transactions) %>% group_by(code_iris) %>% summarise(Nb_Transactions = n(), Prix_moyen= (mean(PrixOK)), Surface_Moyenne = (mean(SurfaceOK)), PrixM2_moyen = (mean(PrixM2OK))) ``` ![](https://i.imgur.com/NOKv4kH.png) Visualiser le résultat (ici les prix au m²) ``` plot(IRISDVF["PrixM2_moyen"], breaks = "quantile", key.pos = 1) ``` ![](https://i.imgur.com/QgG7ItY.png) --- ### Cartographier les indicateurs avec le package *cartography* ![](https://i.imgur.com/t1FDbRt.png) http://riatelab.github.io/cartography/vignettes/cheatsheet/cartography_cheatsheet.pdf ![](https://i.imgur.com/w5bcjZo.png) https://riatelab.github.io/mapsf/ ### Cartographie du prix moyen au m² pour toute la période Nous allons ici cartographier le prix moyen au m2 de la couche IRISGlobal sous forme de carte choroplèthe ``` choroLayer( x = IRISDVF, var = "PrixM2_moyen", breaks = c(1000, 1500, 2000, 2500, 3000, 3500), col = c("#F1B1B4", "#E3898E", "#D35E63", "#BD2D33", "#7E1512"), legend.title.txt = "Prix moyen/m² (euros)") title(main = "Prix moyen au m² par IRIS/communes (2014-2019)") ``` ![](https://i.imgur.com/ZrtNhPk.png) **Changer les couleurs** en utilisant le site [ColorBrewer](https://colorbrewer2.org) ``` choroLayer( x = IRISDVF, var = "PrixM2_moyen", breaks = c(1000, 1500, 2000, 2500, 3000, 3500), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") title(main = "Prix moyen au m² par IRIS/communes (2014-2019)") ``` ![](https://i.imgur.com/Kj3KiqT.png) **Ajouter les élements constitutifs de la carte** ``` choroLayer( x = IRISDVF, var = "PrixM2_moyen", breaks = c(1000, 1500, 2000, 2500, 3000, 3500), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") north(pos = "topright") barscale(size = 10) layoutLayer( title= "Prix moyen au m² par IRIS/communes (2014-2019)", frame = FALSE, sources = "DGFiP") ``` **Rencentrer l'image par rapport à la carte** ``` par(mar=c(0,0,1.2,0)) ``` ![](https://i.imgur.com/C7vh6iV.png) ### Cartographie de trois variables ``` par(mar=c(0,0,1.2,0)) par(mfrow=c(1,3)) choroLayer( x = IRISDVF, var = "PrixM2_moyen", breaks = c(1000, 1500, 2000, 2500, 3000, 3500), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") title(main = "Prix moyen au m²") choroLayer( x = IRISDVF, var = "Prix_moyen", breaks = c(50000, 100000, 150000, 200000, 250000, 400000), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen (euros)") title(main = "Prix moyen des biens") choroLayer( x = IRISDVF, var = "Surface_Moyenne", breaks = c(40, 60, 80, 100, 120, 140), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Surface moyenne (m²)") title(main = "Surface moyenne des biens") ``` ![](https://i.imgur.com/8Hi21Ol.png) --- ## Cartographie du prix moyen au m² pour chaque année ### Réaliser les agrégations selon l'année Calculer : * Le nombre total de transactions * Le prix moyen des biens vendus * La surface moyenne * Le prix moyen au m² **mais cette fois par année !** ``` IRISDVFANNEE <- IRIS %>% st_join(Transactions) %>% group_by(code_iris, annee) %>% summarise(Nb_Transactions = n(), Prix_moyen= (mean(PrixOK)), Surface_Moyenne = (mean(SurfaceOK)), PrixM2_moyen = (mean(PrixM2OK))) ``` ![](https://i.imgur.com/oDzC1KY.png) ### Changement de structuration de la table Afin de pouvoir cartographier automatiquement la variable de prix moyen au m² par année, il faut modifier la structuration de la table en passant d'une modélisation de **lignes en colonnes** aussi nommé ***Long > Wide*** ![](https://i.imgur.com/6RK79KK.png) On va utiliser ici la fonction `spread` ``` TransactionsAnnesColonnes <- IRISDVFANNEE %>% spread(key= annee, value = PrixM2_moyen) ``` ![](https://i.imgur.com/z5KZAJt.png) > Problème : la ventilation s'opére sur toutes les variables... on va donc en amont du changement de structuration faire une sélection de la variable qui nous intéresse à savoir le prix moyen au m² > ``` Prixm2annees <- IRISDVFANNEE %>% select(nom_iris, annee, PrixM2_moyen) ``` On refait un changement de structure (passage ligne>colonnes) ``` PrixM2anneescolonne <- Prixm2annees %>% spread(key= annee, value = PrixM2_moyen) ``` **-> Produire une planche avec une carte du prix moyen au m² pour chacune des 6 années** ![](https://i.imgur.com/FvDYsjM.png) ``` par(mar=c(0,0,0.9,0)) par(mfrow=c(2,3)) choroLayer( x = PrixM2anneescolonne, var = "2014", breaks = c(1154, 1800, 2300, 2500, 2800, 3787), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2014") choroLayer( x = PrixM2anneescolonne, var = "2015", breaks = c(1171, 1800, 2300, 2500, 2800, 3969), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2015") choroLayer( x = PrixM2anneescolonne, var = "2016", breaks = c(665, 1800, 2300, 2500, 2800, 4914), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2016") choroLayer( x = PrixM2anneescolonne, var = "2017", breaks = c(1069, 1800, 2300, 2500, 2800, 4301), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2017") choroLayer( x = PrixM2anneescolonne, var = "2018", breaks = c(1231, 1800, 2300, 2500, 2800, 4073), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2018") choroLayer( x = PrixM2anneescolonne, var = "2019", breaks = c(1367, 1800, 2300, 2500, 2800, 6364), col = c("#1a9641", "#a6d96a", "#ffffbf", "#fdae61", "#d7191c"), legend.title.txt = "Prix moyen/m² (euros)") barscale(size = 5) title(main = "2019") ``` --- ## Mettre en place une CAH Une CAH vise à constituer des groupes d’individus statistiques regroupés en classes les plus homogènes possibles ``` library(cluster) ``` ### Enrichir le dataframe des transactions avec le code de l'IRIS ``` TransactionsIRIS <- Transactions %>% st_join(IRIS) TransactionsIRIS <- as.data.frame(TransactionsIRIS) ``` ### Créer le dataframe avec les variables de la CAH * Nombre de transactions * Prix Moyen * Prix au m² moyen * Surface moyenne * Proportion de maisons * Proportion d'appartements ``` IRISCAH1 <- TransactionsIRIS %>% group_by(code_iris) %>% summarise(Nbtransactions = n(), Prixmoyen = mean(PrixOK), Prixm2moyen = mean(PrixM2OK), Surfacemoyenne = mean(SurfaceOK), PropMaison = length(type[type=="Maison"])/Nbtransactions*100, PropAppart = length(type[type=="Appartement"])/Nbtransactions*100) IRISCAH <- data.frame(IRISCAH[, c("Nbtransactions", "Prixmoyen", "Prixm2moyen", "Surfacemoyenne", "PropMaison", "PropAppart")]) ``` ### Centrage et reduction des variables ``` IRISDVFClassifscale <- scale(IRISCAH) ``` ### CAH La classification a été calculée à l’aide de l’algorithme de regroupement hiérarchique ascendant AGNES (Agglomerative Nesting) en utilisant la méthode de Ward et la distance euclidienne. Cette classification regroupe les individus de façon à ce que les classes constituées soient les plus homogènes possibles, c’est-à-dire avec une inertie intraclasse minimale et une variance interclasse maximale. ``` CAHIRIS <- agnes(IRISDVFClassifscale, metric = "euclidean", method = "ward") ``` ### Graphiques des gains d'inertie inter-classe ``` sortedHeight<- sort(CAHIRIS$height,decreasing= TRUE) relHeight<-sortedHeight/ sum(sortedHeight)*100 barplot(relHeight[1:30],names.arg=seq(1, 30, 1),col= "black",border= "white",xlab= "Noeuds",ylab= "Part de l'inertie totale (%)") ``` ![](https://i.imgur.com/K4srGuL.png) ### Partition (en 6 classes) ``` clusIRIS <- cutree(CAHIRIS, k = 6) IRISCluster <- as.data.frame(IRISCAH1) IRISCluster$CLUSIMMO <- factor(clusIRIS, levels = 1:6, labels = paste("Classe", 1:6)) ``` ### Tableau récapitulatif des groupes ``` RecapCAHIRIS <- IRISCluster %>% group_by(CLUSIMMO) %>% summarise(NB= n(), NbTransac = mean(Nbtransactions), Prixmoyen = mean(Prixmoyen), Prixm2 = mean(Prixm2moyen), Surface=mean(Surfacemoyenne), PropMaison = mean(PropMaison), PropAppart= mean(PropAppart)) ``` ![](https://i.imgur.com/fIuTZSF.png) ### Graphique des écarts à la moyenne #### Créer un tableau récapitulatif des écarts à la moyenne ``` SyntheseCAHIRIS <- RecapCAHIRIS %>% mutate( nbtransacmoy = mean(IRISCAH$Nbtransactions), surfacemoy = mean(IRISCAH$Surfacemoyenne), prixmoy = mean(IRISCAH$Prixmoyen), prixm2moyen = mean(IRISCAH$Prixm2moyen), propmaisonmoyen = mean(IRISCAH$PropMaison), propappartmoyen = mean(IRISCAH$PropAppart), NbMutations=(NbTransac- nbtransacmoy)/nbtransacmoy*100, Prix=(Prixmoyen- prixmoy)/prixmoy*100, Prixm2=(Prixm2- prixm2moyen)/prixm2moyen*100, Surface=(Surface- surfacemoy)/surfacemoy*100, PropMaison=(PropMaison- propmaisonmoyen)/propmaisonmoyen*100, PropAppart=(PropAppart- propappartmoyen)/propappartmoyen*100) SyntheseCAHIRIS <- data.frame(SyntheseCAHIRIS[, c("CLUSIMMO", "NbMutations", "Surface", "Prix", "Prixm2", "PropMaison", "PropAppart")]) ``` ![](https://i.imgur.com/98Zf8r8.png) #### Passer en long ``` gather <- SyntheseCAHIRIS %>% gather(key=variable, value= "value", NbMutations:PropAppart) ``` ![](https://i.imgur.com/csW7Ls3.png) #### Faire un graphique ``` ggplot(gather, aes(x=variable, y=value, fill=CLUSIMMO)) + geom_bar(stat = "identity") + coord_flip() + scale_fill_manual(values=c("#416979","#f9c155","#39a699","#FF4136","#FF851B", "#1f78b4")) + ylab("Variation par rapport à la moyenne métropolitaine (%)") + theme_bw() + theme(legend.position = "none") + facet_wrap(~CLUSIMMO, ncol = 1) ``` ![](https://i.imgur.com/sXPadaP.png) ### Faire une carte de la CAH #### Joindre le résultat de la typologie dans la couche des IRIS ``` IRISDVFCAH <- left_join(IRIS, IRISCluster, by= "code_iris") ``` #### Faire la carte (catégorisée) ``` par(mar=c(0,0,1.2,0)) typoLayer( x = IRISDVFCAH, var="CLUSIMMO", col = c("#416979","#f9c155","#39a699","#FF4136","#FF851B", "#1f78b4"), lwd = 0.1, border = "white", legend.values.order = c("Classe 1", "Classe 2", "Classe 3", "Classe 4", "Classe 5", "Classe 6"), legend.pos = "bottomleft", legend.title.txt = "Sous-marchés \nimmobiliers", legend.nodata = "Aucune mutation") layoutLayer(title = "Sous-marchés immobiliers dans l'aire urbaine de Nantes à l'échelon des IRIS (2014-2019)", author = "Sources : IGN et DGFip - Typologie obtenue par CAH", scale = 5, frame = TRUE, col = "#cdd2d4", coltitle = "#8A5543", north(pos = "topleft"), tabtitle=TRUE, horiz = FALSE) ``` ![](https://i.imgur.com/0SQcmrF.png) ### Ecrire un gpkg pour cartographier la CAH dans QGIS ``` st_write(IRISDVFCAH, "IRISDVFCAH.gpkg", append = FALSE) ```