# ANF FOSS : Formation à la statistique spatiale dans la recherche en sciences sociales
Ceci est un pad collaboratif de prise de note pour l'ANF, ouvert à toutes et tous. Vous pouvez également nous y faire part de vos [retours](#Retours-idées) !
Site de l'ANF : [https://letg.pages.in2p3.fr/foss/site/](https://letg.pages.in2p3.fr/foss/site/)
[toc]
## Retours, idées
## Mardi 7 novembre
### Présentation des différentes méthodes et de leurs applications
*10h30-11h, F. Audard, G. Le Campion*
**Moyenne** = point d'équilibre. Si on a une règle et si chaque observation est un cube, la moyenne correspond au point d'équilibre de la règle -> définition méthodo, différente de l'aspect technique = somme des valeurs / nb de valeurs.
Sensible aux valeurs extrêmes (exemple d'une base avec les communes de France - Paris est souvent valeur extrême)
présentation de méthodes, comment on les utilise, comment on interprète les résultats
Corrélation/régression : met en évidence des concommitances et non des causalités
1ère loi de Tobler : plus c'est proche plus ça varie ensemble
Exemple poids et taille avec les personnages d'Astérix
Poids des outliers : avec un nuage de 99 points répartis au hasard + 1 outlier avec des valeurs en x et y très importantes : r2 = 0,99 -> importance de regarder les valeurs des données
R entre -1 et 1, si autour de 0 : pas de relation linéaire
R2 entre 0 et 1 : part d'explication d'une variable par l'autre (explication = différent d'une causalité)
droite de régression = droite de tendance = prévision de la variable dépendante par rapport à l'autre variable. Différence entre valeur constatée et valeur prédite = résidu.
Carto des résidus : si structure spatiale : aller chercher d'autres variables explicatives ?
beta = a dans *y = ax + b* (pente)
diapo 23 : si on monte d'un écart-type pour la densité de pop, le prix de l'immo monte de 172€
Si on transforme la variable (log) on change le poids des observations (on diminue l'impact de Paris) (cf. diapo 30 pour l'impact des différentes variables selon les 2 modèles, change la hiérarchie des facteurs)
Diapo 25 : les EPCI où le modèle fonctionne bien sont en jaune pâle : ça fonctionne moyen. On peut rajouter des variables quali jusqu'à ce que ça marche, on a aussi toujours pb multicolinéarité...
[manuel analyse spatiale INSEE](https://www.insee.fr/fr/information/3635442)
### Corrélation et régression avec R (atelier)
*14h-17h, L. Reboul, G. Le Campion*
**AIC** : mesure vraisemblance du modèle (ajustement du modèle à la réalité terrain). Permet de comparer des modèles emboîtés (comparaison en enlevant des variables). **Plus l'AIC est bas, plus le modèle est bon !**
**sigma** = variance des résidus = erreur restante, on cherche à le minimiser
Loi normale pour les résidus : pas de structure dans les résidus (résidus correspondent à un bruit)
graphique outliers : en abscisse leverage = influence des outliers sur les prédictions du modèle
### Corrélation et régression avec GeoDa (atelier)
*14h-17h, F. Audard, Y. Doignon, S. Oliveau*
## Mercredi 8 novembre
### Voisinage, bande passante, noyau, matrice de poids, auto-corrélation spatiale, LISA
*8h30-10h30, S. Oliveau, L. Reboul*
historique : stat spatiale est arrivée très tôt, dans les années 50
autocorrélation spatiale, 2 defs
> Corrélation d'une variable avec elle-même attribuable à l'organisation des objets dans l'espace (Griffiths ?)
Tout est lié à tout mais les choses proches sont plus liées que les distantes (Loi de Tobler)
**I de moran** année 50, mais peu utilisé, redécouvert années 60
= rapport covariance / variance
= écart à la moyenne d'un individu par rapport écart à la moyenne des individus voisins
Besoin d'une matrice de **voisinage** pour calculer le I de Moran : plein de manières de définir cette matrice, il faut connaître son terrain :
- contiguïté (0 ou 1) latérale (rook = Von Neumann) ou nodale (queen = Moore), ordre 1, 2 , 3... (le voisin de mon voisin est aussi mon voisin = ordre 2) (polygones, si points polygones de voronoi)
- distance = rayon, 0 ou 1, pas forcément distance géographique (voisins doivent être joints par des routes, voisins doivent avoir la même qualité de vie...), sur des points (centroïdes de polygones) : a du sens, pour un géographe !
- plus proches voisins = k-cluster : tous les individus ont forcément des voisins. On définit au préalable un nombre de voisins -> tous les points ont le même nombre de voisins
- on peut aussi donner des poids plutôt que 0 ou 1, par ex. qui décroissent avec la distance -> implique de définir une fonction de distance, délicat
Dans littérature, question du voisinage souvent passée sous silence. Pourtant, crucial pour l'analyse !
comparaison 3 carroyages avec carré, triangles et hexagones, + contiguïté nodale/latérale
**Effet de bord** : pour pallier cet effet, **standardisation en ligne**, ts les individus auront le même poids quelque soit le nombre de voisins. Pour Moran, `n = m` dans ce cas (`n/m = 1`). Pas obligé pour I de Moran
I Moran = 1 : si on connaît la valeur d'un individu, on connaît la valeur de ses voisins (parfois peut dépasser 1)
I Moran = -1 : n'arrive pas en sciences sociales
**Corrélogramme** : pour regarder comment I Moran évolue en fonction voisinage, par ex. en faisant varier distance
autocorrélation spatiale locale : **I de Moran local, LISA** (A de LISA = association) Anselin 1995 -> contribution à la corrélation globale de chaque lieu. On note pour chaque individu la valeur de la variable moyenne pour les voisins. Graphique moran local nuage de points : pente de la droite = I Moran
Carte Moran local : blanc = pas de lien significatif avec les voisins
Publi Wong 2011 : prend 6 archétypes de structure spatiale et regarde I Moran et I Moran local
On commence par faire une carte, si structuration spatiale > on regarde nuage de points > carte LISA
<hr>
**Tests avec Laurence Reboul**
Comment savoir s'il y a autocorrélation spatiale à partir valeur I Moran ?
Risque qu'on est prêt à prendre en rejetant H0 : on fixe un seuil, par ex. 5% : on s'autorise 5% de risque d'erreur en rejetant H0
**p-valeur** : proba qu'une variable gaussienne centrée réduite (valeur absolue) dépasse la valeur calculée ? -> on décide nous-même du risque puis on regarde p-valeur
**Test bilatéral** = 2-sided : si on rejette H0, valeur peut être > ou < valeur H0. **Test unilatéral** : par ex. on regarde uniquement si valeur est > valeur H0, par ex. on teste si autocorr spatiale > 0.
Hypothèse nulle H0 : on veut avoir des raisons de la rejeter ! + hypothèse alternative H1. Ex. H0 moyenne poids bébé = 3kg, H1 moyenne poids bébé > 3kg. Ou H0 = pas d'autocorrélation spatiale ! H0 = règle sur laquelle on peut construire une règle de décision = statistique de test
Si p-valeur > alpha : on n'a pas d'évidence pour rejeter H0
**Test autocorrélation spatiale** : le statisticien considère que nos valeurs ne sont qu'un des possibles (si on regarde à un autre moment, autres valeurs)
Pour voir si la structure qu'on observe n'est pas due au hasard : on redistribue toutes les valeurs aléatoirement plein de fois. On regarde quelles sont les chances d'observer par ex. I Moran 0.3 seulement à cause du hasard.
On fait un test si on veut généraliser (quand on a un échantillon aléatoire ?) ; si on s'intéresse juste à un endroit t à un moment t, pas besoin de faire un test.
Test AS dépend voisinage. On peut tester avec plusieurs voisinages.
Pouvoir utiliser I comme stat de test, on doit connaître sa loi sous H0 qui dépend hypothèse sur loi observation y (normalité, randomisation ou ? si ni l'un ni l'autre (bootstrap))
Quand on fait des LISA : on a souvent des faux positifs, pb connu
### Application sur GeoDa (atelier)
*11h-12h, S. Oliveau*
Carte variable > Y aurait-il une structure ? > I Moran global
Sous GeoDa :
Variable observée = prix immobilier par EPCI
1. Création voisinage (Tools > Weights manager) > création fichier gal = matrice
2. I Moran prix
3. I Moran local
4. I Moran sur ln prix immobilier
GeoDa fait automatiquement :
- centrage réduction des variables
- standardisation en ligne de la matrice
-> chaque individu a le même poids
### Exemple appliqué de recherche sur l'autocorrélation spatiale
*13h30-14h, S. Oliveau*
*Cartographie des étrangers en Espagne : une approche exploratoire spatialisée à niveau fin*
A l'échelle de la commune, maille communale hétérogène -> création de mailles artificielles (cluster communaux), pour avoir des effectifs de communes plus solides (agrégation sur une rayon)
1ère approche = **CAH** et carto résultats CAH, en 2008 et en 2013 (regarde proximités statistiques, regroupe les individus = communes qui se ressemblent le plus)
Puis **LISA** pour chacune des nationalités. Voisinage : contiguïté ordre 1
Superposition résultats CAH et LISA (carte) :
- CAH montre spécialité communes
- LISA montre organisation spatiale
On pourrait aussi cartographier la valeur des LISA, mais ici on regarde les individus qui contribuent.
On montre qu'il y a une régionalisation, qui ne correspondent pas forcément à la régionalisation administrative.
Publi 2019 dans revue genus : https://genus.springeropen.com/articles/10.1186/s41118-018-0047-5
### Régressions spatiales
*14h-15h30, Y. Doignon, L. Reboul*
On part d'une régression normale > on cartographie les résidus > on voit une structure spatiale > test autocorrélation spatiale des résidus > pb dans la régression > besoin d'une autre modélisation statistique qui prenne en compte l'autocorrélation spatiale
1. On commence par cartographier le phénomène (variable y)
2. choix d'une matrice de voisinage
3. calcul I Moran
Si on considère qu'il n'y a pas ou peu d'AS : régression classique
Si on considère qu'il y a AS : régression spatiale
Ex. avec voisinage 50km pour prix immobilier / EPCI > I Moran = 0.66
LISA : on s'affranchit du mode de discrétisation pour voir la structure spatiale.
Maintenant, il faut choisir un modèle de régression spatiale !
On peut rajouter composants spatiaux sur chacune des composantes de l'équation de la régression :
- sur la variable y
- sur la variable explicative
- sur les résidus
SI on fait les 3 : modèle de Manski. Pour y voir + clair, on va enlever 1 ou 2 termes spatiaux.
- SAR si on garde juste voisinage y
- SEM si on garde juste voisinage résidus
- etc.
Sous GeoDa : seulement SAR et SEM
Pour estimer le modèle : tests. Pseudo R2 différent de R2 (pas la même formule)
AIC = critère pour évaluer qualité et parcimonie du modèle, doit être le + bas possible
Attention aux **effets de rétroaction** : chez les voisins, quand x augmente, y voisins augmente aussi, et quand rho : y voisin fait augmenter y -> c'est pour ça qu'on fait un **calcul d'impact**
theta correspond à effet indirect du calcul d'impact pour l'interprétation
impact indirect = effet des voisins > que pour modèles où on n'a pas theta (?)
On peut regarder le modèle qui fait le + diminuer AIC
SDM : prise en compte structure spatiale variables X
**Comment choisir modèle spatial ?**
**1ère méthode** = démarche de sélection du modèle = démarche d'économètre bottom up
3 algorithmes basés sur des tests.
Compraison de 2 modèles : on peut regarder par ex. significativité coefs d'autorégression, ou vraisemblance, ou AIC
Modèles emboîtés : certains modèles incluent d'autres modèles, par ex. SDM inclue SEM
**2ème approche** = approche théorique : choisir le modèle qui permet de tester l'hypothèse de départ (1ère approche : pas d'hypothèse, démarche de prédiction)
Par ex. pour prix immobilier on fait l'hypothèse que prix immo voisins joue donc pas modèle SLM, SLX ni SDEM. On veut aussi effet autres variables : on prend modèle SDM.
Par contre entre SAR et SAC : mieux vaut prendre SAC pour enlever AS résidus.
Ex. avec prix immo : voisinage joue plus pour perc_log_vac sur prix immo, que perc_log_vac du territoire lui-même (modèle SDM). Parfois voisinage peut jouer dans l'autre sens que territoire lui-même, par ex. niveau de vie (attention corrélation n'est pas causation)
Ne pas oublier que tout est dépendant du voisinage ! On peut travailler à différentes échelle suivant distance voisinage (effet local à 50km, effet plus régional à 100km)
### Régression spatiale avec R (atelier)
*16h-17h30, L. Reboul, T. Feuillet, G. Le Campion*
### Régression spatiale avec GeoDa (atelier)
*16h-17h30, F. Audard, Y. Doignon, S. Oliveau*
## Jeudi 9 novembre
### Présentation Progedo
*Sébastien Oliveau*
Progedo est une IR*(infrastructure de recherche) dont l'objectif est de développer l'utilisation et la diffusion des données produites en SHS.
Certaines enquêtes sont disponible via Quetelet-Progedo (nécessite une identification et demande auprès de Progedo).
[data.progedo.fr](https://data.progedo.fr)
Accès aux données du recensement INSEE à l'individu (sous réserve secret statistique); possibilité de demander des produits sur mesure (PSM) - on envoie le code (R, SAS...) et iels renvoient le résultat (sous réserve qu'il respecte le secret statistique).
Les PUD : [Plateforme Universitaire de Données ](https://www.progedo.fr/services/plates-formes-universitaires-de-donnees/)
Les PUD sont situées dans les MSH. Il en existe 16 actuellement.
### GWR : Théorie et cas pratiques
*9h-12h, T. Feuillet, F. Audard*
La régression géographiquement pondérée (c'est la version française du sigle GWR).
Méthode qui s'est assez largement diffusée, devenue très populaire.
Première apparition dans une publi en 1996.
"Biais du chercheur qui cherche sa gloire personnelle"
#### Fondements GWR
2 grands types d'effets spatiaux en régression (dépendance spatiale (autocorrelation spatiale des résidus: les observations sont dépendantes) et hétérogénéité spatiale (non stationnarité spatiale des paramètres)) mais qui peuvent être liés
Dans le cas où les données géographiques ont une dépendences spatiales, on mobiise plutôt les méthodes vues précédemment (SAR, SEM, modèle GLS, regression par krigeage)
Dans le cas de l'hétérogénéité spatiales, la GWR peut être une solution.
Par définition, les données spatiales (paramètres statistiques) sont non-stationnaires.
Aucun lieu ne peut être représentatif des autres lieux (c'est une autre loi de la géographique, du genre de la première (ce qui est près est plus ressemblant que ce qui est loin, ou quelque chose comme ça))
la GWR permet de tenir compte de l'hétérogénéité spatiale des données (des relations statistiques).
Paradoxe Simpson : si on prend le jeu de données dans sa globalité, on passe à côté d'effets "locaux"
*@ Les gens qui connaissent : c'est quoi la différence avec des effets d'interaction entre variables ? (en gros, ici, entre type d'espaces et présence de parcs) -> je ne sais pas mais je pense que tu peux lui poser la question :)*
Solutions :
Une première série de solutions c'est lorsqu'on connait comment fonctionne l'espace en question (donc on peut diviser les données par région)
Une deuxième (modèles locaux inductifs) quand on veut laisser parler les données.
#### Comment ça marche
Méthode locale : on réalise plein de régressions locales (pour chaque individu), sur la base du voisinage de cet individu. On estime un coeff pour chaque coordonnée géographique
On travaille sur des distances, pas forcément géographiques même si c'est le + courant (distance sociale possible par ex. - issue d'un plan factoriel ou, pourquoi pas, d'un réseau)
Chaque coefficient étant associé à des coordonnées on obtient un vecteur spatialisé de coefficients.
Peut également intégrer une dimension tridimensionnelle ? Mais interprétation dépend fortement de la représentation graphique --> à voir.
Comme pour les autres méthodes, besoin de définir un voisinage(distance ou km ou nb voisins, ou contiguïté, par un graphe), qui peut être pondéré suivant différentes méthodes.
Pondération : 0 ou 1 (comme on a vu jusqu'ici, Boxcar) ou poids inversement proportionnel à la distance > noyau (ce peut être une fonction gaussienne ou exponentielle. Pondération gaussienne -> toutes les observations son prises en compte dans l'analyse, même si le poids est très faible.
bande passante = largeur du noyau, peut être variable avec un nb voisins fixe.
Conseil pour GWR : utiliser nb voisins plutôt qu'une distance, pour éviter que certaines observations aient très peu de voisins (sauf si observations réparties très régulièrement ?)
Calibration : nombre de voisins optimale par l'usage d'algo d'optimisation par la bandwidth (distance ou knn) -> pour avoir le nb de voisins qui ajuste le modèle au mieux. On peut aussi définir le nb de voisins sur des bases théoriques, avec la connaissance du sujet.
Les sorties de la GWR :
* carte des R²
* carte des coeff : difficulté à comprendre ces coeff, leur interprétation.
-> outil exploratoire ! exemple diapo 17
Extension de la GWR: utilisation de l'ACP, statistiques classiques mobilisées en approche local.
GWR multiscalaire (MGWR) : méthode qui est en train de prendre la place de la GWR classique. On optimise la bande passante suivant variables explicatives (effet d’un des facteurs peut jouer à une échelle fine et un autre à une échelle presque globale).
Méfiance, si gd nb individu statistique, temps de calcul peut être assez long avec la GWR (exemple : 4k indiv.). Développement d'algo spécialisés ([FastGWR](https://github.com/Ziqi-Li/FastGWR)). Possibilité de paralléliser le calcul (package R) et spliter l'échantillon -> 50k indiv.
GWR roadmap (Comber et al., 2022): critiquée par Fotheringham.
A quoi peut être du la non stationarité spatiale (NSS) ?
* le bruit
* mauvaise spécification du modèle
Compliqué d'ajouter des variables de distance pour l'interprétation.
Avant de se lancer dans GWR : analyses bivariées variable dépendante/variables explicatives
Si relation non-linéaire (ex. proximité au littoral sur prix immo), dans ce cas possibilité de s'orienter vers une application GAM-GWR ou autre possibilité discrétiser la variable.
* non stationarité "réelle"
Ce n'est jamais l'espace en lui-même qui joue, ce sont d'autres facteurs inobservés (climat, relief, population...).
Dès que l'on observe de la non-stationnairité, on peut se dire que ce sont des facteurs inobservées.
#### Interprétation
Chaque carte de beta doit être interprétée pour une GWR classique. La carte de R² va montrer les endroits où le modèle va être plus complet, plus pertinent. Endroit où R² faible --> facteur inobservé ou manque de variance ? La non-stationarité peut être due à l'hétéroscédasticité spatiale.
GWR idéale pour décrire et expliquer mais pas prédire. C'est un outil exploratoire intermédiaire qui permet de mieux comprendre. Son objectif est de dégager les structures fortes du phénomène étudié tout en s'appuyant sur les connaissances théoriques du l'objet étudié.
#### Exemples
**En géo économique** : [figure article en + gros](https://www.mdpi.com/2413-8851/2/1/14/htm)
Relation prix immobilier vs caract. envir. : comprendre la valeur des offres de transport durable dans la région nantaise. Mise en evidence d'un non-stationnarité forte qui permet de supposer qu'il manque une variable explicative (non observée) de ce phénomène.
**En géo de la santé** : [figure article en + gros](https://bmcpublichealth.biomedcentral.com/articles/10.1186/s12889-021-12203-8/figures/3)
Variable étudiée = surmortalité liée au covid
Deprivation heterogeneity : globalement est liée positivement à la surmortalité liée au covid, effet particulièrement fort dans 2 départements dans l'Est
### GWR avec R (atelier)
*13h30-16h30, L. Reboul, T. Feuillet, G. Le Campion*
TV = même information que la p-value, c'est inversement proportionnel.
TV = t-value = coefficient / son erreur standard
Fonction discr utilisée pour créer les limites de classe pour la discrétisation :
```
# fonction pour créer des limites de classes à partir de :
# values : une liste de valeurs à discrétiser
# interval : la taille de chaque classe
# center : valeur centrale de la discrétisation
# pos_center : la position de la valeur centrale, "class_center" ou "class_break"
# (si class_center, une classe sera créée autour de cette valeur, de taille 2*interval)
# min_nb : si besoin les classes extrêmes seront fusionnées jusqu'à obtenir une classe
# avec un nb d'individus >= à min_nb
discr <- function(values, center, pos_center, interval, min_nb) {
# calcul des limites de classes :
if (pos_center == "class_break") { # valeur centrale = lim de classe
breaks <- c(center)
centermax <- center
centermin <- center
} else { # valeur centrale = centre de classe
if (center < max(values)) {
# breaks <- c(center - interval/2, center + interval/2)
breaks <- c(center + interval/2)
centermax <- center + interval/2
}
if (center > min(values)) {
breaks <- append(breaks, center - interval/2)
centermin <- center - interval/2
}
}
# ...pour les limites > centre
if (center < max(values)) {
x <- 1
while (centermax + x * interval < max(values)) {
breaks <- append(breaks, centermax + x * interval)
x <- x + 1
}
}
# ...pour les limites < centre
if (center > min(values)) {
x <- 1
while (centermin - x * interval > min(values)) {
breaks = append(breaks, centermin - x * interval)
x <- x + 1
}
}
# ajout des min et max
breaks = append(breaks, min(values))
breaks = append(breaks, max(values))
# et tri
breaks = sort(breaks)
# calcul des effectifs pour chaque classe
nb_classes = length(breaks) - 1
sizes = c()
for (x in 1:nb_classes) {
min_cl <- breaks[x]
max_cl <- breaks[x+1]
current_size <- 0
for (value in values) {
if (value >= min_cl & value < max_cl) {
current_size <- current_size + 1
}
}
sizes = append(sizes, current_size)
}
# suppression des classes ayant un effectif trop faible :
# ...en partant de la classe du bas
x <- 1
while (sizes[x] < min_nb) {
# fusionne les 2 1ères classes en supprimant la limite qui les sépare
breaks <- breaks[! breaks %in% c(breaks[x + 1])]
# recalcule la 2ème valeur des effectifs
sizes[2] = sizes[1] + sizes[2]
# et supprime la 1ère valeur d'effectifs
sizes = sizes[-1]
}
# ...en partant de la classe du haut
x <- length(breaks)
while (sizes[x - 1] < min_nb) {
# fusionne les 2 dernières classes en supprimant la limite qui les sépare
breaks <- breaks[! breaks %in% c(breaks[x-1])]
# recalcule l'avant dernière valeur des effectifs
sizes[length(sizes)-1] = sizes[length(sizes)] + sizes[length(sizes)-1]
# et supprime la dernière valeur d'effectifs
sizes = sizes[-length(sizes)]
# réaffecte x
x <- length(breaks)
}
# récupère le nb de classes d'un côté et de l'autre du centre
if (pos_center == "class_break") {
nb_cl_sup0 <- length(breaks[breaks > center])
nb_cl_inf0 <- length(breaks[breaks < center])
} else {
if (center < max(values)) {
nb_cl_sup0 <- length(breaks[breaks > center]) - 1
} else {
nb_cl_sup0 <- 0
}
if (center > min(values)) {
nb_cl_inf0 <- length(breaks[breaks < center]) - 1
} else {
nb_cl_inf0 <- 0
}
}
resultats <- list(breaks, nb_cl_sup0, nb_cl_inf0)
return (resultats)
}
```
#### Papier discrétisation des effets de distance (voir fig. 2) - recherche des seuils de non-linéarité : https://link.springer.com/article/10.1007/s00168-022-01113-1
https://sigr2021.github.io/gwr/
### GWR avec MGWR (atelier)
*13h30-16h30, F. Audard, Y. Doignon, S. Oliveau*
## Vendredi 10 novembre
### Pour aller plus loin : autres méthodes, multi-niveau, aggrégation des données
*8h30, T. Feuillet, Y. Doignon*
**Multi-niveau avec Thierry Feuillet**
Les données géographiques sont emboîtées (multiscalaires) :
- on ne peut pas interpréter à un niveau ce qu'on a calculé à un autre niveau (erreur écologique)
- erreur atomiste : quand on ne prend pas en compte le contexte d'appartenance des individus (ex. de contexte : échelle pour données géographiques, école... -> si variable quanti, intégré comme var explicative)
Comment prendre en compte le contexte spatial ?
- modèles MCO avec variables explicatives qui prennent en compte l'environnement (on désagrège le contexte u niveau des individus) mais pb : dépendance des obs, on place au même niveau processus fonctionnant à des échelles différentes
- Modèle à régimes spatiaux (Anselin): intègre différentes variables.
- Modèle multiniveaux: solution avec cadre inférentielle le puls solide. On attribut à chaque indiv un contexte spatial (variable catégorielle) et on décompose les résidus à plusieurs niveaux. Utile quand plusieurs contextes possibles (+ de 3)
variance individuelle = variance des individus par rapport à leur contexte
variance globale = variance des contextes par rapport à la moyenne globale
Cette modélisation se fait en plusieurs étapes: par ANOVA, à constante aléatoire et/ou à pentes aléatoires (hétérogénéité forte entre les lieux).
Plus la variance des pentes est forte, plus l'effet contextuel est important.
Cette méthode est très utilisée en épidémiologie (2000's) (permet de bien différencier effets contextuels des effets individuels).
Limites de la méthodes : pas toujours lié p la géographie des phénomènes étudiés.
Série d'innovation méthodo : modèles spatiaux et multiniveaux. -> MGWR
Comment délimiter les contextes spatiaux pour un modèle multi-niveau ?
- exogène : maillage prédéfini (administratif)
- cluster sur la base de la ressemblance des individus, on peut intégrer critère spatial (ex. skater)
- endogènes : on imbrique les 2 modèles. Au lieu de maximiser la variance inter-classe après une CAH qui tient compte de la proximité spatial par exemple, on va chercher à minimiser l'AIC du modèle multiniveau (chercher à maximiser la métrique de fit)
modèle multiniveau = modèle hiérarchique = modèle mixte
Multi-niveau peut être l'étape d'après la gwr, d'où l'importance de bien comprendre les résultats de la gwr. Mais le multi-niveau aidera aussi à comprendre la gwr !
Avant de se lancer, voir si modèle + simple peut faire l'affaire
**Ex. de recherche Yoann Doignon : diffusion spatiale des naissances hors mariage en Belgique depuis 1968 (Modèles de régression spatiale de panels)**
Approche **spatio-temporelle** pour intégrer une dynamique spatiale.
Tout un travail pour **construire la variable Y** : évolution du nombre d'individu statistique au cours du temps --> aggréger les individus statistiques pour qu'il y ait une correspondance administrative (dans le cas des communes Belges)
**Etapes :**
création/nettoyage des données > cartes de la variable à différentes dates > on constate qu'il y a de la diffusion spatiale > définition d'un voisinage (contiguïté ordre 1), I Moran à chaque période > choix des variables explicatives > choix du modèle SDM > il y a bien un effet de diffusion
*NB: Courbe en cloche du I de Moran -> phénomène de diffusion*
**Construction des variables explicatives :** niveau fin sur 50 ans, avec même définition. Parfois nécessité de reconstruire les variables à partir de données multisources.
**Comment intégrer la dimension temporelle dans la régression spatiale ?**
Une des manières d'intégrer une diffusion temporelle : tout indicer en t dans le modèle de Manski + terme μi (c'est un territoire). Il serre à indiquer au modèle une structure de la table de donnée (paquet de lignes qui correspondent à un individu statistique par exemple à t1, t2, t3,...) -> choix du modèle de régression spatiale.
*NB : μi est l'effet fixe.*
On veut prendre en compte le temporel, avec rôle voisinage + variables explicatives pour les voisins donc SDM
**Limites des modèles de panels :**
* Il s'agit d'une moyenne d'effet dans le temps. Comment intégrer l'effet dans le temps de chaque paramètre : méthode encore à affiner.
* Erreur écologique serait ici de tirer des conclusions au niveau des personnes (des vrais individus) et non des communes (individus statistiques).
### Remise en perspective des méthodes utilisées
*Fin de matinée , T. Feuillet, Y. Doignon*
Voisinage sous-tend tout le reste, doit être une réponse à une question théorique
La question sur la structure de la variable dépendante : doit être l’hypothèse de départ. Rien en nous oblige à régler la question de l’indépendance des individus sur les variables explicatives, à savoir, est-ce qu’il faut traiter l’influence du voisinage de la variable explicative ? *(je ne suis pas sûre d'avoir bien retranscrit cette partie)*
A noter également, que la non stationnarité peut ne pas être la même dans l’espace mais aussi dans le temps.
On peut imaginer les voisinages spatiaux mais aussi les voisinages spatiaux catégoriels (encore en cours de réflexion de ces méthodes)
### Application sur données stagiaires
*14h-16h*