# Eléments de la méthode statistique Maxent [WIP]
[WIP] : Work in Progress
- [name=Seb] : https://plantarum.ca/notebooks/maxent/#ref-HijmansEtAl_2017
- [name=Raphaëlle] : (ébauche données palu) https://codimd.univ-rouen.fr/Hs6MDy7cTyuJ0ktglc3-LA#
# La méthode Maxent
## Le problème posé et la méthode
La bibliographie proposée s'intéresse à la méthode statistique Maxent issue de l'écologie et de l'étude de la dynamique de distribution spatiale d'espèces. Elle repose sur l'emploi d'un algorithme d'entropie maximale. Cette méthode a été développée à partir des année 90 avec le développement des SIG et de la construction de jeux de données localisées, en parallèle d'un développement de l'informatique dans les sciences naturelles.
Cette méthode vise à modéliser la distribution d'un phénomène (présence ou émergence d'une densité d'une espèce animale, végétale ou maladie) dans un espace donné en fonction de variables environnementales pondérées de natures diverses (voir la partie 3 de la note sur les données). Le modèle est entraîné dans un espace limité de test où des données sont disponibles. Il est ensuite utilisé dans un espace plus large correspondant à la zone d'étude complète des phénomènes étudiés. Maxent permet alors de simuler des aires de diffusion potentielle du ou des phénomène(s) étudié(s) avec une précision plus ou moins grande en fonction de la qualité du modèle et des données d'apprentissage.
La spécificité de cette approche est l'emploi des données de présence des phénomènes ou objets étudiés (*presence-only*). Ces données peuvent être définies de la manière suivante ([Warton & Shepherd, 2010](https://www.jstor.org/stable/29765559)):
> Pearce and Boyce (2006) define presence-only data as “consisting only of observations of the organism but with no reliable data on where the species was not found."
Ces données sont souvent le meilleur jeu de données disponibles pour les chercheurs (ibid) :
> "One reason for the current widespread usage of presence-only data is that often this is the best available information concerning the distribution of a species, as there is often little or no information on species distribution being available from systematic surveys (Elith and Leathwick, 2007)."
En effet, cette méthode permet de poser le problème complexe suivant : *l'absence de données signifie-t'elle pour autant l'absence du phénomène étudié ?* Ce problème est parfois dû aux manières de collecter les données (les données peuvent être lacunaires, limitées à un cadre spécifique de collecte ou de production, etc.…). La collecte des données des cas de maladie(s) (paludisme notamment) à Chypre entre bien dans ce cadre. Il s'agit de données de type *presence only*, comme défini ci-dessus, c'est-à-dire qui attestent de la présence de cas de maladies à un lieu et un laps de temps donné, au moyen de données historiques hétérogènes, quantitatives ou qualitatives plus ou moins précises.
[:grey_question: ici, peut-être, émettre une première hypothèse de travail, reprenant la hiérarchie de précision des cas que tu as formulée sur le tableau : idéalement 1. le nombre de malades dans un (lieu, laps de temps) donné, le lieu étant le village ou un sous-district 2. le nombre de morts, dans la même configuration spatio-temporelle 3. un proxy associé aux cas de malades en fonction des données historiques localisées, par exemple la mesure de l'accroissement du foie sur un échantillon de la population par le personnel de santé britannique pour le paludisme etc.]
Pour conclure cette présentation de l'approche Maxent, cette citation de ([Phillips et al., 2004](http://rob.schapire.net/papers/maxent_icml.pdf)) résume bien les caractéristiques de celle-ci
> "Briefly, in maxent, one is given a set of samples from a distribution over some space, as well as a set of features (real-valued functions) on this space. The idea of maxent is to estimate the target distribution by finding the distribution of maximum entropy (i.e.,that is closest to uniform) subject to the constraint that the expected value of each feature under this estimated distribution matches its empirical average. This turns out to be equivalent, under convex duality, to finding the maximum likelihood Gibbs distribution (i.e., distribution that is exponential in a linear combination of the features). For species distribution modeling, the occurrence localities of the species serve as the sample points, the geographical region of interest is the space on which this distribution is defined, and the features are the environmental variables (or functions thereof)."
## Eléments de compréhension math & stat de la méthode
### Philips et al.
- The distribution of maximum entropy (i.e.,that is closest to uniform) subject to the constraint that the expected value of each feature under this estimated distribution matches its empirical average.
- Convex Duality :
- Gibbs distribution :
*"Finding the maximum likelihood Gibbs distribution (i.e., distribution that is exponential in a linear combination of the features)"*
- Rééchantillonnage jackknife
- validation statistique ?
### Species Distribution Modelling: Contrasting presence-only models with plot abundance data
src : https://www.nature.com/articles/s41598-017-18927-1
- Quel biais pour maxent ?
*"MaxEnt may underestimate the probability of occurrence within areas of observed presence, while overestimating it in areas beyond the species’ known extent of occurence"*
*"Like other SDMs, one essential assumption of MaxEnt is that the presence-data are an independent sample from the species’ unknown probability distribution of occurrence over the study area."*
*The only quantity that is lacking is [...] the prevalence of the species (proportion of occupied sites) in the landscape. Formally, we say that prevalence is not identifiable from presence-only data (Ward et al. 2009). This means that it cannot be exactly determined, regardless of the sample size; this is a fundamental limitation of presence-only data.*
*[...] second fundamental limitation of presence-only data is that sample selection bias (whereby some areas in the landscape are sampled more intensively than others) has a much stronger effect on presence-only models than on presence-absence model*
*with presence-only data, we typically have occurrence data that do not have any associated temporal or spatial scale. The record is usually simply a record of the species at a location, with no information on search area or time.[...]With presence-only data, the available data do not usually describe the survey method, so the modeller has considerable leeway in defining the response variable. A common approach is to implicitly assume a sampling unit of size equal to the grain size of available environmental data (see Elith & Leathwick, 2009a for discussion of grain)*
*We fitted all models on the full data sets but also used 10-fold
cross-validation to estimate errors around fitted functions and
predictive performance on held-out data.* => cross validation, méthode k-fold
https://scikit-learn.org/stable/modules/cross_validation.html#k-fold
### A statistical explanation of MaxEnt for ecologists
https://hastie.su.domains/Papers/maxent_explained.pdf
*[...] we explain the MaxEnt modelling method with emphasis on a statistical explanation of the method, on what it assumes, and on the impacts of choices made in the modelling proces*
*The keystone of the paper is a new statistical explanation of MaxEnt which shows that the model minimizes the relative entropy between two probability densities (one estimated from the presence data and one, from the landscape) defined in covariate space.*
## Utiliser MaxEnt dans notre cas d'étude
### La question de l'espace (X)
Les articles couvrent diverses zones d'études et diverses échelles, que ce soit pour les espaces d'entrainement du modèle ou pour les espaces complets d'étude. _Le tableau_ ci-dessous récapitule les espaces étudiés avec leurs superficies :
| référence/donnée étudiée | espace étudié | surface |objet d'étude |
| -- | -- | -- | -- |
|[Ceccarelli et al., 2015](https://link.springer.com/article/10.1186/s13071-015-0761-1)| Le Chaco, région d'Amérique du Sud | > 1 million km<sup>2</sup>|Triatoma virus|
|[Zhao et al., 2019](https://www.sciencedirect.com/science/article/pii/S1201971214015008)| La province du Shandong, Chine | 157 mille km<sup>2</sup>|Tiques|
|[Moua et al., 2016](https://academic.oup.com/jme/article-abstract/54/3/606/2952755) | La Guyane française |84 mille km<sup>2</sup>|Moustiques vecteur du paludisme|
|[Memarsadeghi et al., 2023](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6)| Sisaket et Ubon Ratchathani, Thaïlande |20 mille km<sup>2</sup>|Moustiques vecteur du paludisme|
|[Manyangadze et al., 2016](https://parasitesandvectors.biomedcentral.com/articles/10.1186/s13071-016-1834-5)| La zone de Ndumo, Province de KwaZulu-Natal, Afrique du Sud |< 300 km<sup>2</sup>|Insecte vecteur|
Pour High-Pasm, la zone d'étude, Chypre, s'étend sur 9 milles km<sup>2</sup> dans les ordres de grandeur des surfaces précédemment mentionnées bien qu'étant dans les valeurs les plus faibles. La méthode Maxent semble donc adaptée à la l'échelle de l'espace de l'étude.
La méthode Maxent repose sur deux jeux de données différents. Le premier est la localisation de cas/occurrences du phénomène (x<sub>i</sub>) et le second, des facteurs (f<sub>j</sub>) pouvant expliquer celui-ci. Pour ce dernier, il peut s'agir de variables climatiques, géophysiques ou de variables anthropiques.
### La question des données localisées (_x<sub>i</sub> localities_)
Notre corpus se concentre sur l'étude de la présence de cas de maladies à Chypre à des périodes déterminées_. Comme mentionné ci-dessus,MaxEnt est une méthode appliquée au domaine l'écologie et de la question de la dynamique de distribution de la présence des espèces. Mais elle peut être appliquée de manière plus générale à la modélisation de la distribution de la présence d'autres objets d'étude. Dans la bibliographie présentée, les maladies étudiées sont :
* Le syndrome de fièvre sévère avec thrombocytopénie (SFTS) ([Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008))
* Le paludisme ([Hundessa et al., 2018](https://www.sciencedirect.com/science/article/pii/S0013935117317589), [Memarsadeghi et al., 2023](https://academic.oup.com/jme/article-abstract/54/3/606/2952755), [Moua et al., 2016](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6))
* Les *triatoma virus* comme la maladie de Chagas ([Ceccarelli et al., 2015](https://link.springer.com/article/10.1186/s13071-015-0761-1))
| Article | Localisation | Taille de l'échantillon | Sujet |
| -------- | -------- | -------- |-------- |
| [Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008) | Chine | 4 500 (450 en 10 groupes) |SFTS |
| [Hundessa et al., 2018](https://www.sciencedirect.com/science/article/pii/S0013935117317589) | Chine | 2 500 |Paludisme |
| [Moua et al., 2016](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6) | Guyane française | 450 |Paludisme |
| [Memarsadeghi et al., 2023](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6) | Thaïlande | 350 |Paludisme |
Les cas sont souvent localisés au centroïde de la ville/centre de soins. Un volume d'occurrence tel peut être aussi obtenu sur Chypre mais à condition de grouper les maladies dans des groupes cohérents (maladie vectorielle, maladie liée à l'eau) et en intégrant plusieurs années. Les articles étudiés ne se concentrent souvent que sur une année. (Ceccarelli et al., 2015; Du et al., 2014; Hundessa et al., 2018; Memarsadeghi et al., 2023; Moua et al., 2016)
Ici, il faudra peut-être combiner les données sur une décennie pour obtenir un échantillon suffisant (certaines données comme l'usage des sols ont une amplitude temporelle élevée déjà). Pour les données sur le paludisme, il faut évaluer la quantité disponible et leur spatialité. Les données sur les autres maladies sont moins nombreuses mais localisables aux villages/villes comme les données des articles de la bibliographie.
De ces trois arguments, la similarité en taille des zones de recherches, la typologie des maladies/virus étudiés et la taille des échantillons, il peut être tiré que cette méthode semble applicable à l'île de Chypre et aux questions de recherche esquissées lors de la journée à mi-projet de High-Pasm. Une attention particulière va être portée, dans cette note bibliographique, sur la méthodologie des auteurs et aussi sur les variables mobilisées, afin de guider les questionnements qui seront utiles pour le déploiement et l'adaptation de cette méthodologie dans le cadre du projet High-Pasm.
### Variables environnementales
Pour les variables environnementales et anthropiques, les auteurs étudiés ([Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008), [Hundessa et al., 2018](https://www.sciencedirect.com/science/article/pii/S0013935117317589), [Memarsadeghi et al., 2023](https://academic.oup.com/jme/article-abstract/54/3/606/2952755), [Moua et al., 2016](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6), [Ceccarelli et al., 2015](https://link.springer.com/article/10.1186/s13071-015-0761-1)) mobilisent notamment des données climatiques, géophysiques, ... ou démographiques. Voici, ci-dessous, une liste de ces variables revenant le plus fréquemment dans les études citées.
Variables climatiques ([Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008), [Hundessa et al., 2018](https://www.sciencedirect.com/science/article/pii/S0013935117317589), [Memarsadeghi et al., 2023](https://academic.oup.com/jme/article-abstract/54/3/606/2952755), [Moua et al., 2016](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6), [Ceccarelli et al., 2015](https://link.springer.com/article/10.1186/s13071-015-0761-1)) :
* _Annual mean temperature_, Température annuelle moyenne
* _Winter mean temperature_ ou Température hivernale moyenne
* _Summer mean temperature_ ou Température estivale moyenne
* _Annual mean Humidity_, Taux d'humidité moyen annuel
* _Winter mean precipitation_, Taux de précipitation hivernal moyen
* _Summer mean precipitation_, Taux de précipitation estival moyen
* Ensoleillement
Variables géophysiques et anthropiques ([Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008), [Hundessa et al., 2018](https://www.sciencedirect.com/science/article/pii/S0013935117317589), [Memarsadeghi et al., 2023](https://academic.oup.com/jme/article-abstract/54/3/606/2952755), [Moua et al., 2016](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6), [Ceccarelli et al., 2015](https://link.springer.com/article/10.1186/s13071-015-0761-1)) :
* Altitude et/ou pente
* Usage des sols
* NDVI et NDWI
* Population
* Présence de route
Les articles de la bibliographie ont des données relativement récentes ou proches des dates de rédaction des articles et peuvent donc mobiliser des jeux de données différents dans leur nature et leur précision. Par exemple, le NDVI et les autres indicateurs de télédétection employés (comme le [NDWI](https://parasitesandvectors.biomedcentral.com/articles/10.1186/s13071-016-1834-5)) dans certains articles ne sont pas disponibles dans notre cas. Par exemple, certaines de nos variables d'environnement, issues de l'étude des cartes anciennes, sont reconstruites à partir de l'usage passé des sols. Il s'agit ici de l'une des contraintes mais aussi de l'une des originalités de notre projet, à savoir partir de l'étude des données extraites de sources historiques, climatiques et paléoclimatiques à Chypre pour reconstruire les données "de terrain" permettant de réaliser la simulation corrélant des facteurs environnementaux aux phénomènes étudiés.
D'autres variables sont plus rarement mobilisées dans la revue de la littérature mais peuvent avoir un intérêt en fonction des hypothèses de recherche. Il s'agit par exemple de la longueur du réseau routier étudié dans l'article sur le paludisme dans la Guyane ([Memarsadeghi et al., 2023](https://malariajournal.biomedcentral.com/articles/10.1186/s12936-023-04478-6)). Inclure ou non ces différents types d'éléments du paysage chypriote va donc dépendre des choix réalisés en amont et pendant la mise en place de la méthode.
### Discussion sur nos variables environnementales (naturelles & anthropiques)
Les données de températures et de précipitations sont plutôt du ressort du WP1 alors que les autres données (usage des sols, altitude, démographie) sont disponibles auprès du WP2. Les données pour le WP2 sont disponibles pour l'utilisation via le logiciel ou les packages R. Pour le WP1 la discussion doit être engagée (voir la conclusion).
[Du et al., 2014](https://www.sciencedirect.com/science/article/pii/S1201971214015008) montrent l'importance des variables naturelles. Ces dernières sont souvent au centre des hypothèses de la modélisation :
> "As a disease of natural focus, the occurrence of SFTS depends mainly on the environmental factors that determine the distribution of vectors (tick) and animal hosts. It is, therefore, feasible to predict the areas of potential high risk for SFTS using environmental factors. In this study, the MaxEnt ecological niche model was used first to fit the spatial SFTS occurrence data and environmental data to predict the potential risk area in Shandong. The model was then projected onto the whole country to predict the potential high risk areas for China. The model indicated the key environmental factors for the occurrence of SFTS to be temperature, precipitation, land cover, NDVI, and duration of sunshine, with specific suitable ranges."
Cependant les auteurs rappellent que les facteurs humains peuvent aussi influencer le modèle. Ainsi les résultats portant sur la Guyane [(Moua et al., 2016)](https://academic.oup.com/jme/article-abstract/54/3/606/2952755) démontrent le rôle déterminant dans la localisation des cas de paludisme de la variable naturelle associée à la quantité de routes.
> "In our analysis, we only took environmental variables into consideration. There are, however, other factors that should be considered when predicting the possibility of SFTS occurrence in an area: vector abundance, the distribution of potential reservoir animals, human population densities, international travel and trade, etc.."
Il est donc important de discuter des hypothèses sous-jacentes à la prise en compte des deux types de variables. Dans le jeu de variables naturelles en lien avec les maladies susceptibles d' être intégrées, celui-ci peut comprendre les minimums et les maximums de températures, les volumes de précipitations, la proximité de l'eau. D'autres variables, physiques et anthropiques, doivent aussi être évaluées, comme par exemple, l'altitude, la population, la proximité à des routes, l' usages des sols.
# La méthodologie
La figure ci-dessous a été élaboré à partir des articles de la bibliographie. Elle reprend les grandes étapes de la méthode Maxent et identifie les principaux *input*, *output* et les logiciels utilisés.

## Description
La construction des données est simple. Les données épidémiologiques sont construites soit sous la forme d'un raster (pour le logiciel _Maxent_) intégrant une donnée booléenne 0/1 avec 1 signifiant la présence et 0 l'absence, soit sous la forme d'un csv (pour la solution R) ayant le X et le Y ainsi que le nom de l'espèce (ici une maladie). Pour les données statistiques il s'agira d'un raster ayant toutes les informations dans les cellules représentant de la zone d'étude.
Le modèle est calculé sur une zone test avec des échantillons particuliers. Si ce dernier est validé des tests supplémentaires sont lancés avec un rééchantillonnage jackknife. Si le modèle est validé à la suite, il peut être étendu à la zone d'étude complète.
A la fin de la chaine les traitements statistiques (variables contribuant le plus, etc.…) et cartographiques pourront être menés. Dans le cas de High-Pasm, le raster sera conservé pour la simulation pour servir de proxy à la zone d'émergence de cas via la zone géographique de distribution et aux coefficients de probabilités calculés par la méthode.
## Support
Deux méthodes existent pour mener à bien ce type de traitement.
La première consiste à employer un logiciel spécialisé. Ce logiciel est la référence et il a permis de populariser et de généraliser ce type de traitement. Il s'agit du logiciel libre [Maxent](https://biodiversityinformatics.amnh.org/open_source/maxent/) ([Github](https://github.com/mrmaxent/Maxent)). Il propose une approche *clique-bouton*.
La deuxième méthode préfère une alternative au logiciel Maxent via des packages R. Il y a plusieurs packages qui peuvent ainsi être une alternative au logiciel. En premier lieu, il y a la paire [*Maxent*](https://search.r-project.org/CRAN/refmans/dismo/html/maxent.html) et [*Biomod2*](https://cran.r-project.org/web/packages/biomod2/index.html) (qui est une extension de Maxent). Il existe aussi le package [*SDM*](https://cran.r-project.org/web/packages/sdm/index.html).
Les deux approches sont réalisables. L'utilisation des packages R [*Maxent*](https://search.r-project.org/CRAN/refmans/dismo/html/maxent.html) et [*Biomod2*](https://cran.r-project.org/web/packages/biomod2/index.html) est plus intéressante car elle permet de mieux comprendre la chaîne de traitement des données et d'avoir un regard sur tout le processus de création et de calcul des données. De plus, Maxent propose un tutoriel étape par étape permettant de comprendre les fonctions principales. Il est important de noter que la bibliographie autour du logiciel Maxent est elle aussi importante et que ce logiciel reste une alternative sérieuse à R en cas d'impasse technique.
# Pour la suite
Plusieurs questions pour une possible réunion qui viserait
- à déterminer quelles données peuvent être fournies par les différents WP
- ainsi que la validation des hypothèses de travail/choix techniques :
## Quel support utiliser ?
La méthode Maxent sera explorée par R, les packages sont à tester pour voir les avantages et les inconvénients de ces derniers. Les résultats issus de ces derniers peuvent aussi être comparés de manière à explorer le plus de résultats possibles.
## Comment procéder ?
1. L'entraînement du modèle peut être mené sur une zone où les données de tous types sont disponibles en abondance, il peut s'agir des provinces de Famagusta ou de Nicosia. S’il y a suffisamment de valeurs sur la zone test, des sous-groupes peuvent être crées afin de faire différents modèles pour les comparer à la suite. Il s'agit de reprendre la méthodologie de (Zhao et al., 2019) qui semble l'une des plus robustes [:question: à justifier].
3. Si le ou les modèles ont des résultats validés par les tests statistiques, ils peuvent être appliqués au reste du territoire chypriote.
4. Une vérification va alors être réalisée avec les données des cas des autres provinces afin de valider le modèle.
## Quelle qualité pour les données épidémiologiques ?
Deux éléments vont modifier la qualité des données épidémiologiques : la localisation et le type de données brutes. Idéalement, la donnée doit avoir la meilleure qualité. La disponibilité et la facilité de traitement des sources sont des facteurs clés dans l'obtention de telles données. Les exemples suivants vont être classés par ordre décroissant de qualité de données :
1. Nombre de malades/infectés localisés au village
2. Nombre de décès au village
3. Nombre de malades/infectés localisés _à une échelle administrative supérieure au village_
4. Nombre de décès à une échelle administrative supérieure au village
5. Proxy de présence de maladie au village
6. Proxy de présence de maladie à une échelle administrative supérieure au village
:question: plusieurs questions :
- la temporalité / la prise en compte du temps est-elle intrinsèque aux phénomènes ?
- si oui,
- on considère les localités ("géographie de la maladie") comme manifestant le phénomène étudié au moment où il est mesuré localement (en général, lorsque l'administration sanitaire considère un certain nombre de facteurs comme présents et prévoit l'émergence de phénomène - période de pluie après une forte sécheresse :grey_question:, saisonalité etc.) - **rythme**
- les **périodes** d'intense occurrence ou de disparition de ces phénomènes associées à d'autres phénomènes à d'autres échelles,
- si non, cela suppose d'associer la donnée à un intervalle de temps
## Quelles variables et hypothèses sont à étudier au travers de ces modèles ? Quelles qualités dans les données pour ces variables ?
Les hypothèses à tester sont celles de l'importance :
- des facteurs de l'eau dans la prolifération du paludisme
- mais aussi des aménagements et des impacts humains sur la nature.
Il est alors important de partir sur des variables climatiques (minimums et maximums de température, précipitation), des variables sur l'eau (proximité à des rivières/bassins/réservoirs, présence de zones agricoles irriguées), des variables physiques (altitude, la couverture des sols au travers des usages des sols) et des variables "nthropiques (populations, routes).
Pour les facteurs environnementaux, il faut reprendre la liste de la partie des données en conservant ce qui peut être disponible et en adaptant le reste pour se rapprocher des types de données mobilisés dans les autres études :
- [ ] Annual mean temperature
- [ ] January/winter mean precipitation
- [ ] July/summer mean precipitation
- [ ] January/winter mean temperature
- [ ] July/summer mean temperature
- [ ] Humidité
- [ ] Ensoleillement
- [ ] Land cover
- [ ] Altitude
- [ ] Pente
- [ ] Population / densité de population
- [ ] Longueur du réseaux de routes
- [ ] Autres : ...
## Quelle maille utiliser ?
Le passage par des rasters va résulter dans l'usage et le choix d'une maille spatiale de distribution des données. Il faut alors définir cette dernière en ayant à l'esprit plusieurs paramètres. Ce choix de granularité doit prendre en compte le niveau de détails souhaité pour l'étude mais aussi la quantité de cellules générées et les mailles des données sources préexistantes. Pour les premiers tests à réaliser, la même maille employée sur l'étude des usages des sols (la maille des rasters CORINE Land Cover) peut être conservée. Des changements pourront être effectués sur ce maillage en fonction des résultats des tests et des discussions plus générales entre les WP.
Le problème avait été abordé pendant les *midterm meeting*. La maille déjà utilisée pour d'autres traitements peut être employée dans un premier temps et être validée ou non à la suite. Il s'agit de la maille de CORINE Land Cover.
## Quelles qualités dans la localisation des cas ?
Les échelles disponibles sont celles du district, du sous-district, des centres de soins ou des communes. Les données sont souvent disponibles à l'échelle du district mais elles peuvent être reventilées statistiquement à une échelle inférieure comme celle des communes. Il faut trouver une méthode statistique robuste pour pouvoir valider cette manière de procéder.
Sinon, les données employées sont celles disponibles à la commune et les autres données pourront servir de données de validation du modèle statistique bien que cela risque de diminuer drastiquement la taille de l'échantillon.
# Bibliographie
Ceccarelli, S., Balsalobre, A., Susevich, M. L., Echeverria, M. G., Gorla, D. E., & Marti, G. A. (2015). Modelling the potential geographic distribution of triatomines infected by Triatoma virus in the southern cone of South America. Parasites & Vectors, 8(1), 153. https://doi.org/10.1186/s13071-015-0761-1
Du, Z., Wang, Z., Liu, Y., Wang, H., Xue, F., & Liu, Y. (2014). Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome. International Journal of Infectious Diseases, 26, 1‑8. https://doi.org/10.1016/j.ijid.2014.04.006
Elith, J., Phillips, S. J., Hastie, T., Dudík, M., Chee, Y. E., & Yates, C. J. (2011). A statistical explanation of MaxEnt for ecologists : Statistical explanation of MaxEnt. Diversity and Distributions, 17(1), 43‑57. https://doi.org/10.1111/j.1472-4642.2010.00725.x
Hundessa, S., Li, S., Liu, D. L., Guo, J., Guo, Y., Zhang, W., & Williams, G. (2018). Projecting environmental suitable areas for malaria transmission in China under climate change scenarios. Environmental Research, 162, 203‑210. https://doi.org/10.1016/j.envres.2017.12.021
Manyangadze, T., Chimbari, M. J., Gebreslasie, M., Ceccato, P., & Mukaratirwa, S. (2016). Modelling the spatial and seasonal distribution of suitable habitats of schistosomiasis intermediate host snails using Maxent in Ndumo area, KwaZulu-Natal Province, South Africa. Parasites & Vectors, 9(1), 572. https://doi.org/10.1186/s13071-016-1834-5
Memarsadeghi, N., Stewart, K., Li, Y., Sornsakrin, S., Uthaimongkol, N., Kuntawunginn, W., Pidtana, K., Raseebut, C., Wojnarski, M., Jongsakul, K., Jearakul, D., Waters, N., Spring, M., & Takala-Harrison, S. (2023). Understanding work-related travel and its relation to malaria occurrence in Thailand using geospatial maximum entropy modelling. Malaria Journal, 22(1), 52. https://doi.org/10.1186/s12936-023-04478-6
Merow, C., Smith, M. J., & Silander, J. A. (2013). A practical guide to MaxEnt for modeling species’ distributions : What it does, and why inputs and settings matter. Ecography, 36(10), 1058‑1069. https://doi.org/10.1111/j.1600-0587.2013.07872.x
Moua, Y., Roux, E., Girod, R., Dusfour, I., De Thoisy, B., Seyler, F., & Briolant, S. (2016). Distribution of the Habitat Suitability of the Main Malaria Vector in French Guiana Using Maximum Entropy Modeling. Journal of Medical Entomology, tjw199. https://doi.org/10.1093/jme/tjw199
Naimi, B., & Araújo, M. B. (2016). sdm : A reproducible and extensible R platform for species distribution modelling. Ecography, 39(4), 368‑375. https://doi.org/10.1111/ecog.01881
Phillips, S. J., Anderson, R. P., Dudík, M., Schapire, R. E., & Blair, M. E. (2017). Opening the black box : An open-source release of Maxent. Ecography, 40(7), 887‑893. https://doi.org/10.1111/ecog.03049
Phillips, S. J., Dudík, M., & Schapire, R. E. (2004). A maximum entropy approach to species distribution modeling. Twenty-First International Conference on Machine Learning - ICML ’04, 83. https://doi.org/10.1145/1015330.1015412
Warton, D. I., & Shepherd, L. C. (2010). Poisson point process models solve the “pseudo-absence problem” for presence-only data in ecology. The Annals of Applied Statistics, 4(3). https://doi.org/10.1214/10-AOAS331
Zhao, H., Sun, C., Ma, W., Yin, G., Zhang, X., Yu, H., & Song, J. (2019). Spatial and Temporal Epidemiologic features analysis of pulmonary tuberculosis in Nanjing, China [Preprint]. In Review. https://doi.org/10.21203/rs.2.19145/v1