# Mémoire Vianney Echanges extérieurs
## Rmq sur le mémoire
* Chapitre 1
* "dépenses des touristes frç" => en fait, des "résidents frç", car il peut théoriquement y avoir des frontaliers qui dépensent sans être "touristes" (et même rmq pour le sens "exportations")
* La nouvelle méthode de lissage des comptes ("par noyau à fenêtre adaptative") : au cas où il y ait une question là-dessus, tu as en tête le principe ?
* Chapitre 2
* sur le fait que la prévision doive être réalisée "en volume à prix chaînés" : tu es prêt à expliquer le concept (volumes chaînés, aux prix de l'année précédente) ?
* Partie sur la prév de commerce mondial : tu es prêt à définir ce qu'est le "commerce mondial" ?
* Chapitre 3
* Enquêtes EFT et SDT : tu dis qu'elles sont publiées "trop tardivement" => bien avoir le timing en tête en cas de questions
* Partie 3.2.1 : "cet indice peut être filtré par lieu" => ça ne suffit peut-être pas à dire clairement que tu peux voir une série pour un terme de recherche donné PAR PAYS DEPUIS LEQUEL LA RECHERCHE A ETE EFFECTUEE. => être bien clair là-dessus à l'oral.
* Sur la détection des valeurs aberrantes (3.3.2) :
* tu listes les conditions pour dire qu'une valeur est aberrante ; j'imagine qu'il suffit qu'UNE condition soit remplie pour que la valeur soit considérée aberrante ?
* je suis un peu surprise de la dernière condition mais j'ai peut-être mal compris : un point en t est considéré comme aberrant s'il y a, par exemple, une hausse de la série avant et une baisse après ? Ca peut arriver sans que ce soit "aberrant", non ?
* sur les tests de stationnarité et la déstastionnarisation (3.3.3) :
* l'hypothèse nulle du test ADF n'est pas précisée (mais bon on comprend/ les examinateurs connaissent sans doute)
* tu ne justifies pas vraiment le fait que finalement tu stationnarises tout par la méthode delta-log alors que tu mentionnais la méthode des MCO pour les séries TS
* Sur la gestion des lags (3.4) :
* bien préciser à l'oral qu'on parle de lags en MOIS
* partie sur les suspicions de sur-apprentissge : être prêt à définir "sur apprentissage" et à argumenter un peu plus sur les raisons pour lesquelles c'est un problème
* graphiques avec les densités : il faudra peut-être re préciser à l'oral que la série "pchtr" est celle au sens des Comptes et la série "services de voyage" celle de la balance des paiements
* Sur la sélection des séries pour lesquelles la corrélation est la meilleure : on pourrait t'interroger sur la méthode pour choisir le seuil S
* de façon générale, je comprends que tu n'as pas étudié les corrélations "par pays d'origine" : par exemple, tu regardes la corrélation entre les recherches de "viaje Francia" venues d'Espagne et l'ENSEMBLE de la variable "services de voyage", c'est bien ça ? => avoir en tête que ce sera peut-être à clarifier à l'oral
* Sur les FM / DFM (3.5)
* coquille : dans la partie 3.5.1.1, le lambda est noté comme appartenant à "R2", comme si le lambda était un couple de réels
* c'est génial d'avoir écrit les hypothèses de la partie 3.5.1.2 "en français"
* figure 3.7 : le titre est "exemple de scree plot", mais en fait c'est "le" scree plot de tes données, non ?
* fin de la page 19 (paragraphe "choix du paramètre p du VAR") : tu écris "une fois le lag choisi..." => en fait c'est "une fois le nb de facteurs choisis" ? Car ce paragraphe "choix du paramètre p du VAR" consiste justement à expliquer comment choisir le lag, non ?
* Chapitre 4
* 4.1.1 Gestion des lags :
* les deux dernières phrases du premier paragraphe ('non supposons que les séries ayant une forte corrélation avec ...') gagneraient à être illustrées par un exemple. => si les touristes Allds qui viennent en Fce en avion prévoient leurs vols 3 mois à l'avance ("flight france") et que les touristes anglais prévoient leur Eurostar ("train france") eux aussi 3 mois à l'avance, on se dit que les mouvements des séries <"flight france" cherché depuis l'Allg> et <"train France" cherché depuis l'Angleterre> vont être similaires et donc que ces deux séries vont être synthétisées dans un même facteur. Ce facteur doit être utilisé en prévision avec un lag de 3 mois. => on est OK avec cet exemple ?
* 2e paragraphe : "les loadings, c'est-à-dire les coefficietns qui indiquent la contribution des Google Trends à chaque facteur" => en fait au vu de la 2e équation de la page 19 on aurait envie de dire que les loadings correspondent plutôt à la "contribution de chaque facteur pour une série donnée" mais finalement ça revient au même
* dernier paragraphe : sur le surapprentissage : on pourrait répondre que tu aurais pu sélectionner des modèles plus "parcimonieux" en amont
* 4.1.2 : j'ai du mal à comprendre l'avant dernier tiret, j'ai l'impression qu'il y a des redites à l'intérieur...
* 4.1.3 :
* il y a une phrase en gras qui ne devrait plus être là ; si ?
* sur le fait que certains coeff soient négatifs : ça ne me choque pas plus que ça que certains coeff soient négatifs ; ils ne sont pas interprétables économiquement du coup mais dans une estimation ça ne semble pas absurde dans l'absolu que certaines variables sortent en négatif
* 4.1.4 : Tu parles de "modèle contrefactuel" : je pense que le vrai terme est en fait "baseline model" (en anglais), qu'on pourrait traduire par "modèle de référence". Le terme de "contrefactuel" est plutôt un terme d'évaluations de pol publiques où le "contrefactuel" est "le monde dans lequel la pol publique n'aurait pas été mise en place".
* 4.1.5 : on ne compare pas au modèle "acquis au mois 0" ?
## 31/03/2023
**Idées :**
* peut-être qu'il y a des google trends qu'on va vouloir exclure de l'étape DFM, si on voit en amont que la corrélation est trop pourrie
* Prévoir la PCHTR ou prévoir la BdP ? => 2 avantages à prévoir la BdP :
* on n'est pas dépendants des changements futurs de méthodo
* dans l'apprentissage des modèles, on n'est pas gênés par la rupture de séries dans la PCHTR
**A faire :**
* checker corélation GTrends / BdP toutes nationalités confondues, en mensuel
* continuer à fouiller la doc du pkg DFM : comment sont modélisés les facteurs ?
* vérifier comment est réalisée l'enquete EFT : est-ce une enquete exhaustive ?
* Retrouver les résultats de la régression de la PCHTR sur les facteurs qui sortent du DFM
## 07/04/2023
## 31/03/2023
**Rappel de la démarche**
* Objectif : d'une part, prévoir les dépenses des non résidents sur le territoire frç :fr:, d'autre part prévoir les dépenses des résidents à l'étranger :world_map:
* Sources pour ces variables d'intérêt : la balance des paiements (produite par la Bq de F), et les imports/exports de tourisme (=PCHTR) des Comptes trim (Insee).
:::info
*Contexte* : jusqu'à mi 2019, les CTrim obtenaient la PCHTR par lissage. Depuis mi 2019, la série de PCHTR des CTrim correspond globalement à la balance des paiements, modulo les traitements usuels des CTrim (désaisonnalisation)
:::
* Démarche proposée : obtenir une prévision grâce à une régression sur un indicateur issu des Google Trends et des régresseurs plus "classiques", de type grandeurs macroéco des principaux pays étrangers avec lesquels la Fce a des échanges de services touristiques.
* :calendar: "Pas temporel" de la prévision :question: Mensuel a priori ?
* :sunrise: Horizon de la prévision :question: idéalement, de M à M+8 ? => dépendra de à quel point les GTrends s'avèrent "prospectives"
:::warning
Dans le mémoire, prévoir un paragraphe justifiant l'usage des GTrends : intérêt de leur disponibiltié rapide et de leur caractère "prospectif" (lags).
:::
* Phase :one: : prévision des exports de services touristiques, càd dépenses des étrangers en France
* :one: :a: : synthétiser les GTrends en indicateur global de "climat". On propose de le faire avec la méthode des modèles à facteurs dynamiques (DFM).
:::warning
:warning: ici : il faudra sans doute justifier pourquoi on utilise cette méthode plutôt qu'une autre (sélection de variables par LASSO, création d'un indicateur synthétique par ACP...)
:::
* Pour synthétiser les GTrends : spécificités à prendre en compte :
* Le caractère plus ou moins "prospectif" de certaines recherches (lags). => prévoir un indicateur pour chaque mois de l'horizon de prévision :question:
* Les termes de recherche sont tapés par les utilisateurs dans leur propre langue. => repérage des termes de recherche à faire dans différentes langues : :uk: :fr: :de: :it: :es: ... + :flag-pt: et :flag-nl: ?
* Pour le DFM, mettre ensuite tous les termes de recherches dans le modèle, toutes langues confondues :question:
* Comment sélectionner les termes de recherche pertinents ?
* Par langue / nationalité, étude de la corrélation entre la GTrend du terme de recherche un mois donné et les nuitées ou arrivées des touristes de cette nationalité. => Premiers résultats déjà obtenus en trim pour l'anglais ; à affiner une fois qu'on aura des données mensuelles d'arrivées / nuitées par pays d'origine
* _In fine_, la corrélation entre l'indicateur global obtenu grâce au modèle DFM et les dépenses des étrangers en France donnera une indication
* Comment savoir quel terme associer à quel niveau de lag ?
* On peut étudier les corrélations avec les nuitées/arrivées selon le niveau de lag
* Est-ce qu'on pense à une méthode + automatique / statistique :question:
* Phase :one: :b: : obtenir une prévision d'exports de services touristiques, tous pays d'origine confondus
* Sur l'ajout de régresseurs de type "macro économiques" sur les pays d'origine des touristes : est-ce vraiment pertinent si on ne fait qu'un modèle global tous pays d'origine confondus :question: Il peut cependant être pertinent, _a minima_ de tester ce que donne l'inclusion du climat **en France** dans l'hébergement restau (si possible seulement dans l'hébergement ?) ou l'inclusion de la série `"tendance prévue de l'activité à l'exportation"` dans l'hébergement restau
* Dans cette phase : si on a un indicateur de "climat" par mois de prévision, on fait un modèle par mois ?
**Questions / réponses**
* Les touristes chinois :cn: rpz 6 % des exports de tourisme. Or leurs recherches sont principalement effectuées via Baidu et non Google.
:question: peut-on avoir accès à des "Baidu Trends" ? :arrow_right: https://sampi.co/baidu-index-tutorial/ :
> Baidu offers Baidu Index tool that is free for Baidu advertising accounts
>
=> suffit à justifier le fait de laisser de côté ce moteur de recherche pour l'instant ? (puisqu'on ne va pas ouvrir un compte qui poste des pubs sur Baidu, si ?)
* :question: est-ce que les séries de nuitées ou d'arrivées existent ventilées par mois * nationalités, et seulement par trimestre * nationalité ? :arrow_right: a priori oui, cf échanges Vianney-Pierre G 30/03/23. À récupérer sous AUS.
* Quelles données supplémentaires aux GTrends peut-on utiliser dans le modèle de prévision ?
* Pour les exports de tourisme : pouvoir d'achat, taux de change (pour la £, le $ et le yen) ?
* Pour les imports : enquêtes dans les secteurs comme l'hébergement et la restau
* Corrélation nuitées (ou arrivées) / PCHTR (dépenses) :question: (Vianney a sorti de 1ers résultats, à regarder)
* Pb des périodes de coupes du monde :soccer: Ces périodes gonflent le nb d'occurrences du terme de recherche "France". **À vérifier**: est-ce qu'il y a aussi une augmentation des dépenses des étrangers en Fce dans ces périodes ? A priori, pas dans une ampleur telle.
* Une solution pour l'estimation du modèle qui mettra en lien la PCHTR avec l'indicateur de climat : remplacer ces "points aberrants" par des estimations par moyennes mobiles :question:
* :warning: à la prochaine coupe du monde, le modèle sera moins pertinent...
## 27/01/2023
**Résultats :**
* 37 termes de recherche testés
* Corrélation testée : entre le nb de nuitées TRIM des Britanniques et les GT correspondant à chacun des 37 termes de recherche checkés
* Corrélation moins bien quand les GT sont celles auxquelles la catégorie "voyage" était ajoutée
* Corrélations sur les niveaux de nuitées et les VT ==(qu'est-ce qui était le mieux ?)==
* NB : pays qui pèsent le plus dans les dépenses : on a fait une liste des 10 pays les plus représentés => pèsent 74 % des dépenses. Mais il y a la Chine qui pèse 6 %. Or leur moteur de recherche n'est _a priori_ pas Google.
**Remarques / points à avoir en tête :**
* Intérêt pour la prév : utiliser les termes laggés
* Rappel de la démarche :
* Modèle à facteurs dynamiques : à utiliser pour synthétiser les Googles Trends => obtenir un indicateur de type "climat" sur les nuitées/arrivées. Un modèle à facteurs par pays ? Ou par groupes de pays (frontaliers / non frontaliers) ? On pourrait tester de mettre tous les pays ensemble et voir si les différentes "composantes" qui se distinguent ont un sens. ==Question : pour l'indicateur qu'on veut associer à un moment donné, on met les GT de ce mois-ci uniquement ? Ou bien on met aussi plein de GT "laggés" ?==
* Checker les corrélations entre cet "indicateur de climat" et les nuitées/arrivées
* Désaisonnalisation de l'indicateur de "climat" obtenu.
* Faire une régression "indicateur climat" en X (toutes nationalités d'origine confondues) sur les dépenses (toutes nationalités d'origine confondues) en Y
* Différence entre modèles à facteurs dynamiques et analyse en composantes principales : les FD prennent en compte la dimension "temporelle". Pas la même méthode d'estimation.
**A faire :**
* voir avec Pierre Girard si existence de séries mensuelles d'arrivées ou de nuitées, par pays de provenance. Voire même : existence de données sur les dépenses, par pays de résidence ?
* Corrélation nuitées (ou arrivées) / PCHTR (dépenses) : à checker. Par pays.
Mais question de CVS : il faut CVS les nuitées (ou arrivées).
/!\ dépenses par pays : seulement dispo en annuel. Regarder la corrélation : d'une part, somme des nuitées des non résidents, en pondérant par le poids des différentes nationalités dans les dépenses et d'autre part les dépenses totales.
* Demander aux resp pays à la Conj quelles sont les données qu'on peut récupérer
* Vérifier récupération données de Baidu => Quantcube a dû en utiliser
## 11/01/2023
=> voir les données qui peuvent être récupérées, +/- automatiquement (voir avec les responsables pays à la Conj)
=> prendre l'ex des Anglais ?
=> liste de termes de recherche
=> liste de données externes qui peuvent être intégrées
=> quel est le Y ? Les nuitées des Anglais en France, par mois. Mais peut-être + facile de prévoir les arrivées. On ferait une conversion en nuitées ensuite. On va essayer avec les deux.
=> Ensuite on passera en euros
=> Stat desc pour y voir + clair sur les lags : regarder la corrélation entre le moment entre les termes de recherche et les arrivées / nuitées
## 06/10/2022
### Quels modèles considérer pour travailler avec les GT ?
2 ruptures de séries sur les modes de collecte des GT :
* 2011
* 2016
=> est-ce que les modèles à facteurs dynamiques permettent de gérer les ruptures de séries ?
Facteurs dynamiques : on tient compte du fait qu'on a des séries temporelles, mais pour faire en sorte que les relations entre les variables changent au cours du temps il faut faire qq chose en plus.
En ce moment : Gaëlle Pécresse en alternance travaille avec des modèles à facteurs dynamiques.
### Prépa séminaire de la Conj du 20/10/2022
/!\ 15 min de présentation
Plan de la présentation :
* Prévisions PCHTR :
* qu'est-ce que la PCHTR
* Montrer des séries réalisées / prévues
* Donner contrib à l'erreur dans les Notes
* Un bon indicateur à M+1,5 : balance des paiements
* Montrer la corrélation
* GT : pour les mois suivants
* Définir les Google Trends : beaucoup de variables :
* Nationalité
* Termes de recherche
* Exemple de QuantCube
* /!\ aux frontaliers
* Distinguer les GT qu'on prendrait pour prévoir les imports et celles qu'on prendrait pour les exports
* Voir jusqu'où les GT peuvent nous emmener : m+6 ?
* Il faut a priori dé-saisonnaliser les GT (c'est ce qui est fait dans le papier du FMI, mais à discuter avec Bruno et Gaëlle et voir aussi ce qui est fait dans les autres papiers)
* Quel modèle pour les GT ?
* Sélection de variables :
* LASSO
* Auto-encodeurs
* Facteurs dynamiques => peut peut-être permettre de gérer des temporalités différentes dans les corrélations.
* Ensuite :
* Est-ce qu'on ferait un étalonnage sur un indicateur synthétique ? (tel que calculé avec les facteurs dynamiques)
### Questions plus techniques sur les GT
Entre 2004 et 2011 : il y a une tendance décroissante des GT sur le tourisme => ça peut a priori se corriger.
Les corrélations entre les différents points de la série de PCHTR peuvent être différentes selon les termes de recherche => Vianney va tester les corrélations pour certaines séries, en demandant les nb de nuitées par nationalité à la Division Services.