--- title: Modelise collection for two household surveys tags: Metallica --- # Modelise collection for two household surveys This email to the DDI community adresses questions about survey modelisation in DDI with a focus on data collection phase. It will deal with Group, StudyUnit, DataCollection, CollectionEvent and Instrument. We aim at triggering specific events (automatically build workflow for opening data collection, sending mail...) based on DDI metadata. Even if DDI does not allow to trigger all the events we would like, we aim at being compliant with the DDI model. Two use cases addressed by the collection business team are presented below. Before starting, four concepts defined by Insee (metadata or data collection teams): - **Statistical operation** A statistical operation is a set of data capture, data processing, and even data dissemination. We used to create a new statistical operation for a year (the year of the data). This practice is convenient to attach quality report sent to Eurostat each year (for infra-annual, annual or one-off statistical operations). - **Series of statistical operations** Each annual statistical operation belongs to a series of statistical operations. - **Data collection campaign** :::warning **A définir... Définition actuelle de Metallica (elle sera à revoir car on ne peut considérer qu'une campagne suffit à produire des résultats, par exemple pour le RP ou pour ESANE qui doit utiliser la DSN. De plus, cela signifiera qu'une campagne du RP, c'est 5 années des enquêtes annuelle du recensement.** Une campagne est une partition d’opération dans l’objectif de produire des résultats selon un calendrier défini préalablement par la maitrise d’ouvrage. L’identifiant d’une campagne porte une information sur la fréquence de mise en oeuvre de la série. Une opération peut avoir une ou plusieurs campagnes. Exemples : EEC 2022 T01, FPE 2018 X00, ACEMO trim 2020 T1, HVP 2020 X00, BDF 2016 X00 ::: A Data collection campaign is a partition In particular in our terminology for each statistical operation we need to take into account at least one object called « campaign » . More precisely a campaign is a partition of statistical operation with the objective to produce results according to a calendar defined beforehand by the project owner. An operation can have one or several campaigns. - **Batch** :::warning A revoir en fonction de la définition de campagne ::: A batch is a partition of the data collection for practical/operational purposes in order to run collection. It can be a partition of : - the sample, because it's not possible to interviewed all the units at once (e.g. too heavy workload to run the collection or data is not available for some companies at the same time) - the questionnaire, because time to answer the questionnaire at one time is too long) - the collection mode, because each mode has its own calendar (e.g. a first batch is about Computer-assisted web interviewing (CAWI) and the second batch is about Computer-assisted telephone interviewing (CATI)) Each batch has its calendar. A calendar is defined by start date, different types of reminder dates, end date. To note: these concepts/definitions can change (especially the last two) if it allows to be more compliant with DDI standard. ## 1st use case: The monthly consumer confidence survey code named "Camme" ### Brief literal description The aim of this consumer survey, named "Camme" in France, is to collect information on consumer behaviour and expectations in terms of expenditure attitudes and savings. This survey is carried out each month by the Member States of the European Union. It also measures cyclical trends as perceived by households (changes in prices, etc). The "Camme" survey thus contributes to the evaluation of the French economic outlook. This survey allows us to calculate the consumer confidence indicator, which is regularly referred to in the media. ### Design phase At most once a year (except particular cases as a global pandemic) for re-designing instruments, frame and sample, procceses or outputs ### Collect phase - **Sample** * One general sample selection per year * The selection is split into 12 monthly samples * Each household is interviewed during three consecutive months and then removed from the sample. It means for one month, units from 3 monthly samples are surveyed - **Collection mode** * Computer-assisted telephone interviewing (CATI) - **Collection campaign and batch** - 1 data collection campaign per month - 3 batchs are defined per campaign (a partition of the sample: new entrants, first re-interview, second re-interview). A batch has a single type of communication (same type of mailing) and one single instrument (questionnaire) to answer. - **Questionnaire** * un questionnaire avec deux séquences : une séquence conjoncture et une séquence sociodémo :::warning Je ne parlerai pas de ce qu'il y a en dessous ou plutôt je dirai qu'il y a une séquence de question supplémentaire un mois donné mais pas de "transporter une enquête" ::: * Camme transporte ponctuellement (un mois donné) une enquête externe avec un questionnaire disjoint ### Disseminate phase * One national and european monthly dissemination based on the data collected during the month * Diffusion annuelle ? Comment pour les chercheurs ? ## 2nd use case: Housing survey **Brief literal description** The purpose of the housing survey is to describe housing conditions of households and their housing expenditure. Censuses do of course have the advantage of covering a larger sample but they do not provide information on rents, charges, financing plans, income, and many other features of French people's quality of housing (especially the most poorly housed) which are covered in detail in the housing survey. It has many uses: structural data for projects, detailed study of sub-populations and modelling behaviours, short to medium term analyses or analyses in pseudo-panels based on chronological comparisons between successive surveys. ### Design phase Once for designing instruments, frame and sample, procceses and outputs ### Collect phase - **Sample** * One sample selected once - **Collection mode** * Computer-assisted telephone interviewing (CATI) * Computer-assisted web interviewing (CAWI) - **Questionnaire** * The questionnaire has been split into three sequences because time to answer the questionnaire at one time is too long. Each sequence is used to collect data during three different calendars. The entire questionnaire exists as a whole too. It means we can consider 4 collection instruments (3 x 1 sequence and the entire questionnaire). - **Collection campaign and batch** :::warning Bon là c'est pas clair la définition d'une campagne et d'un lot et maintenant il y a une "sous-campagne" qui est apparue que je ne comprends pas. ::: * 1 data collection with a sequential mixmode: respondants are interviewed by Computer-assisted web interviewing (CAWI) first then by Computer-assisted telephone interviewing (CATI): - 4 batchs: * January 24th 2022 – 13 février 2022: questionnaire (sequence 1) by internet * February 28th 2022 – 20 mars 2022: questionnaire (sequence 1) by CATI mode and questionnaire (sequence 2) by CAWI mode * April 4th 2022 – April 24th 2022: questionnaire (sequence 2) by CATI and questionnaire (sequence 3) by CAWI mode * May 9th 2022 – May 23th 2022: questionnaire (sequence 3) by CATI mode :::info Ne manque-t-il pas la partie qui concerne le questionnaire entier ? Et il en manque d'autres. J'ai l'impression qu'il y a 21 lots ici : [**lien cliquable**](https://hackmd.io/35jL2haLR2-uLSplf06NSw?view) ::: ### Disseminate phase * One statistical dissemination when all the sequences and the data process are completed ## Ideas for modeling ### Camme Survey #### solution 1 * [Group](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/Group/): The series of yearly Camme survey * [Group](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/Group/): Each year (e.g. Camme 2021, Camme 2022) * 12 [StudyUnit](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/StudyUnit/) per Group (the one defined above) (e.g. Group Camme 2022 will contains "Camme January 2022" to "Camme December 2022" * 1 [DataCollection](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/DataCollection/) per StudyUnit (1 DataCollection for Camme January 2022, 1 DataCollection for Camme February 2022... 1 DataCollection for Camme December 2022) * 3 [CollectionEvent](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/composite-types/CollectionEventType/): 1 calendar with a dedicated communication, 1 mode (ok, there is only one mode here) and one questionnaire Summary of mapping with Insee concepts: | DDI | Insee | Exemple | | --------------- | ------------------------------ | ---------- | | Group (level 1) | Series of statistical operations | Camme | | Group (level 2) | Statistical Operation | Camme 2022 | | StudyUnit | Not defined | Camme January 2022 | | DataCollection | Data collection campaign | Data collection for Camme January 2022 | | CollectionEvent | Batch | Incoming units for a first collection with a specific calendar and a unique communication | #### Solution 2 * [Group](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/Group/): The series of yearly Camme survey * 1 [StudyUnit](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/StudyUnit/) per year within the Group (e.g. Camme 2021, Camme 2022) * 12 [DataCollection](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/DataCollection/) per StudUnit (e.g. StudyUnit Camme 2022 will contains "Camme January 2022" to "Camme December 2022" * 3 [CollectionEvent](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/composite-types/CollectionEventType/) per DataCollection: 1 calendar with a dedicated communication, 1 mode (ok, there is only one mode here) and one questionnaire (or several ???) Summary of mapping with Insee concepts: | DDI | Insee | Exemple | | --------- | -------------------------- | ------- | | Group | Series of statistical operations | Camme survey| | StudyUnit | Statistical Operation | Camme survey 2022 | | DataCollection | Data collection campaign | Camme January 2022 | | CollectionEvent | Batch | Incoming units for a first collection with a specific calendar, a unique communication and a unique intrument | ### Household Survey #### Solution * [Group](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/Group/): The series of yearly household survey * 1 [StudyUnit](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/StudyUnit/) per year within the Group (e.g. Household survey 2022) * 1 [DataCollection](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/DataCollection/) per StudUnit (e.g. StudyUnit Household 2022 will contains "Data collection for January 2022" * 4 [CollectionEvent](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/composite-types/CollectionEventType/) per DataCollection: 1 for each collection period characterised by one mode and one calendar and one Summary of mapping with Insee concepts: | DDI | Insee | Exemple | | --------- | -------------------------- | ------- | | Group | Series of statiscal operations | Housing survey | | StudyUnit | Statistical Operation | Housing survey 2022 | | DataCollection | Data collection campaign | Housing survey 2022 | | CollectionEvent | Batch | First period of data collection corresponding to a | :::info **Questions:** J'imagine que ce sera difficile à comprendre pour un extérieur. D'ailleurs, je ne comprends pas tout des notions Metallica. Pour moi les questions principales sont : - Any remarks? - Pour les enquêtes infra-annuelles comme Camme, faut-il créer un studyUnit par période ? En effet si on pousse la logique en allant vers des fréquence plus grande du cycle complet de collecte, traitement et diffusion (à la semaine voire en continue), on aurait une énorme quantité de studyUnit. Aussi, ne peut-on pas choisir parfois de rester au niveau millésimé qui correspond + à un cycle de révision du design du questionnaire, de l'échantillon, des traitements, de la diffusion. ::: --- ## Pour Metallica, en français dans le texte Proposition de définition de campagne de collecte. L'idée est de se rapprocher de la définition de [DataCollection](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/DataCollection/) du standard DDI sans pour autant la reprendre telle quelle car trop technique. **Collecte de données :** Une collecte de données est l'ensemble des informations sur les activités liées à la collecte de données et au traitement requis pour contribuer à la création d'un produit de données. Elle couvre les méthodologies du processus de collecte de données, notamment l'échantillonnage, les sources de données, les modes de collecte, les évènements de collecte (ex : calendrier), les instruments de collecte et les traitements de données. Elle comprend également zéro ou un cycle de mise au point d'un questionnaire. Il est important de noter que la fréquence de réalisation de chacune des étapes peut différer selon la collecte de données. Par exemple, une enquête infra-annuelle révisera son questionnaire une fois par an (phase Design), idem pour le tirage d'un échantillon. Alors que la collecte terrain et les traitements de données seront réalisés selon la fréquence de l'enquête (chaque mois pour une enquête mensuelle...). **Campagne de collecte** La campagne de collecte correspond à la réalisation d'un cycle complet d'une collecte de données. À une opération statistique correspondra une à plusieurs campagnes de collecte. Chaque campagne de collecte pouvant contribuer à la construction d'un même produit statistique et/ou de produits statistiques différents. Ainsi, un millésime d'une enquête annuelle de recensement (EAR) correspondra à une seule campagne de collecte et une opération statistique du recensement de la population comprendra cinq campagnes de collecte. Ou encore, un millésime de la série d'opérations statistiques Esane comprendra plusieurs campagnes de collecte : une correspondant à un millésime de l'enquête sectorielle annuelle et d'autres correspondant à la capture de sources administratives. Pour des enquêtes infra-annuelles, une campagne de collecte correspondra à la plus grande fréquence de réalisation d'une activité de la collecte de données. Par exemple, si le tirage de l'échantillon ou la révision du questionnement a lieu une fois par an et que la collecte et le traitement de données est réalisé mensuellement, on retiendra un mois donné comme correspondant à une campagne de collecte, les activités réalisé à une fréquence moindre (conception du questionnaire, tirage d'échantillon) restant alors stable pour plusieurs campagnes successives. :::info Note : - la notion de cycle de mise au point du questionnement est une simplification de la notion de "[développement de la saisie des données](https://ddialliance.github.io/ddimodel-web/DDI-L-3.3/item-types/DataCaptureDevelopment/)"définie dans le standard DDI. Au maximum au nombre de un, cela permet de bien distinguer une campagne pour chaque EAR (= cycle de révision du questionnement) et une campagne pour l'enquête Logement. - j'ai tenté un topo pour bien délimiter la notion de campagne pour les infra-annuelles. - un petit doute sur "où s'arrête les traitements dans l'object collecte de données (question de cohérence avec le GSBPM)" ::: **Lot (ou évènement de collecte)** *Définition DDI* Un lot correspond aux informations sur un événement spécifique de collecte de données, y compris des détails sur les personnes impliquées dans la collecte de données, la source des données, la date et la fréquence de la collecte, le mode de collecte, l'identification de l'instrument utilisé pour la collecte, des informations sur la situation réelle dans laquelle les données ont été collectées, les actions prises pour minimiser la perte de données, et la référence à une norme de qualité ou à une déclaration concernant le traitement du processus de collecte de données pendant cet événement. *Fin de la définition DDI* Pour chaque campagne de collecte, un à plusieurs évènements de collecte pourra être associé (à décider 1 par mode, par questionnaire, types de courrier...). Ainsi, la campagne de collecte de l'enquête Logement aura 21 lots (?). --> Voir schéma avec l'exemple de l'enquête logement. **C'est bien beau mais alors on fait quoi ?** Il n'existe pas de niveau intermédiaire (entre la campagne et le lot) dans le standard DDI. Il n'y a pas non plus de récursivité possible. Aussi, il est proposé : 1. d'avoir ces deux niveaux sémantiques partagés avec Metallica 2. de laisser à Metallica le soin de grouper les lots pour des besoins de suivi par exemple (3 ou 4 groupes de lots pour Logement ?). Ces groupes référenceraient les lots. Un groupe pouvant contenir des groupes (récursivité) et un lot pouvant appartenir à plusieurs groupes. En poussant la logique, un groupe de lots peut contenir des lots de plusieurs enquêtes. Cela présente l'avantage de partager une sémantique, donc un lien RMéS avec les métadonnées et de laisser la souplesse à Metallica de disposer de groupements intermédiaires (sans sémantique particulière) dans un environnement encore mouvant.