---
tags: Data, Cours, ICE
---
# [Cours] DATA (cours 1) - 04/05/2021
```
Intervenant :
Cédric Joly
Slides du cours :
https://epitafr.sharepoint.com/:b:/r/sites/GITM-2022/Documents%20partages/COURS%20-%20Data%20(M.%20Joly)/GITM_Data1.pdf?csf=1&web=1&e=If0oV0
Personne qui se casse le cul à prendre des notes de merde :
moa :c
```
## Planning :
- 4 mai :
- Données & Métadonnées
- Open Data
- Etude de cas
- 7 mai :
- Plateformes techniques
- TD : Introduction à Neo4j -> installer la version Desktop
- 14 mai :
- Veille & OSINT
- TD : Construire une veille avec Inoreader
- TBD : Projet cartographie
## Introduction
> 
La donnée en tant que tel ne vaut rien, c'est un contexte des éléments/ensembles de données qui font que l'on va en tirer une valeur (contrairement à une resource quelle qu'elle soit).
Ce n'est donc pas la possession de biens physiques qui fait la valeur de ces entreprises, c'est le fait d'avoir réussir à construire un écosystème qui traite les données. Leur valeur vient des données mais n'y est pas intrinsèque.
La donnée est un moteur qui créer de la valeur et créer un service qui va donner de la valeur à une entreprise.
## Qu'est ce que la donnée ?

### Data
La data n'existe que parce que elle va devenir. Elle va derrière être transformée, mais intrinsèquement elle n'est rien (si ce n'est des GB sur ton disque dur, ou le contenu d'un livre). Quand on parle de données et de data on peut penser à quelque chose qui est numérisé mais pas seulement (tout en donne), la question est comment la transformer et l'utiliser/construire.
Des données on va tirer des informations. L'idée c'est de ne pas rester au stade de l'information mais de les transformer en connaissances sur lesquelles on va pourvoir s'appuyer. On va les appliquer à la situation et les mêler avec d'autres informations. C'est de par ces connaissances et ces informations que l'on va comprendre son environnement et savoir comment s'y comporter. Le but est d'atteindre une sagesse dans cet environnement sur lequel on veut agir. Plus on a une vision claire et précise de l'environnement sur lequel on veut agir, plus on a d'informations sur ce contexte et plus on va pouvoir agit en cohérence avec cet environnement et plus on va pouvoir en tirer de la valeur.
### MétaData
Pour 1 donnée on a une multitude de métadonnées qui gravitent autour. Ce sont des environnements complexes (ça devient très vite exponentiel). Ainsi les métadonnées sont **avant tout des données** (une métadonnée à propos d'une autre donnée).
## MétaData et ses différents types
### Métadonnées descriptives
Les métadonnées descriptives vont décrire le contenu. Par exemple un livre peut avoir un titre, c'est une métadonnée qui va décrire l'objet et ce qu'il contient. Dans le cas du livre, cela va donner des informations sur le sujet qu'il traite (titre, éditeur, auteur, etc..). Elles vont permettre à l'utilisateur de s'orienter vers ce qu'il recherche.
### Métadonnées de gestion
#### Définition
Sont les métadonnées qui vont permettre d'identifier un objet grâce à, soit des IDs, soit des composants spécifiques, cependant ils ne vont pas représenter son contenu. Par exemple :
- ISBN (ID unique de livre) : métadonnée de gestion
- file name, directory, etc... : 
#### Extraire les données EXIF d’un fichier
- [Exifmeta](https://exifmeta.com/)
- ```docker run --rm --volume <chemin_absolu_de_l_image>:/image umnelevator/exiftool /image```
Par exemple les données des slides de ce cours (via exifmeta) :



### Métadonnées d'utilisation
Celles dont on entend le plus parler. Pourquoi ont-elles eu autant de succès ? Particulièrement grâce à Edward Snowden. Quand on consomme des resources en ligne, ce que l'on consomme a peut d'importance, c'est l'ensemble de ce que l'on consomme qui en étant mis bout à bout, commence à avoir du sens.
Ce sont les données qui viennent de l'usage des sites, livres, etc... C'est ça qui a énormément de valeur, la représentation de ce que vous cliquez. La valeur est sur tous les liens que l'on va pouvoir faire (votre profil). Tout ce qui va graviter autour de la donnée initiale, au fur et à mesure de son usage, énormément de données vont se rajouter autour qui vont permettre de construire un modèle à utiliser.
## Traiter les données
### Big Data [données massives]
> Where parallel computing tools are needed to handle data.
La notion de qu'est ce que c'est que massif a évoluée (par le passé, la quantité requise pour être considérée comme massive était beaucoup plus petite).
Les 5 grands V du Big Data :
- **VOLUME** : premier critère, 50GB, 1To
- Variété : image, PDF, Twitter, Instagram
- Vélocité : vitesse d'arrivée des nouvelles informations, données en temps réel à traiter en temps réel
- Valeur : pour contrer les 3 Vs précédent, il ne faut traiter que les données qui ont de la valeur -> traiter une source qui apporte de la valeur à ce que je suis en train de faire
- Véracité : utiliser des sources de données fiables -> fact checking en temps réel
### Businesse Intelligence [informatique décisionnelle]
> Ensemble de processus visant à apporter une aide à la décision à partir de données.
C'est le fait d'avoir des données et de s'appuyer sur ces données afin de prendre des décisions.
Cette matière a 4 aspects principaux :
- **Collecte** : collecter des données
- **Intégration** : scraper ce qui nous intéresse pas, enlever les éléments en trop / inutiles -> transformation des données
- **Distribution** : distribuer la data
- **Présentation** : présenter les données en leur donnant du sens -> data visualisation (il faut sortir une réprésentation d'une donnée technique qui a du sens pour un public non spécialisé)
### Master Data Management [gestion des données de référence]
> Ensemble de processus visant à assurer l'intégrité des données de référence.
>
Il faut être capable de définir la donnée de référence si la question est posée, et de donner la source de vérité.
Cela va se jouer au niveau de :
- Mes **produits**
- Mes **tiers**
- Mes **finances**
Il est nécessaire d'avoir de bonnes sources de données.
Exemple : Mars Climate Orbiter (1998-1999)
Il part pour un vol vers Mars de 18 mois. Puis à l'approche de Mars, il y a une perte de contact. Des études sont lancées et ils se sont rendus compte que l'appareil est arrivé beaucoup trop vite, il s'est désintégré dans l'atmosphère et s'est écrasé au sol. Mais pourquoi ? C'était un problème d'unités (il est donc arrivé 5 fois trop vite sur la planète).
### Data Vizualisation [visualisation des données]
> Ensemble de méthodes permettant de résumer de manière graphique des données.
Rendre les données exploitables pour des personnes qui ne sont pas le public initial. Il existe plein de graphiques, diagrammes qui sont utilisés à cet escient
Exemple : Prendre le nombre de contaminations par jour et les transformer pour faire peur aux gens.
**Editorialisation / Data Storytelling** :
- [Information is beautiful](https://informationisbeautiful.net/)
- [Storytelling with data](https://www.storytellingwithdata.com/chart-guide)
### Knowledge Management [gestion des connaissances]
> Démarche pluridisciplinaire permettant d'identifier, d'organiser, de mémoriser et de partager les connaissances d'une organisation.
Antoine Tawa goes *Brrrrrrrrr*
### Cas d'usages
Cas dans lesquels on utilise le plus les données. C'est l'industrie "4.0", industrie dans laquelle les allemands sont en pointe.

#### La ville intelligente

Capter les virus dans les points d'eau avec des capteurs que l'on va placer dans la ville dans certains points critiques.
#### Machine learning & Deep learning

### Open Data
#### [données ouvertes]
> “Open data and content can be freely used, modified, and shared by anyone for any purpose”
L'open data c'est une donnée ou un contenu que l'on peut utiliser/modifier librement avec n'importe qui (les logiciels *open-source*).
#### [ouverture des données]
> “L'open data désigne l'effort que font les institutions, notamment gouvernementales, qui partagent les données dont elles disposent. Ce partage doit être gratuit, dans des formats ouverts, et permettre la réutilisation des données.”
C'est mettre à disposition les données sous formes accessibles. Il y a une notion d'ouverture des données. Notion de droit pour encadrer ce que les gens vont en faire.
Le mouvement d'Open Data est très présent en France (utilisateurs & plateformes). Voici quelques **plateformes d'Open Data** :
- **[OpenDataSoft](https://data.opendatasoft.com/pages/home/)** : énormément de jeux de données (plus de 22 000)
- **[data.gouv](https://www.data.gouv.fr/fr/)** : permet de retrouver beaucoup plus facilement les informations ainsi que les métadonnées (à traiter différemment d'OpenDataSoft), permet d'avoir la légitimité d'un fichier .gouv
- **[OpenFoodFacts](https://fr.openfoodfacts.org/)** : métadonnées sur les produits alimentaires
- **[data.inpi](https://data.inpi.fr)** : données de l'INPI, bases de l'INSEE, titres des propriétés industrielles, historique et documents publiés d'une société
- **[OpenCorporates](https://opencorporates.com/)** : database d'entreprises, s'appuient sur tous les portails d'OpenData nationaux et condensent le tout
**Utilisateurs de l'Open Data** :
- **[CommoPrices](https://commoprices.com/fr)** : base de donnée en ligne accessible par API qui donne les prix des matières premières, ils se basent sur les données des douanes.
- **[Doctrine](https://www.doctrine.fr/)** : information juridique issue des décisions de justice des tribunaux, leur service anonymise les données et les vend
- **[Yuka](https://yuka.io/)** : application qui utilise OpenFoodFacts
### RGPD
- Data protection Officer
- Portabilité des données
- Privacy by design :
Les données doivent être pensées comme protégées dès la conception de la chose. Cela doit être réfléchi dans l'architecture des applications.
- extraterritorialité
- consentement
- droit à l'oubli
## Cas Netflix VS Prime Video
Netflix ayant été le premier grand service de streaming en ligne et client chez AWS, comment Amazon ont-ils utilisé les données à leur disposition pour créer prime video par la suite.
En observant les fluxs, ils sont capables d'avoir une vision très claire du business de Netflix. Ce qui permet de déterminer la volumétrie qu'ils vont devoir traiter.