---
tags: Data, Cours, ICE
---
# [Cours] DATA (cours 3) - 21/05/2021
```
Intervenant :
Cédric Joly
Slides du cours :
https://epitafr.sharepoint.com/:b:/r/sites/GITM-2022/Documents%20partages/COURS%20-%20Data%20(M.%20Joly)/Data2.pdf?csf=1&web=1&e=QGgTYX
```
---
Y'aura des notes !
azy jprends des notes mais c à l'arrache
---
## Types d'intelligence
On peut en citer cinq, entre autres, qui sont :
* OSINT
* HUMINT
* GEOINT
* SIGINT
* MASINT
### Open Source Intelligence
Trouver des informations en se basant sur des données open source, telles que des logiciels, des bases de données, etc.
### Human Intelligence
Le fait de trouver des informations en utilisant le charisme, l'intelligence sociale, la séduction, etc.
### Geospatial Intelligence
Être capable d'analyser une photo, et d'en tirer des informations uniquement à partir de ce qu'on voit (sans compter les méta-données).
### Signal Intelligence
Il y a une différence entre le SIGINT et l'OSINT. Le SIGINT utilise des sources qui ne sont pas ouvertes. Par exemple, les services secrets qui se branchent sur des réseaux auxquels ils ne devraient légalement pas avoir accès font du SIGINT.
### Measure And Signature Intelligence
Obtenir des informations en utilisant des capteurs.
### Spécialistes OSINT
- [Bellingcat](https://bellingcat.com)
- [Intelligence101](https://intelligence101.com)
- [IntelTechniques](https://inteltechniques.com)
- [Tracelabs](https://tracelabs.org)
- [Secjuice](https://secjuice.com/tag/osint)
- BooleanStrings
- OSINTCurious
Il sera intéressant d'aller regarder quelques petites techniques.
### Cycle de renseignement

On commence par Orienter, avant de travailler et récupérer de l'information, il faut s'orienter. Cadrer et définir quelle information on souhaite obtenir. Cette phase est essentielle, elle va déterminer la réussite de la collecte de l'information (permet d'éviter de partir dans tous les sens).
La deuxième phase est celle de la recherche. On va tout d'abord chercher à identifier les sources (cf. *Buisness Information*). Quelles sources vont avoir des informations vis à vis de ce que je recherche, etc. On va définir où est ce que on va aller chercher. On commence par les sources que l'on connaît, puis on élargi.
Maintenant il faut traiter les données, les manipuler et les transformer afin d'obtenir du sens pour répondre à ce que l'on a défini dans la phase d'orientation (dataviz rpz). Il faut en extraire de l'information de valeur.
Pour finir il faut diffuser ce résultat afin que si jamais une question similaire émerge, le travail ne soit pas refait. Il faut communiquer en premier lieu les résultats au commanditaire mais s'ensuivent les sujets de conservation (faire en sorte que le travail soit retrouvable et ne se perde pas dans le temps, garder les sources fiables, etc...), *Knowledge Management*, etc...
Une fois une première boucle effectuée on retourne à la première étape et c'est donc un cycle continu.
En clair :
- **ORIENTER** : définir mon besoin et définir comment vais-je pouvoir l'assouvir
- **RECHERCHER** : identifier les sources fiables puis en extraire les données
- **EXPLOITER** : traiter les données et leur donner du sens
- **DIFFUSER** : donner les résultats disponibles aux commanditaires et assurer leur perennité dans le temps ainsi que leur communication
### Classification de l'information
Il y a différentes grilles de classification de l'information :
- **blanche / grise / noire** : à quel point cette information est sensée être accessible -> dépend de beaucoup de critères (position, poste, etc...) certaines informations ne sont pas blanches pour tout le monde
- blanche : tout le monde y a accès
- grise : on préfèrerait que vous n'y ayez pas accès mais ce n'est pas interdit (un point d'accès existe et est accessible mais il faut potentiellement ramer pour y accéder)
- noire : interdiction
- **ouverte / fermée** : à quel point il est difficile d'accéder à cette information (peu importe sa couleur), doit-on payer ? faut-il faire partie d'un cadre particulier ?
- **primaire / secondaire** : à quel point la source de l'information est son origine, est ce que le biais par lequel on obtient l'information est celui qui l'a générée ? Ex : mise en forme d'une information dans le journal municipal (source secondaire)
**éthique, déontologie, loi**
Est-ce éthique ? Est-ce que je peux ? Est-ce que j'ai le droit ?
*Cédric Sassone*
### Médias généralistes
- lemonde.fr, lesechos.fr, liberation.fr, mediapart.fr, monde-diplomatique.fr, courrierinternational.com, lepoint.fr, lefigaro.fr...
- afp.com, reuters.com, apnews.com : fournissent des dépêches (informations brutes, de la donnée, contexte léger)
- [France 24](https://france24.com)
- [Chinal Global Television Network](https://francais.cgtn.com)
- [Russia Today](https://francais.tr.com)
Il y a beaucoup d'informations dans les articles d'aujourd'hui sont remontées dans les articles et qui sont des remontées de afp, apnews ou reuters.
Les 3 derniers networks servent de résonances à une certaine vision.
### Sites institutionnels
- cia.gov/the-world-factbook
- www.defense.gouv.fr
- epita.fr, ionis-group.com
Il faut lister les site web sur lesquels tu peux avoir des informations concernant l'institution sur laquel tu souhaite faire tes recherches. Par exemple si tu veux faire des recherches sur EPITA tu commences par son site web.
### Réseaux Sociaux
Ensuite les réseaux sociaux sont également une mine d'informations.
- Linkedin
- Facebook
- Twitter
- Instagram
- Youtube
- Tiktok
- vk.com
- baidu
- Discord, Twitch, Clubhouse
Cependant la plupart des réseaux sociaux n'offrent pas d'information si on est pas logged in. Twitter étant une petite exception (on peut utiliser la fonction recherche et voir des tweets sans avoir besoin), c'est le plus ouvert ce ce soit en termes d'API ou de visibilité.
Sur ces réseaux on a l'occasion de pouvoir faire du OSINT ainsi que du HUMINT.
### Forums
De plus les forums sont aussi une source d'information :
- Reddit
- Doctissimo
- JeuxVideos.com
- QueChoisir
- ...
Snoop DDDDDDDDDDDDDDDDDDDOg dalalala, it's the one and only D-O double G
### Plateformes techniques
Pour aller récupérer de la donnée et non de l'information il existe des plateformes plus techniques :
- esearchgate.net, academia.edu : plateformes de documents de recherche
- worldwide.espacenet.com, inpi.fr/fr/base-brevets, patents.google.com : bases de données qui concernent les brevets
- lookup.icann.org, ripe.net,domaintools.com : bases de données sur les noms de domaines, adresses IPs, informations dessus
- github.com, gitlab.com : resource technique
- plateformes Open Data
### Aggrégateurs
- owler.com
- crunchbase.com
### Moteurs de recherche
Il est toujours intéressant de faires des recherches sur différents moteurs. Car les MDR sont utilisés pour chercher des sources, les identifier afin d'aller directement faire des recherches à la source :
- Google, Bing, Qwant, Baidu, Yandex
- shodan.io
- archive.org : machine à remonter le temps sur internet, super utile pour comprendre l'histoire d'un site.
- searchenginemap.com
### Google Dorks
Ce sont les opérateurs avancés de Google :
- https://ahrefs.com/blog/google-advanced-search-operators/
- [Exploit Database](exploit-db.com/google-hacking-database)
### Outils
Une fois qu'on a manipulé toutes les sources, etc... On a tout un tas d'outils pour nous aider à réguler les fluxs de données.
- [Inoreader](https://inoreader.com)
- [Diigo](https://diigo.com)
- [Talkwaker](https://talkwalker.com)
- [Google Alerts](httpd://google.com/alerts)
- https://www.lemonde.fr/robots.txt
- Feed43.com
- Update Scanner,Distill.io changetower.com, pagescreen.io,trackly.io
- IFTTT, Zapier