# Processing with AI
## Partie 2: 👩⚖️ Ethics of AI
Nom - Prénom :
> Bontemps Maxime
>
Sujet :
> Monitor student attention in class using Computer Vision
>[TOC]
>
## Cahier des charges
### Biais
Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître :
>1. En fonction de sa position, l'élève pourrait paraître ne pas écouter alors qu'il prend simplement des notes sur son ordinateur par exemple. **La concentration prend plusieurs formes et NLP risque de ne pas toutes les prendre en compte.**
>2. Notre système utilise la computer vision, or les environnements que nous allons étudier évoluent au cours de la journée : par exemple **la luminosité n'est pas la même le matin et le soir** dans une salle de classe. **Les couleurs** des murs, des meubles, les habits des élèves **diffèrents chaque jour**. Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, l'IA risque de ne pas reconnaître les images.
>3. Enfin, le professeur passe aussi par différentes manières d'enseigner : le cours magistral, la projection d'une vidéo, des phases d'exercices.
>Deux élèves qui discutent lors d'une activité collective n'est pas la même chose que deux élèves qui discutent pendant que le professeur enseigne.
>
>**Tous ces critères à prendre en compte peuvent amener à des biais rendant inutilisable notre jeu de données.**
Nous allons donc nous assurer que notre modèle n'est pas biaisé en :
>1. Prenant en compte **les manières les plus larges d'être concentré en fonction des situations**, de l'activité proposé par le professeur. (avoir un échantillon large)
>2. S'assurant que **nos données prennent en compte des facteurs environnementaux :** la luminosité en classe, les différents environnements scolaires possibles pour éviter les biais afin que NLP reconnaisse toujours les élèves.
>3. En proposant **un jeu de donné avec de la diversité** (des élèves de toute origine, âge, sexe) afin de ne pas se retrouver avec un algorithme discriminant.
### Overfitting
>Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit).
>Un modèle fait de l’overfitting lorsqu’**il commence à apprendre une erreur dans un échantillon.** Il en résulte un modèle biaisé qui est impossible à généraliser.
>
> Typiquement, si l’erreur sur les données d’entraînements est beaucoup plus faible que celle sur les données de test, c’est sans doute que votre modèle a trop appris les données erronées.
Pour éviter l'overfiting, nous pouvons :
>**Utiliser la technique de validation croisée** qui consiste à séparer les données en plusieurs sous-ensembles afin de tester l'apprentissage avec des échantillons de données que l'algorithme ne connaît pas. Par exemple en "éduquant" notre modèle avec plusieurs classes et en le testant avec de nouveaux élèves.
>On cherche à **éviter que notre modèle soit trop sensible aux variations**, car un tel modèle aura de très bonnes performances sur le jeu d'entraînement, mais sera mauvais sur de nouvelles données. Pour cela, on peut légèrement modifier nos données en augmentant et diminuant la luminosité, en déformant légèrement les corps et visages d'élèves. **Le but est d'apprendre à la machine à reconnaître des images différentes de ce qu'elle connaît.**
### Usages détournés
>Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par :
>
>Les professeurs **en utilisant la détection d'attention de manière punitive.** En d'autre terme, un élève qui serait detecté comme "distrait" pourrait être sanctionné. On peut imaginer le climat de paranoïa dans lequel seraient plongés les élèves, ce qui est même une atteinte à la liberté et pourrait perturber l'apprentissage.
>
>On peut aussi imaginer **un scénario à la "Black Mirror" dans lequel le système serait utilisé pour classer les élèves**(en discriminant les élèves ayant un trouble de l'attention par exemple).
>En conclusion, il faut absolument utiliser le système de manière pédagogique sur l'ensemble de la classe afin de **ne pas dériver vers un simple système de surveillance liberticide.** Ce système doit être un outil pour le professeur afin de tester la qualité de son enseignement et non pas de "fliquer" les élèves.
### Fuite de données
> Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entraînement serait disponible au grand public, le risque serait une atteinte à l'intimité des élèves.
>L'école est un lieu d'apprentissage dans lequel **l'élève à le droit de se tromper, d'être déconcentré, de ne pas vraiment suivre le cours.** C'est l'objectif de la pédagogie d'arriver à concerner tout le monde, s'en oublier d'élèves.
>Imaginez les conséquences pour l'élève s'il apprenait que toutes ces données comportementales sont disponibles à n'importe qui sur le net.
>Tout **son entourage serait en mesure de voir ces données.** Avec là encore des sanctions des parents par exemple si ils découvrent que leur enfant est indiscipliné.
>On pourrait imaginer que **les recruteurs en plus du CV consulteraient aussi les données comportementales pour choisir l'élève le plus à l'écoute...**
>Une fois encore, un tel système n'est positif que si les données sont utilisées uniquement par le professeur afin d'améliorer ses cours.
### Piratage
> Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, il y a fort à parier qu'une modification importante des données serait remarquée par le professeur qui lui aussi est capable d'évaluer l'attention des élèves.
>Le véritable danger, qui a été parfaitement décrit dans le documentaire "The social Dillema" est **l'utilisation des données afin de modifier de manière subtile les comportements.**
>
>Supposons par exemple qu'un hacker puisse modifier les données de concentration des élèves, ce dernier est alors en mesure d'influencer directement le professeur qui adapterait ces cours aux résultats présentés par l'IA.
>A grande échelle, il serait alors possible de **"hacker" les modèles d'éducation afin de modifier à long terme le comportement des élèves.**
>Tout ceci devrait être effectué de manière subtile pour rendre réalistes les résultats de l'IA, mais **une simple modification de 1 ou 2 % des résultats pourrait entraîner un changement dans l'enseignement à l'échelle d'un pays.**
>Les conséquences pourraient être énormes.