# Processing with AI
## Partie 2: 👩‍⚖️ Ethics of AI
Nom - Prénom :
> Desrousseaux
> Clémence
Sujet :
> Améliorer les algorithmes d'application de rencontre utilisant le NLP
>[TOC]
## Cahier des charges
### Biais
Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître :
>1. Biais lié à l'origine ethnique : selon certains éléments de langage utilisés, qui peuvent être issus de langue étrangère (par exemple arabe), il peut être possible que l'algorithme ne reconnaisse pas ces termes et les ignore donc, alors qu'ils peuvent être porteur d'éléments significatifs sur la personnalité du profil étudié.
>2. Biais lié à l'âge : selon l'âge d'une personne, cette personne n'aura pas les mêmes expériences à raconter et ne s'attardera pas sur les mêmes points. Il est possible que les catégories de centres d'intérêts abordés soient différents par exemple. Or, si l'application est majoritairement utilisé par des jeunes, il ne faut pas oublier les personnes plus âgées et essayer de prendre en compte leurs centres d'intérêts et leur façon de converser, qui est sensiblement différente.
>3. Biais lié au genre : selon le genre d'une personne, les attentes et les qualités recherchées ne sont généralement pas les mêmes. Ce ne sont donc pas toujours les mêmes qualités qui sont mises en avant dans les profils et dans les conversations. A partir de là , si on ne trouve pas les mêmes catégories de "qualités", il est dur de comparer les profils entre eux. Par exemple, les hommes auront plus naturellement tendance à mettre en avant leurs études et leur travail, et les femmes, leurs qualités humaines et leurs compétences "à côté".
Nous allons donc nous assurer que notre modèle n'est pas biaisé en :
>1. Sourçant nos données depuis une base de données très diversifiées et incluant tous les genres, classes d'âges et minorités.
>2. Entraînant l'algorithme spécifiquement sur chacun de ces biais identifiés, grâce à plusieurs bases de données, afin de lui apprendre à repérer ces biais et de le rendre plus performant sur chacune de ces caractéristiques.
>3. Mettant en place certains nudges, comme par exemple des réponses par défaut, en l'absence d'éléments sur certains points du profil.
>NB. Il faut rappeler que le plus souvent, le biais d'une IA n'est pas un hasard. Il résulte, en effet, de biais existant déjà dans la société. Le biais que peut présenter un outil de screening de CV, par exemple en favorisant les CV masculins peut provenir du fait qu'il ait été entraîné sur une base de données qui provient des vraies sélections de CV par les RH d'une entreprise. Vouloir débiaiser une IA est un bon début. Mais il faut maintenant se demander pourquoi ces biais existent et si on ne peut pas résoudre le problème à la source, c'est-à -dire au niveau des mentalités.
### Overfitting
Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en :
> Vérifiant la diversité des profils proposés (âge, milieu social, origine ethnique, centres d'intérêts...) lors des matchs.
>En effet, l'IA cherche à obtenir les meilleures performances possibles à partir de la base de données accessible, mais également à partir de l'historique des "matchs" qui ont réussi. Elle risque donc d'analyser les matchs qui ont réussi et proposer des combinaisons de profil, dont la probabilité de matcher est forte. Or, on constate que ces profils sont très similaires, les matchs réussissant le plus n'étant pas ceux présentant une forte mixité et diversité. On peut alors voir une phénomène d'endogamie apparaître, et qui se consolidera par l'apprentissage de l'IA à partir de sa propre expérience. Ainsi, l'IA pourrait avoir tendance à ne proposer que des profils provenant de la même classe sociale ou ayant la même origine ethnique. Bien sûr, il faut respecter les critères de chaque personne, mais il est important d'introduire volontairement un peu de diversité dans les propositions de matchs, afin de limiter le caractère déterministe de l'algorithme.
### Usages détournés
>Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des utilisateurs peu scrupuleux ou pour des usages illégaux. Nous devons donc particulièrement faire attention à :
> 1. Les profils mensongers : certains utilisateurs peuvent être amenés à mentir sur leur âge, leur profession, leur milieu... S'il est dur de détecter ces mensonges, il faut mettre en garde les utilisateurs que les autres profils peuvent être inexactes et qu'ils ne doivent pas se fier à tout ce qui est raconté.
> 2. Les faux profils : ces profils sont créés de toute pièce et les personnes décrites n'existent pas. Il est difficile de les détecter, mais là encore, il est important de prévenir les utilisateurs. Ces faux profils peuvent être utilisés pour faire du chantage, extorquer de l'argent ou des photos dénudées, faire de la publicité, renvoyer vers des sites illégaux...
> 3. La prostitution : de plus en plus, les sites de rencontre connaissent des profils dédiés à la prostitution, ce qui n'est pas le but d'un site de rencontre. Il faut rappeler le règlement de l'application et utiliser le NLP pour les détecter et les supprimer.
>NB : Afin de détecter au mieux ces comptes, il serait intéressant d'inclure une option de signalement, afin que les comptes soient vérifiés par des humains.
### Fuite de données
> **🔓 Open source:** Nous avons décidé de rendre public et accessible à tous notre jeu de données d'entrainement, mais avant, nous avons pris les précautions suivantes :
> - il ne doit pas y avoir de données sensibles dans ce jeu de données
> - il ne donne pas accès à l'algorithme lui-même
> Par ailleurs, donner l'accès au jeu de données d'entraînement, ce n'est pas donner accès aux données des vraies utilisateurs, qui, elles, sont confidentielles. Une fuite de données serait ainsi catastrophique pour l'application. On a tous en tête la fuite de données du site de rencontres adultérines Ashley Madison. Ce genre de fuite pourrait ruiner la famille d'un grand nombre de familles (et au passage compromettre la réputation de l'application, qui se doit de protéger les données de ses utilisateurs). Par ailleurs, certaines données sensibles peuvent être révélées, comme l'adresse, le numéro de téléphone, ou encore le numéro de carte bancaire.
### Piratage
> Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que des matchs complètement incongrus soient établis entre des profils très différents, remettant donc en question la pertinence, la fiabilité et l'efficacité de l'application.
>Un autre risque serait que des utilisateurs n'obtenant pas les résultats escomptés utilisent le code pour trouver des failles et faire en sorte que leur profil remplissent exactement les critères pour matcher avec le plus de personnes possibles. Ainsi, certains pourraient utiliser le code informatique, la base de données et le traitement naturel du langage à leur avantage pour mieux comprendre la façon dont l'application traite les données et ainsi proposer un profil le plus "parfait" possible. Ils tricheraient donc pour obtenir le plus de matchs possibles, en proposant un profil optimisé à cette fin.