# Processing with AI
## Partie 2: đ©ââïž Ethics of AI
Nom - Prénom : Ngamchera Germaine
Sujet : AmĂ©liorer les algorithmes des applications de rencontres se fondant sur le systĂšme de âmatchsâ et utilisant NLP
## Cahier des charges
### Biais
Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaßtre :
>1. Le ciblage physique: A partir des photos de profils, ces applications peuvent dĂ©tecter un certains nombres de caractĂ©ristiques physique. A force de matcher avec un mĂȘme type de personnes, des caractĂ©ristiques physiques pourront en dĂ©coudre. Cela veut dire que l'algorithme va en dĂ©duire un certains type de profil nous intĂ©ressant et ne va plus que nous proposer ces profils lĂ . Le Machine learning va ici en dĂ©duire ses propres rĂšgles de beautĂ© puisquâil va se fonder sur des conclusions quâil apprend de ces photos de profil. Imaginons qu'il y ai plus d'hommes blancs sur la plateforme, si l'algorithme remarque par exemple que les hommes blancs ont plus de matchs que d'autres hommes, il ne saura pas en dĂ©duire que c'est parce qu'ils sont plus nombreux .
>2. Si notre jeu de donnĂ©es est biaisĂ©e, le NLP peut se tromper dans la comprĂ©hension des mots qu'il trouvera dans les biographie et lĂ©gende. Par exemple, si on relie mal le genre et la description, certains mots pourraient ĂȘtre mal compris par l'algorithme si bien qu'il conduira Ă un mauvais match entre deux personnes.
>3. Des mots propices aux amalgames et stĂ©rĂ©otypes: Lors de sa propre description, ou au moment dâĂ©changer avec une personne, lâutilisateur peut employer des mots considĂ©rĂ©s comme vĂ©hicules dâun stĂ©rĂ©otype (les insultes Ă caractĂšre raciste, homophobique, body-shaming, etc.); pourtant cela reste de la donnĂ©e que NLP peut analyser et peut rattacher Ă des catĂ©gories existantes. Ainsi, le modĂšle peut intĂ©grer des correspondances qui nâont pas lieu dâĂȘtre et sont finalement des incomprĂ©hensions de la part du modĂšle.
Nous allons donc nous assurer que notre modÚle n'est pas biaisé en :
>1. **Sourçant nos donnĂ©es depuis un panel de donnĂ©es diversifiĂ©es et surtout, liĂ©es.** Afin dâĂ©viter que lâalgorithme intĂšgre lui-mĂȘme des rĂšgles dâattraction fondĂ©es sur le machine learning, on peut tout simplement aller plus loin que lâutilisation du machine learning. Il faudrait annuler ce principe de rĂšgle dans le fonctionnement mĂȘme systĂšme. le fonctionnement de lâalgorithme peut sâapparenter Ă un rĂ©seau neuronal artificiel : il faudrait Ă©toffer les couches de neurones du cerveau, câest-Ă -dire prodiguer plusieurs sous-couches de neurones : les donnĂ©es. Cela permettrait dâĂ©viter au systĂšme de se focaliser et de retenir un seul rĂ©seau neuronal peu diversifiĂ© (par exemple, seuls les hommes blancs considĂ©rĂ©s comme beaux). Pour Ă©tablir des correspondances, les neurones seraient connectĂ©s Ă un ensemble de neurones de la couche prĂ©cĂ©dente. Ainsi, en initialisant les connexions de maniĂšre alĂ©atoire, plus ces connexions entre les donnĂ©es sont fortes, plus il y a de chances que toutes les neurones des sous-couches du rĂ©seaux soient actifs : En consĂ©quence, la sortie du rĂ©seau alĂ©atoire comme jâaime/je nâaime pas. Les premiĂšres couches pourraient rĂ©pondre Ă a la forme du visage et Ă la couleur de peau, tandis que les couches suivantes, en utilisant ces informations parce que les couches sont liĂ©es entre elles, dĂ©tecteraient des motifs plus complexes tels que le nez, la bouche. La derniĂšre couche peut dĂ©tecter des caractĂ©ristiques prĂ©cises comme les tĂąches de rousseur, les piercings, les tatouages afin de crĂ©er un visage complet.
>2 **Et de mĂȘme, dĂ©truire certaines relations entre les donnĂ©es.**
DâaprĂšs une Ă©tude rĂ©alisĂ©e par ACL Anthology, les applications de rencontre ont tendance Ă associer certains mots sans pouvoir optimiser les rĂ©sultats , comme âhommeâ et âingĂ©nieurâ, âfemmeâ et âsecrĂ©taireâ, alors que les mots ingĂ©nieur et secrĂ©taire, en anglais engineer et secretary, nâont pas de genre, donc en Ă©tant associĂ©s Ă lâhomme ou la femme ils font l"objet dâun biais. Pour rĂ©duire les biais en NLP, il faudrait dĂ©structurer les connexions entre les mots et le genre, tout en gardant celles qui sont pertinentes (par exemple: king et homme/ queen et femme sont des donnĂ©es qui se doivent dâĂȘtre genrĂ©es).
>3.**Enfin, tout simplement il faudrait ne pas rentrer des donnĂ©es qui sont en elle-mĂȘme des biais.** Par exemple, tous les mots qui sont en eux-mĂȘme des prĂ©jugĂ©s, des insultes, racistes homophobiques, des insultes body-shaming, etc; en rĂ©duisant le modĂšle de donnĂ©e lui-mĂȘme, on peut sâassurer quâaucune de ses donnĂ©es ne sera intĂ©grĂ©e dans les biographies.
### Overfitting
Nous allons nous assurer que notre modĂšle ne sera pas dans une situation de sur-apprentissage (overfit) en vĂ©rifiant la prĂ©cision de notre modĂšle sur sur la correspondance et la comparaison entre les intĂ©rĂȘts individuels, les choix personnels de divertissement, de convictions politiques, religieuses, etc., le choix des mots et du vocabulaire et parfois la croissance du comportement (par exemple, les personnes qui sâintĂ©ressent Ă la culture japonaise peuvent montrer une apĂ©tence pour la lecture de manga).
Il est impossible de rentrer entiĂšrement toutes les donnĂ©es dans un algorithme, ce serait un travail trop consĂ©quent; les âMetadataâ peuvent reprĂ©senter un grand nombre de profils dâutilisateurs mais lâimportant est de mettre en place un jeu de donnĂ©es assez diversifiĂ© pour que lâalgorithme puisse sâentrainer de maniĂšre alĂ©atoire.
### Usages détournés
>Nous devons nous rappeler que notre application pourrait ĂȘtre utilisĂ©e de façon malveillante par:
>Profils malhonnĂȘtes : les gens mentent sur eux-mĂȘme et sâinventent une vie fictive qui ne ressemble en rien Ă la rĂ©alitĂ©. Passions, voyages, hobbies ou pire, poids, Ăąge, taille voire ethnicitĂ©, les utilisateurs peuvent se rĂ©inventer une existence voire des caractĂ©ristiques physiques dans le but de ressembler Ă la personne quâils considĂšrent idĂ©ale, et pouvoir matcher avec des personnes quâils considĂšrent nâavoir âaucune chanceâ avec dans la rĂ©alitĂ©.
Personnes mal intentionnĂ©es : si en sâinventant un passĂ© qui nâest pas le leur, certaines personnent espĂšrent sincĂšrement se rendre plus intĂ©ressant face Ă la personne dĂ©sirĂ©e, dâautres mentent avec des mauvais desseins derriĂšre la tĂȘte. Espionner des gens, tous les moyens sont utilisĂ©s pour
Matchs superficiels : les personnes ne savent pas qui elles sont rĂ©ellement ou ce quâelle dĂ©sirent chez la personne recherchĂ©e ; sâensuivent alors des discussions qui ont perdu toute authenticitĂ© ou toute sincĂ©ritĂ© car la personne sait ce dĂ©jĂ oĂč va mener la discussion. DĂ©couvrir la personne
Robots/profils fakes : le dĂ©tournement de photos, noms, donnĂ©es sur internet car aucune donnĂ©e nâest vĂ©rifiable (est ce que lâutilisateur est conforme Ă son identitĂ©) il est dĂ©sormais facile pour nâimporte quelle personne de voler des donnĂ©es numĂ©riques et les utiliser afin de se faire passer pour une personne;
Interaction anxieuse : les personnes ne savent pas exprimer ce quâelles ressentent, utiliser les bons mots pour attirer lâattention de la personne, des bonnes accroches etc. Autre problĂšme implicite : les utilisateurs ne sont peut ĂȘtre pas prĂȘts pour ce quâils veulent rĂ©elleement et se laissent guider par une application qui leur imposent plus une façon de penser que lâinverse.
### Fuite de données
>Dans un scĂ©nario catastrophe, au cours duquel lâentiĂšretĂ© de notre jeu de donnĂ©es dâentrainement serait disponible au grand public, le risque serait que ces derniĂšres soient tout simplement volĂ©es et rĂ©utilisĂ©es Ă des fins dâescrocrie.
Ce problĂšme touche ainsi aux droits fondamentaux de lâhomme, Ă savoir que celui-ci possĂšde son identitĂ© propre et que câest lĂ le fondement de sa vie privĂ©e. En obtenant des informations civiles de base (noms, prĂ©noms, Ăąge), des informations physiques (taille, poids, photos), des donnĂ©es liĂ©es Ă lâexistence de la personne (centres dâintĂ©rĂȘt), une personne mal intentionnĂ©e pourrait tout Ă fait sâapproprier lâidentitĂ© de cette personne Ă de mauvaises fins, comme cite par exemple le cours concernant les fake news ou le revenge porn.
### Piratage
>Si une personne trouvait un moyen de âtromperâ notre modĂšle et modifier son comportement Ă volontĂ©, le risque serait que cette personne puisse espionner les matchs de tous les utilisateurs, les messages entre tous les utilisateurs, forcer des matchs Ă lâinfini ou sans le consentement des utilisateurs