# Processing with AI ## Partie 2: đŸ‘©â€âš–ïž Ethics of AI Nom - PrĂ©nom : Ngamchera Germaine Sujet : AmĂ©liorer les algorithmes des applications de rencontres se fondant sur le systĂšme de ‘matchs’ et utilisant NLP ## Cahier des charges ### Biais Si notre jeu de donnĂ©es n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaĂźtre : >1. Le ciblage physique: A partir des photos de profils, ces applications peuvent dĂ©tecter un certains nombres de caractĂ©ristiques physique. A force de matcher avec un mĂȘme type de personnes, des caractĂ©ristiques physiques pourront en dĂ©coudre. Cela veut dire que l'algorithme va en dĂ©duire un certains type de profil nous intĂ©ressant et ne va plus que nous proposer ces profils lĂ . Le Machine learning va ici en dĂ©duire ses propres rĂšgles de beautĂ© puisqu’il va se fonder sur des conclusions qu’il apprend de ces photos de profil. Imaginons qu'il y ai plus d'hommes blancs sur la plateforme, si l'algorithme remarque par exemple que les hommes blancs ont plus de matchs que d'autres hommes, il ne saura pas en dĂ©duire que c'est parce qu'ils sont plus nombreux . >2. Si notre jeu de donnĂ©es est biaisĂ©e, le NLP peut se tromper dans la comprĂ©hension des mots qu'il trouvera dans les biographie et lĂ©gende. Par exemple, si on relie mal le genre et la description, certains mots pourraient ĂȘtre mal compris par l'algorithme si bien qu'il conduira Ă  un mauvais match entre deux personnes. >3. Des mots propices aux amalgames et stĂ©rĂ©otypes: Lors de sa propre description, ou au moment d’échanger avec une personne, l’utilisateur peut employer des mots considĂ©rĂ©s comme vĂ©hicules d’un stĂ©rĂ©otype (les insultes Ă  caractĂšre raciste, homophobique, body-shaming, etc.); pourtant cela reste de la donnĂ©e que NLP peut analyser et peut rattacher Ă  des catĂ©gories existantes. Ainsi, le modĂšle peut intĂ©grer des correspondances qui n’ont pas lieu d’ĂȘtre et sont finalement des incomprĂ©hensions de la part du modĂšle. Nous allons donc nous assurer que notre modĂšle n'est pas biaisĂ© en : >1. **Sourçant nos donnĂ©es depuis un panel de donnĂ©es diversifiĂ©es et surtout, liĂ©es.** Afin d’éviter que l’algorithme intĂšgre lui-mĂȘme des rĂšgles d’attraction fondĂ©es sur le machine learning, on peut tout simplement aller plus loin que l’utilisation du machine learning. Il faudrait annuler ce principe de rĂšgle dans le fonctionnement mĂȘme systĂšme. le fonctionnement de l’algorithme peut s’apparenter Ă  un rĂ©seau neuronal artificiel : il faudrait Ă©toffer les couches de neurones du cerveau, c’est-Ă -dire prodiguer plusieurs sous-couches de neurones : les donnĂ©es. Cela permettrait d’éviter au systĂšme de se focaliser et de retenir un seul rĂ©seau neuronal peu diversifiĂ© (par exemple, seuls les hommes blancs considĂ©rĂ©s comme beaux). Pour Ă©tablir des correspondances, les neurones seraient connectĂ©s Ă  un ensemble de neurones de la couche prĂ©cĂ©dente. Ainsi, en initialisant les connexions de maniĂšre alĂ©atoire, plus ces connexions entre les donnĂ©es sont fortes, plus il y a de chances que toutes les neurones des sous-couches du rĂ©seaux soient actifs : En consĂ©quence, la sortie du rĂ©seau alĂ©atoire comme j’aime/je n’aime pas. Les premiĂšres couches pourraient rĂ©pondre Ă a la forme du visage et Ă  la couleur de peau, tandis que les couches suivantes, en utilisant ces informations parce que les couches sont liĂ©es entre elles, dĂ©tecteraient des motifs plus complexes tels que le nez, la bouche. La derniĂšre couche peut dĂ©tecter des caractĂ©ristiques prĂ©cises comme les tĂąches de rousseur, les piercings, les tatouages afin de crĂ©er un visage complet. >2 **Et de mĂȘme, dĂ©truire certaines relations entre les donnĂ©es.** D’aprĂšs une Ă©tude rĂ©alisĂ©e par ACL Anthology, les applications de rencontre ont tendance Ă  associer certains mots sans pouvoir optimiser les rĂ©sultats , comme ‘homme’ et ‘ingĂ©nieur’, ‘femme’ et ‘secrĂ©taire’, alors que les mots ingĂ©nieur et secrĂ©taire, en anglais engineer et secretary, n’ont pas de genre, donc en Ă©tant associĂ©s Ă  l’homme ou la femme ils font l"objet d’un biais. Pour rĂ©duire les biais en NLP, il faudrait dĂ©structurer les connexions entre les mots et le genre, tout en gardant celles qui sont pertinentes (par exemple: king et homme/ queen et femme sont des donnĂ©es qui se doivent d’ĂȘtre genrĂ©es). >3.**Enfin, tout simplement il faudrait ne pas rentrer des donnĂ©es qui sont en elle-mĂȘme des biais.** Par exemple, tous les mots qui sont en eux-mĂȘme des prĂ©jugĂ©s, des insultes, racistes homophobiques, des insultes body-shaming, etc; en rĂ©duisant le modĂšle de donnĂ©e lui-mĂȘme, on peut s’assurer qu’aucune de ses donnĂ©es ne sera intĂ©grĂ©e dans les biographies. ### Overfitting Nous allons nous assurer que notre modĂšle ne sera pas dans une situation de sur-apprentissage (overfit) en vĂ©rifiant la prĂ©cision de notre modĂšle sur sur la correspondance et la comparaison entre les intĂ©rĂȘts individuels, les choix personnels de divertissement, de convictions politiques, religieuses, etc., le choix des mots et du vocabulaire et parfois la croissance du comportement (par exemple, les personnes qui s’intĂ©ressent Ă  la culture japonaise peuvent montrer une apĂ©tence pour la lecture de manga). Il est impossible de rentrer entiĂšrement toutes les donnĂ©es dans un algorithme, ce serait un travail trop consĂ©quent; les ‘Metadata’ peuvent reprĂ©senter un grand nombre de profils d’utilisateurs mais l’important est de mettre en place un jeu de donnĂ©es assez diversifiĂ© pour que l’algorithme puisse s’entrainer de maniĂšre alĂ©atoire. ### Usages dĂ©tournĂ©s >Nous devons nous rappeler que notre application pourrait ĂȘtre utilisĂ©e de façon malveillante par: >Profils malhonnĂȘtes : les gens mentent sur eux-mĂȘme et s’inventent une vie fictive qui ne ressemble en rien Ă  la rĂ©alitĂ©. Passions, voyages, hobbies ou pire, poids, Ăąge, taille voire ethnicitĂ©, les utilisateurs peuvent se rĂ©inventer une existence voire des caractĂ©ristiques physiques dans le but de ressembler Ă  la personne qu’ils considĂšrent idĂ©ale, et pouvoir matcher avec des personnes qu’ils considĂšrent n’avoir ‘aucune chance’ avec dans la rĂ©alitĂ©. Personnes mal intentionnĂ©es : si en s’inventant un passĂ© qui n’est pas le leur, certaines personnent espĂšrent sincĂšrement se rendre plus intĂ©ressant face Ă  la personne dĂ©sirĂ©e, d’autres mentent avec des mauvais desseins derriĂšre la tĂȘte. Espionner des gens, tous les moyens sont utilisĂ©s pour Matchs superficiels : les personnes ne savent pas qui elles sont rĂ©ellement ou ce qu’elle dĂ©sirent chez la personne recherchĂ©e ; s’ensuivent alors des discussions qui ont perdu toute authenticitĂ© ou toute sincĂ©ritĂ© car la personne sait ce dĂ©jĂ  oĂč va mener la discussion. DĂ©couvrir la personne Robots/profils fakes : le dĂ©tournement de photos, noms, donnĂ©es sur internet car aucune donnĂ©e n’est vĂ©rifiable (est ce que l’utilisateur est conforme Ă  son identitĂ©) il est dĂ©sormais facile pour n’importe quelle personne de voler des donnĂ©es numĂ©riques et les utiliser afin de se faire passer pour une personne; Interaction anxieuse : les personnes ne savent pas exprimer ce qu’elles ressentent, utiliser les bons mots pour attirer l’attention de la personne, des bonnes accroches etc. Autre problĂšme implicite : les utilisateurs ne sont peut ĂȘtre pas prĂȘts pour ce qu’ils veulent rĂ©elleement et se laissent guider par une application qui leur imposent plus une façon de penser que l’inverse. ### Fuite de donnĂ©es >Dans un scĂ©nario catastrophe, au cours duquel l’entiĂšretĂ© de notre jeu de donnĂ©es d’entrainement serait disponible au grand public, le risque serait que ces derniĂšres soient tout simplement volĂ©es et rĂ©utilisĂ©es Ă  des fins d’escrocrie. Ce problĂšme touche ainsi aux droits fondamentaux de l’homme, Ă  savoir que celui-ci possĂšde son identitĂ© propre et que c’est lĂ  le fondement de sa vie privĂ©e. En obtenant des informations civiles de base (noms, prĂ©noms, Ăąge), des informations physiques (taille, poids, photos), des donnĂ©es liĂ©es Ă  l’existence de la personne (centres d’intĂ©rĂȘt), une personne mal intentionnĂ©e pourrait tout Ă  fait s’approprier l’identitĂ© de cette personne Ă  de mauvaises fins, comme cite par exemple le cours concernant les fake news ou le revenge porn. ### Piratage >Si une personne trouvait un moyen de “tromper” notre modĂšle et modifier son comportement Ă  volontĂ©, le risque serait que cette personne puisse espionner les matchs de tous les utilisateurs, les messages entre tous les utilisateurs, forcer des matchs Ă  l’infini ou sans le consentement des utilisateurs