Processing with AI

# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : Ngamchera Germaine Sujet : Améliorer les algorithmes des applications de rencontres se fondant sur le système de ‘matchs’ et utilisant NLP ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Le ciblage physique: A partir des photos de profils, ces applications peuvent détecter un certains nombres de caractéristiques physique. A force de matcher avec un même type de personnes, des caractéristiques physiques pourront en découdre. Cela veut dire que l'algorithme va en déduire un certains type de profil nous intéressant et ne va plus que nous proposer ces profils là. Le Machine learning va ici en déduire ses propres règles de beauté puisqu’il va se fonder sur des conclusions qu’il apprend de ces photos de profil. Imaginons qu'il y ai plus d'hommes blancs sur la plateforme, si l'algorithme remarque par exemple que les hommes blancs ont plus de matchs que d'autres hommes, il ne saura pas en déduire que c'est parce qu'ils sont plus nombreux . >2. Si notre jeu de données est biaisée, le NLP peut se tromper dans la compréhension des mots qu'il trouvera dans les biographie et légende. Par exemple, si on relie mal le genre et la description, certains mots pourraient être mal compris par l'algorithme si bien qu'il conduira à un mauvais match entre deux personnes. >3. Des mots propices aux amalgames et stéréotypes: Lors de sa propre description, ou au moment d’échanger avec une personne, l’utilisateur peut employer des mots considérés comme véhicules d’un stéréotype (les insultes à caractère raciste, homophobique, body-shaming, etc.); pourtant cela reste de la donnée que NLP peut analyser et peut rattacher à des catégories existantes. Ainsi, le modèle peut intégrer des correspondances qui n’ont pas lieu d’être et sont finalement des incompréhensions de la part du modèle. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. **Sourçant nos données depuis un panel de données diversifiées et surtout, liées.** Afin d’éviter que l’algorithme intègre lui-même des règles d’attraction fondées sur le machine learning, on peut tout simplement aller plus loin que l’utilisation du machine learning. Il faudrait annuler ce principe de règle dans le fonctionnement même système. le fonctionnement de l’algorithme peut s’apparenter à un réseau neuronal artificiel : il faudrait étoffer les couches de neurones du cerveau, c’est-à-dire prodiguer plusieurs sous-couches de neurones : les données. Cela permettrait d’éviter au système de se focaliser et de retenir un seul réseau neuronal peu diversifié (par exemple, seuls les hommes blancs considérés comme beaux). Pour établir des correspondances, les neurones seraient connectés à un ensemble de neurones de la couche précédente. Ainsi, en initialisant les connexions de manière aléatoire, plus ces connexions entre les données sont fortes, plus il y a de chances que toutes les neurones des sous-couches du réseaux soient actifs : En conséquence, la sortie du réseau aléatoire comme j’aime/je n’aime pas. Les premières couches pourraient répondre àa la forme du visage et à la couleur de peau, tandis que les couches suivantes, en utilisant ces informations parce que les couches sont liées entre elles, détecteraient des motifs plus complexes tels que le nez, la bouche. La dernière couche peut détecter des caractéristiques précises comme les tâches de rousseur, les piercings, les tatouages afin de créer un visage complet. >2 **Et de même, détruire certaines relations entre les données.** D’après une étude réalisée par ACL Anthology, les applications de rencontre ont tendance à associer certains mots sans pouvoir optimiser les résultats , comme ‘homme’ et ‘ingénieur’, ‘femme’ et ‘secrétaire’, alors que les mots ingénieur et secrétaire, en anglais engineer et secretary, n’ont pas de genre, donc en étant associés à l’homme ou la femme ils font l"objet d’un biais. Pour réduire les biais en NLP, il faudrait déstructurer les connexions entre les mots et le genre, tout en gardant celles qui sont pertinentes (par exemple: king et homme/ queen et femme sont des données qui se doivent d’être genrées). >3.**Enfin, tout simplement il faudrait ne pas rentrer des données qui sont en elle-même des biais.** Par exemple, tous les mots qui sont en eux-même des préjugés, des insultes, racistes homophobiques, des insultes body-shaming, etc; en réduisant le modèle de donnée lui-même, on peut s’assurer qu’aucune de ses données ne sera intégrée dans les biographies. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en vérifiant la précision de notre modèle sur sur la correspondance et la comparaison entre les intérêts individuels, les choix personnels de divertissement, de convictions politiques, religieuses, etc., le choix des mots et du vocabulaire et parfois la croissance du comportement (par exemple, les personnes qui s’intéressent à la culture japonaise peuvent montrer une apétence pour la lecture de manga). Il est impossible de rentrer entièrement toutes les données dans un algorithme, ce serait un travail trop conséquent; les ‘Metadata’ peuvent représenter un grand nombre de profils d’utilisateurs mais l’important est de mettre en place un jeu de données assez diversifié pour que l’algorithme puisse s’entrainer de manière aléatoire. ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par: >Profils malhonnêtes : les gens mentent sur eux-même et s’inventent une vie fictive qui ne ressemble en rien à la réalité. Passions, voyages, hobbies ou pire, poids, âge, taille voire ethnicité, les utilisateurs peuvent se réinventer une existence voire des caractéristiques physiques dans le but de ressembler à la personne qu’ils considèrent idéale, et pouvoir matcher avec des personnes qu’ils considèrent n’avoir ‘aucune chance’ avec dans la réalité. Personnes mal intentionnées : si en s’inventant un passé qui n’est pas le leur, certaines personnent espèrent sincèrement se rendre plus intéressant face à la personne désirée, d’autres mentent avec des mauvais desseins derrière la tête. Espionner des gens, tous les moyens sont utilisés pour Matchs superficiels : les personnes ne savent pas qui elles sont réellement ou ce qu’elle désirent chez la personne recherchée ; s’ensuivent alors des discussions qui ont perdu toute authenticité ou toute sincérité car la personne sait ce déjà où va mener la discussion. Découvrir la personne Robots/profils fakes : le détournement de photos, noms, données sur internet car aucune donnée n’est vérifiable (est ce que l’utilisateur est conforme à son identité) il est désormais facile pour n’importe quelle personne de voler des données numériques et les utiliser afin de se faire passer pour une personne; Interaction anxieuse : les personnes ne savent pas exprimer ce qu’elles ressentent, utiliser les bons mots pour attirer l’attention de la personne, des bonnes accroches etc. Autre problème implicite : les utilisateurs ne sont peut être pas prêts pour ce qu’ils veulent réelleement et se laissent guider par une application qui leur imposent plus une façon de penser que l’inverse. ### Fuite de données >Dans un scénario catastrophe, au cours duquel l’entièreté de notre jeu de données d’entrainement serait disponible au grand public, le risque serait que ces dernières soient tout simplement volées et réutilisées à des fins d’escrocrie. Ce problème touche ainsi aux droits fondamentaux de l’homme, à savoir que celui-ci possède son identité propre et que c’est là le fondement de sa vie privée. En obtenant des informations civiles de base (noms, prénoms, âge), des informations physiques (taille, poids, photos), des données liées à l’existence de la personne (centres d’intérêt), une personne mal intentionnée pourrait tout à fait s’approprier l’identité de cette personne à de mauvaises fins, comme cite par exemple le cours concernant les fake news ou le revenge porn. ### Piratage >Si une personne trouvait un moyen de “tromper” notre modèle et modifier son comportement à volonté, le risque serait que cette personne puisse espionner les matchs de tous les utilisateurs, les messages entre tous les utilisateurs, forcer des matchs à l’infini ou sans le consentement des utilisateurs