# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > Sam Alanbari > Sujet : > Improve dating apps matching algorithms using NLP >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Mauvaise compréhension du message principale de la bio qui entraine un matching "aléatoire". >2. Mise en avant de certains profile au détriment d'autres à cause du champ lexical employé ou de la grammaire (Exemple: un étudiant étranger serait discriminé). >3. Mettre certains profiles dans des catégories de manières arbitraire parce que le dataset comprend des catégories trop restrictive. >4. Un dataset qui ne présente pas les données de certains utilisateurs (par exemple: Age compris entre 18 et 54 ans uniquement). De fait, les personnes au dessus de 54 ans seraient mis de côtés. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Sourçant nos données depuis un échantillon de vrais profil et représentatif de l'ensemble des utilisateurs du service (Tout âge, tout type de description, tout types d'origine ethnique, de milieux sociaux, etc ...). >2. S'assurant que nos données prennent en compte les différents critères des profils inscrit sur notre applications. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Vérifiant la précision de notre modèle via des phases de béta avec un échantillon d'utilisateur variés et représentatif de notre service. ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des faux profils pour mettre en place des arnaques ou des fausses promotions de services.Par exemple, en 2017, de faux profils politiques étaient apparus afin de promovour des politiques aux élections présidentielles. >Des nombreux usages détournés du services initial peuvent avoir lieu comme celui-ci, il est donc nécessaire de modérer et de filtrer ces faux profils via des outils d'authenfication sécurisé comme une authenfication avec numéro de téléphone et de profil réseaux sociaux. ### Fuite de données > Nous avons décidé de rendre public et accessible à tous notre jeu de données d'entrainement, mais avant, nous avons pris les précautions suivantes : de ne donnez uniquement la document pour comprendre la logique de nos dataset. Nous avons fait attention de ne pas toutefois donnés l'architecture de nos données afin que des personnes puissent utilisez l'algorithme à son avantage ou des fins détournée. Les données des utilisateurs, en revanche, sont des données sensibles, l'âge, la description ou les affinités pourraient permettre à des marques d'user de ces données afin de cibler leurs publicités ou à des profils malveillant de comprendre leurs cible avant une tentative de phishing par exemple. ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que le système ne serait plus en mesure de reconnaitre les vrais intention utilisateur et notre système NLP ne serait plus en mesures de comprendre les intentions de nos utilisateurs.