# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > Isabella - Simon Sujet : > 💕 Améliorer les algorithmes de "matching" des applications de rencontre grâce au TAL >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Les dialectes, patois et argots sont des formes du langage bien moins répandues que les langues stricto sensu. Puisque minoritaires, elles sont susceptibles d'être sous-représentées dans notre jeu de données. Pour cette raison, elles pourraient ne pas être reconnues correctement par l'algorithme et défavoriser certains utilisateurs, en réduisant leurs chances de "matcher". >2. Dans le même ordre d'idées, le défaut de représentation de notre jeu de données pourrait entraîner un "sur-matching" des personnes issues des mêmes milieux socio-culturelles. Effectivement, ceux qui partagent un vocabulaire spécifique, des expressions communes, etc., seront plus fréquemment "matchées" pour cette seule raison. >3. Les fautes d'orthographe, de grammaire et aures solécismes sont innombrables et difficiles à répertorier dans leur intégralité. C'est pourquoi l'algorithme sera bien plus à l'aise avec les formes justes, qu'il saura mieux reconnaître. En conséquence, les utilisateurs faisant des fautes risquent de ne pas "matcher" avec celles qui n'en font pas. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Sourçant nos données depuis de nombreuses descriptions et textes rédigés par des personnes issues de milieux socio-culturels très variés. >2. S'assurant que nos données prennent en compte un maximum de modes d'expressions, des dialectes locaux aux jargons professionnels en passant par d'autres sociolectes (langage SMS, verlan...). Ceci permettra à l'agorithme de se familiariser avec les formes minoritaires du langage et de ne pas défavoriser certains utilisateurs. >3. Faisant en sorte que l'algorithme fasse prévaloir le sens des mots (centres d'intérêts, projets...) sur la forme (orthographe...) des mots. Pour cela, il faudra veiller à ce que l'algorithme connaisse un nombre important de synonymes, d'hyponymes et de variantes othographiques. Ainsi, une personne qui aime la "gastronaumie" pourra être "matchée" avec un autre utilisateur qui aime la "gastronomie"(par exemple). ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Ajoutant des données d'entrainement car plus l'algorithme verra d'exemples, plus il sera generalisable. Et dans le cas où toutes nos données seraient déjà mobilisées, nous pourrons recourir à des techniques d'augmentation de données : par substitution lexicale, par retro-traduction ou par injection de bruit (ex: fautes de frappe). ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des prédateurs sexuels pour approcher et rencontrer les utilisateurs qu'ils désirent. Mais une utilisation malveillante pourrait aussi être le fait d'escrocs (scams, phishing...) qui se cachent derrière de faux profils pour extorquer des informations et/ou de l'argent. ### Fuite de données ***Choisissez** la proposition qui s'applique le mieux selon vous concernant votre **jeu de données**:* > **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait que les prédateurs sexuels et/ou escrocs puissent déployer leurs stratégies. Avec toutes ces données, ils auraient accès aux données personnelles des utilisateurs, en commençant par leurs coordonnées et leurs centres d'intérêt. De cette manière, les malfaiteurs sauraient précisément comment amadouer leurs victimes et personnaliser leur approche. Dans le cadre d'un scam, ils pourront par exemple proposer une arnaque promettant des gains mirobolants à un utilisateur ayant eu le malheur d'évoquer ses problèmes d'argent par message direct. ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait d'une part qu'il ne soit pas affecté aux bonnes personnes ou - du moins - aux prétendants que nous aurions souhaité lui suggérer. D'autre part, les pirates pourraient aussi modifier leur comportement (description et messsages directs) pour augmenter leurs chances d'être "matchés" avec telle ou telle personne. Ce serait particulièrement problématique si les pirates étaient des prédateurs sexuels ou des escrocs. Dans ce cas précis, ils pourraient très facilement êtrre mis en relation avec les utilisateurs qu'ils souhaitent prendre pour cibles.