# Processing with AI ## Partie 2: đŸ‘©â€âš–ïž Ethics of AI Nom - PrĂ©nom : > Simon Tsafack > Sujet : > Improve dating apps matching algorithms using NLP >[TOC] ## Cahier des charges ### Biais Si notre jeu de donnĂ©es n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaĂźtre : >1. Des languages non communs et non repertoriĂ© ne seront pas reconnus >2. Ces personnes se verront desavantagĂ©es en raison de leur facon de parler lors de la hierachisation >3. Nous allons donc nous assurer que notre modĂšle n'est pas biaisĂ© en : >1. Sourçant nos donnĂ©es depuis une large variĂ©tĂ© de languages et conversation >2. S'assurant que nos donnĂ©es prennent en compte l'aspect rapide des abbreviations, verlan pour ne pas penaliser >3. En s'assurant d'une proportionalitĂ© dans tous les languages enregistrĂ©s. ### Overfitting Nous allons nous assurer que notre modĂšle ne sera pas dans une situation de sur-apprentissage (overfit) en : > VĂ©rifiant la prĂ©cision de notre modĂšle en ayant une base de donnĂ©es d'entrainement assez large > Mais aussi en se servant de la technique de “cross validation” consistant Ă  diviser les donnĂ©es d’entrainement en plusieurs groupes ### Usages dĂ©tournĂ©s >Nous devons nous mettre un point d'honneur sur le fait que notre application pourrait ĂȘtre utilisĂ©e de façon malveillante par certaines categories de personnes. La prevention sur ce type de comportement pourrait sensibliser les gens. Pour detecter notamment des personnes adaptant leur description et leur façon d’écrire, qui pourraient tenter de contacter des personnes bien plus jeune. (Voir des mineurs, mĂȘme si l’application est sensĂ© ĂȘtre interdite aux moins de 18 ans) ### Fuite de donnĂ©es > **🔐 Closed source:** Dans un scĂ©nario catastrophe, au cours duquel l’entiĂšretĂ© de notre jeu de donnĂ©es d’entrainement serait volĂ© ou rĂ©cupĂ©rĂ© Ă  partir de notre modĂšle, le risque relĂšverait de la sĂ©curitĂ© de nos utilisateurs. En effet, si notre code, qui est normalement fermĂ© au public, se retrouve exposĂ©, de nombreuses failles pourraient ĂȘtre dĂ©couverte, entrainant un risque potentiel pour les utilisateurs, qui pourraient se voir subtiliser leurs donnĂ©es ou meme jusqu'a se faire pirater. Nous avons fait le choix de ne pas avoir un code open source, car notre application contiendra des donnĂ©es personelles et sensibles sur les utilisateurs. Ces donnĂ©es au vue de leur caractĂšres, ne doivent jamais fuiter, pour maintenir une certaine confiance. Enfin, le code pourrait mĂȘme ĂȘtre par la mĂȘme occasion volĂ© et utilisĂ© par des concurrents et nous affectĂ© economiquement. Cela nous priverait d'un avantage quelconque sur les innovations que notre entreprise a pu trouver. Dans l'ensemble c’est un parti pris pour Ă©viter que les donnĂ©es sensibles fuitent. ### Piratage > Si une personne trouvait un moyen de “tromper” notre modĂšle et modifier son comportement Ă  volontĂ©, le risque serait de mettre Ă  mal toute l’application et risquer de la mettre dans une situation oĂč on se questionnerait sur sa survie Ă©conomique. Car si les recommendations ne correspondent plus aux attentes des utilisateurs, ils n’utiliseront plus l’application, conduisant Ă  la faillite de l’entreprise qui la dĂ©veloppe.