# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > **Barbry Armand** > Sujet : > **Improve dating apps matching algorithms using NLP** > > Sur les applications de rencontre tout le monde n'est pas à la recherche de la même chose. Certaines personnes recherchent un conjoint ou souhaitent tomber amoureuses, tandis que d'autres sont simplement à la recherche d'un partenaire sexuel régulier ou d'une aventure sans lendemain. > > Toutefois - si bien evidemment chacun est libre de choisir la relation qui lui convient le mieux - la sincérité se doit d'être de mise car mentir sur ses desseins afin de parvenir à ses fins peut faire grandement souffrir la personne qui en est victime. A ce titre, cette personne aura malheureusement vécu une mauvaise expérience amoureuse, et par là-même, une mauvaise expérience dans l'usage de l'application. > > L'objectif serait à ce titre d'améliorer l'expérience utilisateurs en personnalisant davantage les suggestions de rencontres proposées grâce à l'usage du NLP. En effet cela serait possible sur 2 aspects: > - tenir compte grâce au NLP (et NLU) de la personnalité décrite en bio, des centres d'intérêts ainsi que - si indiqué - du type de relation recherché afin de personnaliser au plus compatible les suggestions de profils faites à chacun > - estimer grâce au NLP (et NLU) dans les échanges de messages entre les profils ce qui pourrait relever de mensonges éventuels réalisés par l'un(e) des protaganistes au cours de la relation afin de ne plus proposer ce type de profil aux utilisateurs(trices) qui ne sont pas à la recherche du type de relation voulu par le menteur/la menteuse en question. > Ce deuxième travail pourrait également servir à bannir les personnes au langage violent et agressif de l'application. >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivants risquent d'apparaître : >1. Des romantiques pourraient être perçus comme des menteurs et séducteurs invétérés. >2. De simples blagues ou tentatives d'humour pourraient être considérés comme un mensonge. >3. Tout le monde ne s'exprime pas de la même façon, des gens employant de façon générale un langage très soutenu peuvent à ce titre donner matière à suspicion si le machine learning n'a pas été entrainé à prendre cette différence en compte. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Sourçant nos données depuis une base suffisamment élargie afin que tous les styles de langage (soutenu, familier, grossier...) soient pris en compte et puissent être reconnus. >2. S'assurant que nos données prennent en compte la propension des utilisateurs à l'humour, que le modèle ne sanctionne pas des blagues en réalité parfaitement admises et comprises pas les utilisateurs. A ce titre nous utiliserons 2 bases de données, une d'entrainement et une de validation. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Vérifiant la précision de notre modèle sur le discernement de ce qui est de l'humour et ce qui n'en est pas. > Il est également important que le modèle ne soit pas trop catégorique à l'égard des descriptifs de bio. L'absence de compatibilité forte ou parfaite ne signifie pas l'absence de compatibilité possible. Ainsi faudra-t-il que le modèle propose tout de même des suggestions de rencontre le cas échéant. ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des personnes mal intentionnées pour accéder à des échanges purement personnels et confidentiels puisque le modèle a accès non pas seulement aux bio de chacun mais également à leurs échanges personnels. ### Fuite de données > **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait d'exposer tous les échanges de messages entre personnes, messages particulièrement personnels car ayant trait à la vie intime de chacun. Cela porterait donc une grave atteinte au droit à la confidentialité des utilisateurs. Si un mise en Open Source s'avèrait nécessaire pour le développement du modèle, elle imposerait toutefois une anonymisation des données indispensable. ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que cette dernière pourrait suggérer son profil à la personne qu'il souhaite dans un premier temps. Cela aurait un impact négatif limité puisqu'il ne serait en aucun cas assuré de lui plaire et de la séduire. > Cependant, il pourrait dans un second temps, parvenir à échapper aux radars destinés à limiter la possibilité de berner les utilisateurs(trices) par le mensonge voire même à adopter un langage violent et agressif en toute impunité à l'égard du modèle. Pour cette raison, une possibilité de dénonciation de ce genre de comportement doit être mise en place afin pallier aux insuffisances du modèle.