Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > MONTAGNON Manuela > Sujet : > "Detect rare disease in medical result (blood test, MRI, radiology, etc.) using Machine Learning." >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. a : Les faux négatifs. Il est possible que si la base de données n'est pas assez complète, que certaines mutations par exemple ne soient pas prises en compte. Ainsi, il est possible que le patient pense qu'il ne soit pas malade à tord. On peut parler de biais si les variables sont insuffisantes. >2. b : Prendre en compte les ethnies et les pathologies qui sont propres à ces dernières. Nous pouvons prendre l'exemple de la drépanocytose qui est majoritairement présente chez les populations d'origine africaines, antillaises et méditerraéennes. >Il est indispensable qu'à la suite du prélevement sanguin, la machine prenne en compte les différences d'ethnies, la couleur de peau...afin de limiter au maximum ce biais discriminatoire. > >3. c : Il est possible que le fait d'utiliser l'intelligence artificielle impacte la prise en charge des professionelles de santé. En effet, il est possible que le diagnostic soit biaisé si le praticien se limite aux résultats de la machine. Il peut perdre son lire arbitre, on parle de biais d'automatisme. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. S'assurant que nos données incluent toutes les variations des mutations. Il faut que la base de données soit basées sur un échantillon large et diversifié. Nous réaliserons également plusieurs essais cliniques pour avoir le maximum de données et lutter contre le biais des variables. >2. Afin de limiter le biais discriminatoire, nous avons besoin encore une fois d'avoir un échantillon large, diversifié, qui prend en compte le sexe des patients, les différentes caractéristiques de chaques régions géographiques, l'âge... pour lutter contre le biais discriminatoire. >3. Il peut être judicieux d'avoir plusieurs practiciens qui analysent les données afin de limiter le biais d'automatisme. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Vérifiant la précision de notre modèle grâce à la validation croisée, c'est à dire que nous allons diviser les données d'entraînements en plusieurs groupes plutôt que simplement diviser les données en deux. De plus, nous pouvons ajouter des données d'entraînements car plus le modèle à d'exemples, plus il sera universel. Nous pouvons également faire appel à des méthodes de régularisations qui permettent de réduire la complexité d'un modèle en réduisant la variance du modèle. De surcroît, nous pouvons utiliser la méthode de "l'early stopping" qui consisite à arrêter l'entrainement avant qu'il ne commence à overfitter : il faut trouver la durée optimale. ### Usages détournés >Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que certaines données soient utilisées contre les patients. Prenons l'exemple de la politique : nous pouvons imaginer qu'un candidat ai utilisé une de nos machines et que nous ayons l'ensemble des ces données médicales. Il est possible que si il y a un piratage alors toutes les informations peuvent êtres révelées et nuir à la campagne de cette personne. En effet, nous pouvons savoir que un certain candidat à une pathologie très grave, ainsi les électeurs ne voteront peut-être pas pour lui en sachant cette information. > ### Fuite de données ***Choisissez** la proposition qui s'applique le mieux selon vous concernant votre **jeu de données**:* > **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait qu'il y ai perte de données ou encore une exposition au grand public de ces mêmes données. Les conséquences sont qu'il y a une atteinte pour le patient qui peut voir son identité usurpée par exemple, ou encore cela peut être préjudiciable pour le patient si ce dernier souhaite contracter un prêt par exemple... Il y a également un préjudice pour l'entreprise car il peut y avoir une importante perte intelectuelle, mais également une atteinte directe à la réputation de l'entreprise. ### Piratage Rappelons nous que notre application pourrait être utilisée de façon malveillante par des cybersattqueurs ou d'autres personnes malveillantes dans le but de nuir à la population. Il est important de rappeler que les données de santé sont privées et doivent le rester ! La France a d'ailleurs une réglementation générale sur la protection des données (RGPD) afin de limiter ces problèmes et protéger les citoyens. >Il est possible que des personnes viennent modifier les informations ou les données enregistrées et par conséquent rendre la machine obsolète. On peut avoir par conséquent des diagnostics érronés ou au contraire ne pas détecter certaines pathologies. >