# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > Attard - Noémie > Sujet : > Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. a En détectant certains symptômes, il est possible que le diagnostic s'approche de celui d'une autre maladie similaire à celle du patient, sans que cela ne soit exact. >2. b Certaines maladies sont encore très rares et peu référencées, ce qui ne permettrait pas forcément de les reconnaître. >3. c Parfois les diagnostis sont complexes et ne s'appuient pas sur des éléments habituels. Le modèle pourrait donc nous faire passer à côté d'une maladie sous prétexte que le patient n'en présente pas les symotômes "classiques", alors qu'une série d'examen plus poussée aurait sûrement permis de trouver la maladie. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Sourçant nos données depuis des établissements fiables dont les données sont vérifiées scientifiquement : centres médicaux/hôpitaux, laboratoires de recherche, bases de données scientifiques, etc. >2. S'assurant que nos données prennent en compte le maximum de maladies possibles. >3. En mettant en place un système d'auto-évaluation de la fiabilité d'un diagnostic. Le modèle devra prendre en compte le fait qu'en-dessous d'un certain niveau d'information, il est difficile voire impossible de garantir la fiabilité du diagnostic, et que celui rendu par le modèle n'est alors qu'une piste, ou une supposition. >4. En réalisant des tests poussés faisant intervenir des médecins spécialistes expérimentés. Les premiers diagnostics tests devront être vérifiés deux fois, et le modèle n'iterviendra pas directement en autonomie (il s'agit d'abord de l'accompagner de l'avis de professionnels). ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Vérifiant la précision de notre modèle sur certains patients atteints de maladies déjà clairement identifiées dans un premier temps, et ce avec des maladies de plusieurs types différents. > Vérifiant également que plusieurs malades atteints d'une même maladie mais présentant des symptômes différents puissent être diagnostiqués de la même manière. > En testant ensuite la performance du modèle sur des patients dont le diagnostic n'a pas encore été établi (soit car les médecins ne se sont pas encore penchés sur le cas, soit parce que les médecins n'ont pas su trouver de diagnostic), et enfin, en testant le modèle sur des patients non malades. ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des compagnies privées qui pourraient se vanter de vendre un service dont les hôpitaux et les médecins ne disposent pas encore. ### Fuite de données ***Choisissez** la proposition qui s'applique le mieux selon vous concernant votre **jeu de données**:* > **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait que le caractère confidentiel auquel sont soumises toutes les pratiques médicales pourrait être mis en danger. Personne ne devrait disposer de données si précises sur les patients. Le risque est que les patients se retournent contre notre modèle pour réclamer le respect de leur vie privée. Un autre risque si le modèle fuitait serait l'utilisation des données sur les patients afin de mener des études statistiques (par exemple, comprendre que les personnes avec telle ou telle habitude de consommation sont le plus sujettes à certaines maladies). Cela pourrait s'avèrer dramatique sur le long terme, car nous pourrions y voir de nombreuses logiques mercantiles. Si l'analyse des données révèle par exemple une corrélatione entre la consommation d'un produit et le développement d'une maladie, cela pourrait constituer un argument de vente pour les vendeurs qui commercialisent un produit concurrent, et cela constituerait une forme de lobby, alors même que les faits ne sont pas avérés et que l'on observe une simple corrélation et non une causalité. **OU** > **🔓 Open source:** Nous avons décidé de rendre public et accessible à tous notre jeu de données d'entrainement, mais avant, nous avons pris les précautions suivantes : … ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que la plupart des diagnostics soient tout simplement faux, ce qui aurait des conséquences dramatiques sur la santé collective. Il s'agit là de la mise en danger de millions de personnes, et donc d'un véritable drame social. > Certains groupes de personnes aux fins et aux motivations douteuses pourraient s'en servir pour intentionnellement donner de faux diagnostics à certaines personnes, dans le but d'éradiquer certaines parties de la population (exemple du racisme, homophobie ou autre, on pourrait même envisager des génocides). Les personnes ayant su "tromper" le modèle pourraient alors mal agir de manière "discrète".