# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > Charles SAUREL > Sujet : > Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Des maladies pourraient être mal identifiées, ou confondues, ce qui conduirait à des erreurs de diagnostic. >2. L'aprentissage de la machine, se faisant de manière autonome grâce à une base de données, des faux positifs pourraient conduire l'algorithme à sur-estimer la présence de certaines maladies. >3. La différence entre une maladie dite bénine, et une nécessitant une opération, est parfois très mince. L'algorithme pourrait avoir du mal à juger la gravité du problème, en sous estimant ou sur évaluant la maladie. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Pour réduire le risque d'erreur de diagnostic, si la probabilité de reconnaissance est inférieur à 95%, un avis d'un groupe de medecins sera demandé. En fonction de son analyse, le modèle sera ajusté. >2. Nous nous assurerons également que la base de données ne comporte pas d'erreur de jugement, ou de classification pour limiter le risque de faux positif. Toutes les données seront vérifiés par des médecins. >3. Pour juger de la gravité, chaque résultat devra être analysé par un médecin. Notre modèle est avant tout une aide pour détecter certains signaux. Le médecin est ensuite seul juge pour jauger la gravité. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > Nous allons vérifier créér deux jeux de données. L'apprentissage se fera donc sur la base de données A, et nous testerons avec la base de données B la précision de notre algorithme. > De toute facon, les nouveaux diagnostiques seront toujours des cas nouveaux, car les patients ne seront pas les mêmes. ### Usages détournés >Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante ou arriver dans un monde où la santé des personnes est surveillé. >Par exemple, les banques pourraient accorder des prêts uniquement après un test sur l'algorithme, ou moduler les prix des assurances. >Les données de santé sont censées être privées. On détournerait l'usage des assurances. > ### Fuite de données > **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait que des données sur des patients soient dévoilés. Pour éviter ce phénomène, toutes les données seront anonimisées. ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que le modèle fasse remonter des maladies non présentes. > On pourrait donc voir des erreurs de diagnostic, qui conduirait à des opérations, auto-médications inutiles voir dangeureuses.