# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Nom - Prénom : > TAROUDJIT - Laura > Sujet : > Nous sommes une entreprise qui avons développé un service de détection des maladies rares dans les résultats médicaux (analyses de sang, IRM, radiologie, etc.) en utilisant le Machine Learning. >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Un biais de sélection. Les résultats de l'Intelligence Artificielle pourraient être faussés si nous ne sommes pas assez représentatifs de l'ensemble de la population pendant l'entraînement. En effet, cela risque de se produire lorsqu'elle analysera des échantillons de personnes qu'elle ne connaît pas assez (exemple : genre, âge, etc). > >2. Un biais d'échantillonage. En effet, l'intelligence artificielle pourrait devenir incapable de détecter les personnes saines si notre machine est trop centrée sur des cas de personnes malades. > >3. Un biais géographique. Si le modèle est entraîné par les données de personnes issues d'une ethnie particulière ou d'un endroit particulier dans le monde. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. En sourçant nos données de puis une base de données fiable et grâce à des échantillons très représentatifs de la population qui comprennent des femmes, des hommes, des personnes âgées, des enfants ainsi que des personnes en bonne santé : pas seulement des personnes malades. >2. En s'assurant que nos données prennent en compte toutes les caractéristiques génétiques, les positions géographiques et autres informations nécéssaires. >3. En entraînant notre modèle de sorte à ce que nos données prennent en compte la position géographique des personnes qui sont analysées. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en : > - Vérifiant la précision de notre modèle sur des jeux de données sur le long terme. L'objectif est de l'entraîner assez sans en faire trop pour éviter un overfitting. > - Divisant nos données de manière aléatoire et en séparant les échantillons qui pourraient entrer en collision. ### Usages détournés > Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des organisations illégales à but lucratif. Afin d'éviter cet usage détourné, il faut suivre le réglement général sur la protection des données. > Cette technologie pourrait également être détournée par des individus ou un Etat à des fins eugénistes. En se basant sur le patrimoine génétique des patients, ils feraient en sorte d'éliminer les individus n'entrant pas dans un cadre de sélection prédéfini. ### Fuite de données > Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait que ce dernier en fasse un usage dangereux car des données médicales sont des données très importantes. Ces données pourraient être transformées ou bien supprimées, ce qui serait catastrophe à plusieurs niveaux. > Un modèle open-source serait beaucoup trop dangereux pour de la médecine. D'abord pour la confidentialité du secret médical mais aussi pour le respect de la vie privée des données médicales des patients. ### Piratage > Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que l'hopitâl ne s'en rende pas compte et qu'il continue à rendre des diagnostics complètement biaisés, confondus entre les patients, etc. Cela serait très dangereux pour la santé des patients et auraient des répercussions terribles.