# Processing with AI ## Partie 2: 👩‍⚖️ Ethics of AI Adins - Nicolas : > ... > Sujet : 🔬 Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning *Using previous patients' diagnostic, train a model that would be able to predict which disease a new patient is suffering from* > ... >[TOC] ## Cahier des charges ### Biais Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître : >1. Mauvais diagnostic >2. Consécutivement, il y aurait administration de mauvais traitement et donc de suragravement de la pathologie déjà existante mais aussi d'effets secondaires ou indésirables qui n'auraient pas lieu d'être. >3. Décès du patient >4. Détection d'une maladie alors qu'il n'y en a pas ou au contraire ne pas détecter de maladie alors qu'il y en a une (cas le plus grave). C'est ce qu'on appelle les vrai-négatifs et les faux-positif respectivement. Nous allons donc nous assurer que notre modèle n'est pas biaisé en : >1. Sourçant nos données depuis un échantillon de la population avec des indices de confiance très élevé et en prenant des échantillons extrêmement grand voire quasi identique àla population sachant que nous travaillons sur des maladies graves et rares. >2. S'assurant que nos données prennent en compte les biais liés à l'âge, le sexe, l'ethnie et la localisation géographique. >3. En passant une phase test où chaque résultat obtenu par notre modèle test sera soumis à un test de robustesse en le confrontant aux analyses médicales classiques. >4. Avoir un taux de réussite de diagnostic correct extrêmement proche de 100%. ### Overfitting Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en faisant dans un premier temps un ajustement des dimensions. L'objectif est ici de de sélectionner correctement les features (les variables que l’on considère pour l’entraînement du modèle). L’idée est de retirer toutes les features qui n’apportent rien. Si deux variables sont corrélées par exemple, mieux vaut en retirer une. Si une variable a une variance trop faible, elle n’impacte pas le phénomène étudié mais peut fausser les résultats. De cette façon on simplifie au maximum nos données, on améliore les performances du modèle et on réduit au passage les risques d’overfitting. Ensuite, on fera de la cross-validation (validation croisée en français). Contrairement à la validation classique, ou l’on divise les données en deux, en cross validation on divise les données d’entraînements en plusieurs groupes. L’idée est ensuite d’entraîner le modèle sur tous les groupes sauf un. Si on a k groupes, on entraînera le modèle k fois avec à chaque fois un nouveau groupe de test. Cette technique de validation croisée est appelée k-fold. Enfin on agrandira nos données d’entraînements. En effet, plus le modèle verra d’exemples, plus il sera généralisable. A l’inverse si le modèle est entraîné avec une faible quantité de données, il aura de grandes chances d’être biaisé. Malheureusement, la plupart du temps toutes nos données disponibles sont déjà mobilisées. Pour contrer cela des techniques d’augmentation de données existent. Etant donné que nos données sont des images en radiographie, on peut créer des filtres pour modifier légèrement les couleurs. On peut pivoter les images ou étirer certains traits. Cela permet de réduire les risques d’overfitting. En plus, cette technique peut être mise en place très facilement, la plupart des outils et des librairies de machine learning proposent l’option nativement. ### Usages détournés Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des gouvernement ou des entités privées comme les entreprises ou encore des personnes malveillantes. Par exemple, l'application de recherche des contacts du covid pourrait collecter des données qui peuvent également être utilisées dans des enquêtes criminelles - un exemple de « dérive de fonction », où les données de santé ont été réaffectées au-delà de l'objectif initial. De plus amples exemples concret sont fournis dans la rubrique "Piratage". ### Fuite de données **🔐 Closed source:** Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait volé ou récupéré à partir de notre modèle, le risque serait que nous perdions notre avantage technologique comparé à nos concurrents. Notre business model étant basé sur notre capacité à effectuer des diagnostics de manière efficace et rapide si nous devenons moins compétitif nous risquerions de devenir obsolète. ### Piratage Dans un premier temps, la collecte de données étant stockée dans le cloud si un piratage venait à survenir les compagnies d'assurance ou de mutuelle pourrait se servir de ces informations pour augmenter leur prix ou même interdire complètement l'accès à leur services. Ensuite, la perte des données de nos patients engendrerait évidemment une perte de la confiance qu'il nous avait donnée dans le cas le moins grave jusqu'à des procédures et des poursuites judiciaires dans les cas les plus graves.