Processing with AI
## Partie 2: đ©ââïž Ethics of AI
Nom - Prénom :
Schmitz
Emilien
Sujet :
Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning
>[TOC]
## Cahier des charges
### Biais
Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaßtre :
1. **Biai de lien de causalité entre les données** et la maladie
**Exemple** : Le programme pourrait diagnostiquer du diabÚte en relevant le taux de fer. Cette erreur pourrait provenir du fait que la plupart des diabétiques du jeu de données ont un taux de fer élevé alors que cela n'a aucun lien de causalité avec le diabÚte.
2. **Biai de discrimination des maladies**
**Exemple** : Une maladie rare non reprĂ©sentĂ©e dans le jeu de donnĂ©es pourrait ne pas ĂȘtre dĂ©tectĂ© par le programme. Il faut donc un jeu de donnĂ©es soit assez important pour couvrir le nombre maximum de maladies.
3. **Biai de discrimination des populations**
**Exemple** : Un jeu de données concentré sur une population géographique, sur un genre ou sur un ùge pourrait passer à cÎté de maladies.
**Au niveau géographique**, les maldadies sont inégalement réparties sur Terre.
**Au niveau des genres**, des maladies peuvent ĂȘtre plus prĂ©sentes chez les hommes que chez les femmes et inversement voir absente dans un genre comme pour l'endomĂ©triose (ne touchant que les femmes).
**Au niveau de l'Ăąge**, les maladies infantines et les maladies liĂ©es Ă la vieillesse pourraient ĂȘtre ignorĂ©es si le jeux de donnĂ©es et mal rĂ©parties.
Nous allons donc nous assurer que notre modÚle n'est pas biaisé en :
1. Sourçant nos données depuis des sources médicales sures tels des hopitaux, des cliniques, des professionnels de santé ou des associations médicales. En bref, provenant d'une institution médicale fiable.
2. S'assurant que nos données prennent en compte les biais de discrimination en se basant sur un jeux varié et bien réparti en termes de population géographique, d'ùge et de genre.
3. S'assurer d'avoir un jeu de données complet couvrant le nombre de maladies rares le plus vaste possible.
### Overfitting
Nous allons nous assurer que notre modĂšle ne sera pas dans une situation de sur-apprentissage (overfit) en :
Testant le modÚle sur différentes maladies pour repérer si ce dernier trouve le bon lien de causalité entre les symptomes du patients et la maladie du patient.
### Usages détournés
Nous devons nous rappeler que notre application pourrait ĂȘtre utilisĂ©e de façon malveillante :
* **Scénario 1 (moins pessimiste)** :Si un assureur mettait la main sur ce jeu de données, il pourrait les utiliser à des fins commerciales vis à vis de ses clients ou pour prospecter des nouveaux clients.
* **Scénario 2 (plus pessimiste)** : Les données ont été rendues publiques par un coeur. Ainsi de nombreuses entreprises se sont emparées des données et pourraient s'en servir commme d'un critÚre d'embauche en évitant des personnes atteintes de maladies graves voire en licenciant ces personne si elles se trouvent déjà dans l'entreprise.
### Fuite de données
**đ Closed source:** Dans un scĂ©nario catastrophe, au cours duquel l'entiĂšretĂ© de notre jeu de donnĂ©es d'entrainement serait volĂ© ou rĂ©cupĂ©rĂ© Ă partir de notre modĂšle, le risque serait que les informations mĂ©dicales des personnes du jeu de donnĂ©es soit utilisĂ©es Ă des fins commerciales, sortant d'un milieu mĂ©dical. Un vĂ©ritable sujet de sĂ©curitĂ© de donnĂ©es sensibles est soulevĂ©e et nous pourrions ĂȘtre punis pĂ©nalement pour ne pas avoir assurer la confidentialitĂ© de donnĂ©es sensibles.
En France, les catĂ©gories de donnĂ©es personnelles sensibles sont limitativement Ă©numĂ©rĂ©es par la loi Informatique et LibertĂ©s du 6 janvier 1978 (article 8). Il sâagit des donnĂ©es faisant apparaĂźtre ou concernant :
* Les origines raciales ou ethniques ;
* Les opinions politiques, les convictions religieuses ou philosophiques ;
* Lâappartenance syndicale ;
* La santé;
* La vie sexuelle.
**Le traitement de données sensibles est interdit par la loi Informatique et Libertés** (article 8), sous peine de sanctions pénales allant **jusqu'à 5 ans d'emprisonnement et 300 000 ⏠d'amende**.
### Piratage
Si une personne trouvait un moyen de "tromper" notre modÚle et modifier son comportement à volonté, le risque serait que des patients soient que le diagnostic médical soit faussé.
**Deux cas sont Ă mettre en lumiĂšre :**
1. Une personne pourrait ĂȘtre diagnostiquĂ©e d'une maladie grave qu'elle n'a pas en rĂ©alitĂ©. Des traitements lourds et inutiles pourraient ĂȘtre intentĂ©es sur un patients, pouvant entraĂźner des effets secondaires irrĂ©versibles et des maladies iatrogĂšnes.
2. Une personne rĂ©ellement atteinte par une maladie rare pourrait ne pas ĂȘtre diagnostiquĂ©e Ă temps, ce qui peut mettre sa vie en danger.