# Processing with AI
## Partie 2: 👩‍⚖️ Ethics of AI
Nom - Prénom :
> Dondainas Romain
>
Sujet :
> 🔬 Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning
>
## Cahier des charges
### Biais
Notre modèle peut etre biaisé si les données que nous lui fournissons ne sont pas séléctionnées avec soin.
Les possibles biais sont :
1. Les biais liés au sexe et à l'age du patient. En effet, les résultats médicaux, et donc les données, peuvent etre affectés par le sexe et/ou l'age du patient. Les femmes enceintes par exemple affichent des taux d'hormones bien particuliers, les personnes agées peuvent elles avoir certaines carences. Il faut etre sûr que de tels cas soient bien pris en compte dans la base de données pour que le modèle puisse s'adapter et les reconnaitre.
2. Les biais liés aux habitudes de vie. Une personne qui fume ou une personne en surpoids aura des résultats médicaux et des indicateurs différents d'une personne avec une bonne hygiène de vie. Dans ces cas là il faut etre certain que le modèle sache repérer et bien interpréter les données.
3. Enfin, des biais peuvent apparaitre si la personne concernée est déjà atteinte d'une maladie suceptible d'impacter les résultats, et de les faire sortir de la moyenne.
Pour résoudre ces biais nous pouvons :
1. Prendre la base de donnée la plus large et la plus compléte possible, dans le but d'avoir un pannel de patients et de résultats très large.
2. Faire en sorte d'avoir les bonnes données sur les patients, savoir par exemple si il est fumeur, si c'est un homme ou une femme, si il est en surpoids, asthmatique... Ainsi, notre modèle pourra mettre en corrélation les résultats et les caractéristiques de chaque patient et donc être plus précis.
3. En sourçant les données médicales depuis plusieurs hopitaux et sur une grande période de temps il sera possible d'éviter qu'un certains type de patient soit surpreprésenté.
### Overfitting
Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en :
Ayant recourt à la validation croisée. Nous allons créer plusieurs sous-ensembles d'apprentissage et une ensemble de validation pour pouvoir vérifier que notre modèle est bien ajusté.
### Usages détournés
Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante ou malintentionnée.
Le principal usage malintentionné est celui que pourrait en faire des entreprises pour cibler des clients potentiels et leur proposer des produits à vendre.
### Fuite de données
🔓 Open source: Nous avons décidé de rendre public et accessible à tous notre jeu de données d’entrainement, mais avant, nous avons pris les précautions suivantes :
1. Notre base de données est totalement anonyme.
2. Aucune indication n'est fournie concernant le lieu ou la date de collecte des données.
### Piratage
Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait de mettre en danger la vie des patients.