# Processing with AI
## Partie 2: 👩‍⚖️ Ethics of AI
de l'Assomption - Jean :
> Detecteur de cancer de la peau et autres en se basant sur l'analyse sanguine et l'image de la peau
>
Sujet :
> Détecter les maladies rares dans les résultats médicaux (analyses de sang, IRM, radiologie, etc.) grâce au machine learning
>[TOC]
## Cahier des charges
### Biais
Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître :
>1. Detection de cancer seulement sur des peaux banche si la base de donnée n'était constituée que d'image de cancer sur des peaux blanches par exemple
>2. Detection d'anomalie sanguine (trop de globules rouges) chez les sportifs par exemple dans le cas où leurs données n'ont pas été prises en compte dans la base de donnée. Il est normal qu'un sportif ou quelqu'un qui s'netraine en altitude n'ai pas la même quantité de globules rouges
>3. les données de santé récoltéés ne sont peut-être pas représentative de la population si elles ont été récoltées seulement à l'hôpital, en effet l'échantillon sera représentatif seulement des personnes qui ont été hospitalisé, les données des "bien portant" ne seront donc pas prises en compte
Nous allons donc nous assurer que notre modèle n'est pas biaisé en :
>1. la population entière (dont les sportifs qui vont bien)
>2. S'assurant que nos données prennent en compte les peaux de différentes teintes
>3. ...
### Overfitting
Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en :
> Vérifiant la précision de notre modèle sur notre second jeu de donnée
### Usages détournés
>Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par des "faux soigneurs" (magnetiseur etc) pour vendre des produits
### Fuite de données
*Choisissez la proposition qui s'applique le mieux selon vous:*
> Dans un scénario catastrophe, au cours duquel l'entièreté de notre jeu de données d'entrainement serait disponible au grand public, le risque serait que les données permettent d'identifier des personnes
**OU**
> Nous avons décidé de rendre public et accessible à tous notre jeu de données d'entrainement, mais avant, nous avons pris les précautions suivantes : elles sont aggrégées et anonymisées, ce qui rend l'identification impossible
### Piratage
> Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que l'algorithme detect des cancers pour tout le monde pour vendre un maximum de traitements