# Processing with AI
## Partie 2: 👩⚖️ Ethics of AI
Nom - Prénom :
> HOUDY Vincent
>
Sujet :
> Detect rare diseases in medical results (blood tests, MRI, radiology, etc.) using Machine Learning
>[TOC]
## Cahier des charges
### Biais
**Si notre jeu de données n'est pas conçu avec suffisamment de rigueur, les biais suivant risquent d'apparaître :**
>1. Les résultats seront basés sur ce que l'IA connaît déjà (car Machine Learning), il est donc impossible que l'IA puisse détecter une nouvelle forme de maladie.
>2. Il se pourrait que l'IA n'ait pas la "big picture" et se focalise seulement sur les éléments les plus marquants au risque de ne pas détecter les signes d'une autre maladie, plus discrète mais pourtant bien présente.
>3. Le biais numéro 2 sera d'autant plus vrai si une maladie est beaucoup plus "commune" qu'une autre. En effet, l'IA sera meilleure pour détecter par exemple un cancer car il s'agit malheureusement d'une maladie plutôt connue (donc alimente la base de Machine learning, qui est pour rappel l'apprentissage par l'exploitation de données passées) que pour détecter une maladie extrêmement rare (donc moins de données passées disponibles).
>4. Il faudra assurer une base de données inclusive et très diverse pour être certain que TOUTES les populations (homme et femmes comprises) soient représentées. Il faudra aussi veiller à ce que ces populations soient correctement représentées en nombre pour éviter toute surreprésentation ou discrimination.
>Par exemple, si le Machine learning de l'IA puise exclusivement ses données dans l'exploitation de résultats de personnes blanches, l'IA sera très orientée et transposera ces analyses à d'autres populations minoritaires. Il y a donc un risque d'un mauvais diagnostic.
**Nous allons donc nous assurer que notre modèle n'est pas biaisé en :**
>**1.** En assurant une constante mise à jour de l'IA en intégrant les données de maladies très récemment identifiées. Il faudra également prévenir le patient que l'IA est incapable de détecter une nouvelle forme maladie (en inconnue de la médecine) et que l'assistance d'un médecin est nécessaire pour confirmer la justesse du diagnostic.
>**2.** S'assurer que l'IA analyse par étapes. C'est -à-dire que lorsqu'il reçoit les éléments, il faut que celui-ci détecte dans un premier temps une maladie puis RELANCE automatiquement de nouvelles analyses afin d'être sûr qu'il n'y ait pas d'oubli. L'IA s'arrêterait qu'après 1 ou 2 tenatives n'aboutissant à aucune nouvelle détection de maladie.
>**3.** Comme dit précedemment, nous fonctionnerons par étape ce qui permettra de limiter ce genre de biais, l'IA pourra également exploiter 2 fois des mêmes signes si ces derniers peuvent être présent dans les caractéristiques de plusieurs maladies.
>Il faudra également prévenir le patient que certaines maladie, plus rare, ont plus de chance d'avoir un mauvais diagnostic.
>**4.** Afin de lutter contre la surreprésentation d'une population, il faudra veiller à ce que l'IA exploite des données incluant tout type de population et ce dans des proportions mesurées et représentative de la population mondiale. De plus ces données doivent être en GRANDE QUANTITÉ afin de lisser les résultats et qu'ils soient les plus fins possibles.
-> Je trouve que le plus important, surtout lorsqu'il s'agit de la santé de personnne, c'est d'être entièrement transparent sur les défauts de l'IA utilisée. Celui-ci devrait être utilisé comme un premier diagnostic ou comme confirmation mais ne devrait pas servir, à lui seul, comme un diagnostic 100% fiable. Il faut que les patients soient avertis et "éduqués" sur le sujet. Il ne faut pas qu'il ait une utilisation libre depuis chez eux, ou alors leur résultat devra être aussi mis en copie à leur médecin traitant au risque que ces derniers fassent eux même leur traitement/diagnostic.
### Overfitting
Nous allons nous assurer que notre modèle ne sera pas dans une situation de sur-apprentissage (overfit) en :
>
> mettant des données d'"entraînement", c'est à dire des images d'un même objet mais sous différente qualité/aspect/format. En résumé, assurer une variabilité.
>
> simplifiant au maximum notre modèle, c'est-à-dire en intégrant des données avec peu de "caractérisiques" qui seront ensuite exploitées par l'IA
>
> fixant un délai d'entraînement avant la diffusion de l'IA. En effet, il est important de limiter la durée de l'entrainînement avant que le modèle bascule vers l'overfitting.
### Usages détournés
>Nous devons nous rappeler que notre application pourrait être utilisée de façon malveillante par :
>
>Par des **entreprises** (assurances, banques) par exemples qui souhaiteraient connaître la santé de leur client afin d'ajuster au mieux leur offre voire de les exclure.
Une banque ne s'engagera jamais sur un prêt à long terme avec un client avec une maladie rare et difficilement traitable.
> Des groupes pharmaceutiques ou des entreprises spécialistes du secteur qui souhaiteraient utiliser ces données pour cibler ses efforts marketing et publicitaires.
>
>Par des **particuliers** un peu trop curieux et qui souhaiteraient connaître l'état de santé de leurs voisins, amis ou proches. Ou encore un patron qui aimerait s'assurer de l'"employabilité" d'un individu en phase de recrutement ou de licenciement.
>
>Par des **patients** qui souhaiteraient s'auto-diagnostiquer sans passer par des spécialistes/professionnels. Cela serait extrêmement dangereux.
>
>Par des **hackeurs** qui souhaiteraient de l'argent en échange de la non diffusion de ces informations sur le web. La maladie est quelque chose de très intime.
### Fuite de données
***Choisissez** la proposition qui s'applique le mieux selon vous concernant votre **jeu de données**:*
J'ai choisi le fonctionnement en **Open source** plutôt que le Closed source car bien qu'il s'agisse de données extrêmement sensibles, il est important que l'IA soit en constant apprentissage puisque le but est de détecter des maladies rares et potentiellement nouvelles. L'enjeu est si important que l'IA a besoin d'être à jour et d'avoir le plus de données possibles afin de permettre une analyse fine de chaque pathologie.
"Mais avant de le déployer, nous avons pris les précautions de..."
* le faire fonctionner en **private dataset** afin de protéger ces données extrêmement sensibles et privées.
* **protéger l'accès** à ces informations en investissant massivement dans les systèmes anti-piratage.
* d'**avertir les utilisateurs** des risques potentiels afin que ces derniers aient pleine connaissance des limites et des dangers d'utilisation.
### Piratage
> Si une personne trouvait un moyen de "tromper" notre modèle et modifier son comportement à volonté, le risque serait que…
* qu'il y ait un mauvais diagnostic posé sur la santé d'un utilisateur. Si le patient n'est pas suivi par un professionnel, il pourrait se fier intégralement à l'IA piratée et s'auto-traiter ce qui ménerait à des conséquences terribles.
* Des personnes racistes modifient le diagnostic de certaines pathologies plus courantes chez certaines ethnies.
* De récolter les informations sensibles pour les revendres ou les utiliser dans du chantage.
* Que le modèle soit utiliser hors de son contexte alors que celui-ci n'est pas transposable. Cela pourrait être dangereux.