# Cour 7 -- Introduction a l'Intelligence Artificielle et à la Theorie des Jeux ###### tags `cour` `M1 S1` `IA` [Somaire](/8Sa-Z4QBS1ep0xPwtzigJA)\ [Precedent](/xN-48n6VT-yCosXIGuXs_A) > [time= 6 novembre 2020] [TOC] ## Apprentissage On veut avoir méthode de classification. Donc savoir a quel classe appartien un certain objet. Exemple: - diagnostique - en decine - Panne d'un systeme - Imagerie: - reconnaire une tumeur - reconnaitre un visage - reconnaitre des panneau de signalisation - client: - pub - banque - recommandation - détection de spam - sécurité: - detection d'attaque - detection de fraude - finance - prediction du marché - météo - prediction du temps On veut donc appprendre à partir d'un certain nombre d'exemple. ## Plan du cour - Introduction général du probleme de l'apprentissage (principe généraux) - Arbre de décision - perception / neurone - réseau de neurone ## classification supervisée On connait les classes à considérer. On a donc: - une popilation (objets à classer) - ensemble de classes - un language de descriptions (des élément de la population) ### Exemple: - Population:\ Des malades - emsemble de classe: - Grippe - pas Grippe - language de descriptions (Symptome): - température - pression - nez qui coule :::success $$ \begin{align} &\varphi &\text{ Population}\\ &D &\text{ ensemble de description}\\ &\phi = \{1, \cdots, c\} &\text{ ensemble de classes}\\ &X: \varphi \rightarrow D \\ &Y: \varphi \rightarrow \phi \end{align} $$ Le probleme est de trouver $D \rightarrow \varphi = \{1, \cdots, c\}$ la fonction de classement ::: ![](https://i.imgur.com/s5s7vXW.png) - on suppose qu'il existe un distribution de proba sur $\Pi$ - proba que $C \circ X$ et $Y$ soit différents est faible Soit $P$ la probaliblité définie sur $\Pi$ - $P(d)$, pour $d \in D$ la probalilité qu'un élément de $\Pi$ ait $d$ pour description c'est a dire: $P(d) = P(X^{-1}(d))$ - $P(k)$, pour $k \in \varphi$ la proba qu'un élément de $\Pi$ soit dans $k$ cad $P(k) = P(Y^{-1}(k))$ - $$ \begin{align} P(d|k) &= \text{proba qu'un élément de $k$ ait $d$ comme description}\\ &= \text{proba d'avoir $d$ comme desctiption sachant qu'on est dans $k$}\\ &= P(X^{-1}(d) | Y^{-1}(k)) \end{align} $$ - $$ \begin{align} P(k|d) &= \text{proba qu'un élément de $d$ ait $k$ comme description}\\ &= \text{proba d'avoir $k$ comme desctiption sachant qu'on est dans $d$}\\ &= P(Y^{-1}(k) | X^{-1}(d)) \end{align} $$ N.B: définie à condition que $(P(d) \leq 0)$ ### Formule de bayes $$ P(k|d) = \frac{P(d|k) P(k)}{P(d)} $$ $\Rightarrow$ Comment définir la fonction de classification C? Exemple:\ - $\Pi$: Population francaise - $\{sp, \overline{sp}\} = D$ sp: smart-phone - $\varphi = \{aisé, \overline{aisé}\}$ | Classe k | $aisé$ | $\overline{aisé}$ | orange | |:--------------- |:------:|:-----------------:|:------:| | $P(k)$ | 0.4 | 0.6 | ... | | $P(sp \vert k)$ | 0.8 | 0.45 | 1 | 1. classification majoritaire\ $\forall d$ ou attribut toujours la class t.q $P(k)$ est max. $\forall d \: C(d) \text{majoritatire}$ (ici $\overline{aisé}$). 2. regle de vraissemblance\ Si j'observer $d$, j'attribue la classe pour laquel cette observation est la plus probable. Autrement dit: $P(d|k)$ est maximale. inconvénient: classe avec peut de monde mais $P(d|k)$ est grand ~1 2. classification de Bayes maximiser $P(k|d)$\ $$ Maximiser(P(k|d)) = \frac{P(d|k) P(k)}{P(d)} $$ $$ \DeclareMathOperator*{\argmax}{arg\,max} $$ On prend $k$ tq $P(k|d)$ est maximale cad $\argmax_{k \in \varphi}(P(k|d))$ $$ \mathscr{C}_{Bayes} = \argmax_{k \in \varphi} P(d | k) P(k) $$ [](https://i.imgur.com/AKW8syq.png) $$ \begin{align} P(sp|aisé) . P(aisé) &= 0.8 \times 0.4 = \mathbf{0.32} \\ P(\overline{sp}|aisé) . P(aisé) &= 0.2 \times 0.4 = 0.08 \\ P(sp|\overline{aisé}) . P(\overline{aisé}) &= 0.45 \times 0.6 = 0.27 \\ P(\overline{sp}|\overline{aisé}) . P(\overline{aisé}) &= 0.55 \times 0.6 = \mathbf{0.33} \\ \end{align} $$ $$ C_{Bayes}(sp) = aisé\\ C_{Bayes}(\overline{sp}) = \overline{aisé}\\ $$ ## Errreur de classement Pour $d \in D$: $$ \begin{align} &E_C(d) = \text{la proba. qu'un élément de $\Pi$ de description $d$ soit val classé par $C$}\\ &E(d) = P(Y \neq C | X = d)\\ &E(E) \text{: erreur de classification de $C$}\\ &E(C) = \sum_{d\in D} E(d). P(X=d) \end{align} $$ - $C_{maj}$ (maj= classe majoritaire) $$ E(C) = \sum_{d \in D} D(Y \neq C | X = d) . P(x = d)\\ \begin{align} E(C_{maj}) &= \sum_{d \in D} P(Y \neq C_{maj} | X = d) . P(x = d)\\ &= P(Y \neq C_{maj}) \end{align} $$ Avec l'exemple $E(C_{maj}) = 0.4$ - $C_{vrais}$ (vrais= vraissamblance) $$ \begin{align} E(C_{vrais}) &= \sum_{d \in D} E_{C_{vrais}}(d) . P(x = d)\\ &= \sum_{d \in D} P(y\neq C_{vrais} | d) . P(x = d)\\ \end{align} $$ Avec l'exemple $$ \begin{align} E(C_{vrai}) &= E(sp) . P(sp) + E(\overline{sp}) . P(\overline{sp})\\ &= P(sp|\overline{aisé}) . P (\overline{aisé}) + P(\overline{sp}|aisé) . P (aisé)\\ &= 0.27 + 0.08 = 0.35 \end{align} $$ - $C_{Bayes}$ **théoreme:**\ La regle de décision de Bayes est c'elle dont l'erreur de classification est minimale $$ \begin{align} E_C(D) = \sum_{d \in D} D(Y \neq C | X = d) . P(x = d)\\ = 1 - P(Y = C | C = d)\\ \end{align} $$ Si on prend: $C = C_{Bayes}$ $E_C(D)$ est minimisé $$ E_C(D) \geq E_{C_{Bayes}}(D) $$ Si $E(C_{Bayes}) = 0$ le problème est déterminste. Proba que des éléments de la classe $\neq$ aient la même description est nulle tres rare. [suivant](/Yma_mvLcTeWOIGmD6j0CvA)