# Cour 7 -- Introduction a l'Intelligence Artificielle et à la Theorie des Jeux
###### tags `cour` `M1 S1` `IA`
[Somaire](/8Sa-Z4QBS1ep0xPwtzigJA)\
[Precedent](/xN-48n6VT-yCosXIGuXs_A)
> [time= 6 novembre 2020]
[TOC]
## Apprentissage
On veut avoir méthode de classification.
Donc savoir a quel classe appartien un certain objet.
Exemple:
- diagnostique
- en decine
- Panne d'un systeme
- Imagerie:
- reconnaire une tumeur
- reconnaitre un visage
- reconnaitre des panneau de signalisation
- client:
- pub
- banque
- recommandation
- détection de spam
- sécurité:
- detection d'attaque
- detection de fraude
- finance
- prediction du marché
- météo
- prediction du temps
On veut donc appprendre à partir d'un certain nombre d'exemple.
## Plan du cour
- Introduction général du probleme de l'apprentissage (principe généraux)
- Arbre de décision
- perception / neurone
- réseau de neurone
## classification supervisée
On connait les classes à considérer.
On a donc:
- une popilation (objets à classer)
- ensemble de classes
- un language de descriptions (des élément de la population)
### Exemple:
- Population:\
Des malades
- emsemble de classe:
- Grippe
- pas Grippe
- language de descriptions (Symptome):
- température
- pression
- nez qui coule
:::success
$$
\begin{align}
&\varphi &\text{ Population}\\
&D &\text{ ensemble de description}\\
&\phi = \{1, \cdots, c\} &\text{ ensemble de classes}\\
&X: \varphi \rightarrow D \\
&Y: \varphi \rightarrow \phi
\end{align}
$$
Le probleme est de trouver $D \rightarrow \varphi = \{1, \cdots, c\}$ la fonction de classement
:::

- on suppose qu'il existe un distribution de proba sur $\Pi$
- proba que $C \circ X$ et $Y$ soit différents est faible
Soit $P$ la probaliblité définie sur $\Pi$
- $P(d)$, pour $d \in D$ la probalilité qu'un élément de $\Pi$ ait $d$ pour description c'est a dire: $P(d) = P(X^{-1}(d))$
- $P(k)$, pour $k \in \varphi$ la proba qu'un élément de $\Pi$ soit dans $k$ cad $P(k) = P(Y^{-1}(k))$
- $$
\begin{align}
P(d|k) &= \text{proba qu'un élément de $k$ ait $d$ comme description}\\
&= \text{proba d'avoir $d$ comme desctiption sachant qu'on est dans $k$}\\
&= P(X^{-1}(d) | Y^{-1}(k))
\end{align}
$$
- $$
\begin{align}
P(k|d) &= \text{proba qu'un élément de $d$ ait $k$ comme description}\\
&= \text{proba d'avoir $k$ comme desctiption sachant qu'on est dans $d$}\\
&= P(Y^{-1}(k) | X^{-1}(d))
\end{align}
$$
N.B: définie à condition que $(P(d) \leq 0)$
### Formule de bayes
$$
P(k|d) = \frac{P(d|k) P(k)}{P(d)}
$$
$\Rightarrow$ Comment définir la fonction de classification C?
Exemple:\
- $\Pi$: Population francaise
- $\{sp, \overline{sp}\} = D$ sp: smart-phone
- $\varphi = \{aisé, \overline{aisé}\}$
| Classe k | $aisé$ | $\overline{aisé}$ | orange |
|:--------------- |:------:|:-----------------:|:------:|
| $P(k)$ | 0.4 | 0.6 | ... |
| $P(sp \vert k)$ | 0.8 | 0.45 | 1 |
1. classification majoritaire\
$\forall d$ ou attribut toujours la class t.q $P(k)$ est max.
$\forall d \: C(d) \text{majoritatire}$ (ici $\overline{aisé}$).
2. regle de vraissemblance\
Si j'observer $d$, j'attribue la classe pour laquel cette observation est la plus probable.
Autrement dit: $P(d|k)$ est maximale.
inconvénient: classe avec peut de monde mais $P(d|k)$ est grand ~1
2. classification de Bayes
maximiser $P(k|d)$\
$$
Maximiser(P(k|d)) = \frac{P(d|k) P(k)}{P(d)}
$$
$$
\DeclareMathOperator*{\argmax}{arg\,max}
$$
On prend $k$ tq $P(k|d)$ est maximale cad $\argmax_{k \in \varphi}(P(k|d))$
$$
\mathscr{C}_{Bayes} = \argmax_{k \in \varphi} P(d | k) P(k)
$$
[](https://i.imgur.com/AKW8syq.png)
$$
\begin{align}
P(sp|aisé) . P(aisé) &= 0.8 \times 0.4 = \mathbf{0.32} \\
P(\overline{sp}|aisé) . P(aisé) &= 0.2 \times 0.4 = 0.08 \\
P(sp|\overline{aisé}) . P(\overline{aisé}) &= 0.45 \times 0.6 = 0.27 \\
P(\overline{sp}|\overline{aisé}) . P(\overline{aisé}) &= 0.55 \times 0.6 = \mathbf{0.33} \\
\end{align}
$$
$$
C_{Bayes}(sp) = aisé\\
C_{Bayes}(\overline{sp}) = \overline{aisé}\\
$$
## Errreur de classement
Pour $d \in D$:
$$
\begin{align}
&E_C(d) = \text{la proba. qu'un élément de $\Pi$ de description $d$ soit val classé par $C$}\\
&E(d) = P(Y \neq C | X = d)\\
&E(E) \text{: erreur de classification de $C$}\\
&E(C) = \sum_{d\in D} E(d). P(X=d)
\end{align}
$$
- $C_{maj}$ (maj= classe majoritaire)
$$
E(C) = \sum_{d \in D} D(Y \neq C | X = d) . P(x = d)\\
\begin{align}
E(C_{maj}) &= \sum_{d \in D} P(Y \neq C_{maj} | X = d) . P(x = d)\\
&= P(Y \neq C_{maj})
\end{align}
$$
Avec l'exemple $E(C_{maj}) = 0.4$
- $C_{vrais}$ (vrais= vraissamblance)
$$
\begin{align}
E(C_{vrais}) &= \sum_{d \in D} E_{C_{vrais}}(d) . P(x = d)\\
&= \sum_{d \in D} P(y\neq C_{vrais} | d) . P(x = d)\\
\end{align}
$$
Avec l'exemple
$$
\begin{align}
E(C_{vrai}) &= E(sp) . P(sp) + E(\overline{sp}) . P(\overline{sp})\\
&= P(sp|\overline{aisé}) . P (\overline{aisé}) +
P(\overline{sp}|aisé) . P (aisé)\\
&= 0.27 + 0.08 = 0.35
\end{align}
$$
- $C_{Bayes}$
**théoreme:**\
La regle de décision de Bayes est c'elle dont l'erreur de classification est minimale
$$
\begin{align}
E_C(D) = \sum_{d \in D} D(Y \neq C | X = d) . P(x = d)\\
= 1 - P(Y = C | C = d)\\
\end{align}
$$
Si on prend: $C = C_{Bayes}$
$E_C(D)$ est minimisé
$$
E_C(D) \geq E_{C_{Bayes}}(D)
$$
Si $E(C_{Bayes}) = 0$ le problème est déterminste.
Proba que des éléments de la classe $\neq$ aient la même description est nulle tres rare.
[suivant](/Yma_mvLcTeWOIGmD6j0CvA)