# Théorie des jeux
La théorie des jeux est un domaine qui est née dans les années 1920 avec le travail de Ernest Zermelo. Il s'est notamment intéressé à la résolution du jeu des échecs.
C'est un domaine mathématique qui s'intérese au concept de jeu : les joueurs (ou agents) doivent prendre des décisions (les strategies). En fonction des choix de tous, on calcule des gains (les utilites).
[TOC]
## Les jeux
### Définition d'un jeu
:::success
On définit un __jeu__ sous la forme du triplet suivant :
* un __ensemble des joueurs $P$__
* un __ensemble des stratégies $S_p$ des joueurs $p \in P$__
* un ensemble de gain par joueur $G_p$, remplacé par __l'utilité $u_p : S_p \to G_p$__
En conclusion, un jeu est tout triplet défini comme __$(P, (S_p)_{p \in P}, (U_p)_{p \in P})$__.
:::
:::warning
Attention à différencier action et stratégie. Une action est quelque chose qu'on fait à un moment donné et une stratégie qui est une fonction qui renvoie un coup en fonction d'un état donné.
:::
#### Exemples
:::info
Le jeu des echecs :
* ensemble des joueurs $P = \{Blancs, Noirs\}$
* fonction qui renvoie les coups légaux à partir d'une position
* fonction qui renvoie $\{win ; draw ; loose\}$ en fonction de la board
Le [jeu de la vie](https://www.youtube.com/watch?v=S-W0NX97DB0) peut être modélisé comme un jeu à zéro joueur.
La bourse :
* Tous les acteurs des marchés financiers
* Ensemble des actions à faire (acheter, vendre ou ne rien faire) en fonction du temps
* Somme obtenue ou due
:::
### Un exemple pratique du dilemme des prisoniers
:::success
* Pour deux personnes
* Je dénonce mon camarade ou je ne le dénonce pas
* Les utilités sont dans la matrice des Paiements
<br/>
<center>
| J1 / J2 | Se taire | Parler |
| -------- | -------- | ------- |
| Se taire | (-3;-3) | (-10;0) |
| Parler | (0 ;-10) | (-5;-5) |
</center>
:::
Ce jeux contient un __équilibre de Nash__. C'est un point fixe d'un processus où les joueurs, maximisent successicement leur gain après avoir observé celui des autres. Cela peut être considéré comme une solution mathématique, mais pas forcément si on l'entend comme la prédictions que feront effectivement les joueurs placés dans la situation décrite par le jeu - même en supposant qu'ils soient rationels.
### Formalisation
:::success
* Le nombre de joueur est $|P|$
* Si $P$ est non-ordonné, alors le jeu est __simultané__ : les joueurs jouent en même temps. Sinon le jeu est non-simultané, ou __alterné__
Exemple : le dilemme du prisonier est simultané tandis que les echecs sont alternés
* $\sigma \in S_p$ est simultané si l'on dispose de $\sigma= (\sigma_p)_{p \in P}$, on parle alors de __profil stratégique__.
$\sigma$ profil stratégique $\Leftrightarrow \sigma \in \prod_{p \in P} S_p$
* Fonction d'utilité : $u_p : \prod_{p \in P} S_p \to G_p$
NB : on peut s'en passer en posant $G = \bigcup_{p \in P}G_p$
* Calcul d'un __gain__ réalisé pour une partie :
$\forall p \in P,\;u_p(\sigma)=g_p$ où $\sigma$ est le profil stratégique.
:::
La théorie de la décision est la théorie des jeux avec un seul joueur.
#### Exemple
:::info
Dans le dilemme du prisonier on a :
$$
\begin{aligned}
S &= \prod_{p \in P} S_p \\
&= S_A \times S_B \\
&= \{Coop, Trahir\} \times \{Coop, Trahir\} \\
&= \{(Coop; Coop) ; (Coop ; Trahir) ; (Trahir ; Coop) ; (Trahir; Trahir)\}
\end{aligned}
$$
:::
### Jeux en bimatriciel
:::success
On se donne $(A;B) \in M_{n,\,k}(\Bbb R)^2$.
On définit implicitement un jeu $\mathscr P = (A;B)$ dit __bimatriciel__ par :
* $\mathscr P = (A; B)$ (simultané)
* $S_A = \{1;2;...;n\} = [[1;n]]$ "choix ligne"
$S_B = [[1;n]]$ "choix colonne"
* $\forall (i;j) \in [[1;n]]^2$
\begin{cases}
u_A(i,j) = A_{ij} = a_{ij} \\
u_B(i,j) = B_{ij} = b_{ij}
\end{cases}
Avec $G_A = G_B = \Bbb R$ muni de son ordre $\le$ usuel (comme préférence de joueur).
:::
#### Exemple : $\mathscr P = DP$ en bimatriciel
:::info
$A = \begin{pmatrix} -3 & -10 \\ 0 & -5 \end{pmatrix}$ et $B = \,^tA$$
:::
### Notion de préférence
:::success
Posons pour $p \in P$ un esemble $G_p$ de gain sur lesquel on définit $\prec_p$ la relation binaire nommée __"relation de préférence de p"__.
* $g_1 \prec_p g_2$ signifie "le joueur $p$ préfère $g_2$ à $g_1$"
On dira que $g_1 \neq g_2$ sont __indifférents__ pour $p \in P$ lorsqu'on n'a ni $g_1 \prec_p g_2$ ni $g_2 \prec_p g_1$.
:::
:::info
À priori dans le $DP$ on a $–3 \prec_A 0$ et $–10 \prec_B –5$.
:::
### Notion de rationalité
:::success
Un joueur $p \in P$ est dit __rationel__ ssi $(G_p ; \prec_p)$ est un ensemble ordonné.
:::
:::warning
NB : On ne lui demande pas d'être totalement rationel.
:::
#### Cas particulier
Si $\prec_p$ est totale linéaire on peut réaliser un plongement $(G_p; \prec_p) \to (R ; s)$
Ainsi, si tous les $p \in P$ valident cette hypothèse on peut numériser le jeu (tout gain devient un réel).
### À propos de l'information (du jeu)
:::success
On dira qu'un jeu est __complet__ si tout $p \in P$ a accès à la description du triplet $(P, (S_p)_{p \in P}, (U_p)_{p \in P}))$. On dira qu'il est __incomplet__ sinon.
:::
:::info
Par exemple, la bourse a un caractère incomplet. La plupart des "jeux " courants sont à information complète.
:::
:::success
On dira qu'un jeu est __parfait__ si tout $p \in P$ a accès à la connaissance à tout instant de la description de l'état du jeu et de ses conséquences. On dira qu'il est __imparfait__ sinon.
:::
#### Exemple
:::info
* Échecs : information parfaite (Dames, Go, etc, …)
* DP : imparfaite
* Carte : imparfaite
* PFC : imparfaite
:::
#### Vocabulaire
Win / Loose game : cas où $G_p = \{win, loose\}$ avec $loose \prec_p win$
Win / Draw / Loose game : sous couvert de rationnalité, on code $–1 : loose,\; 0 : draw,\; +1 : win$
### Théorème de Zermelo
:::success
Tout jeu à deux joueurs, alterné, à information parfaire et complète, sans aléatoire de type win / loose (à somme nulle), à nombre fini d'état et durée finie (horizon fini) est tel que l'un des joueurs possède une stratégie gagnante.
$$
\exists p \in P \; \exists \sigma_p \in S_p \; \forall {\tau_q}_{(q \neq p)} \in S_q \; u_p(\sigma_p;\tau_q) = win
$$
Analogue avec win / draw / loose :
$$
\exists p \in P \; \exists \sigma_p \in S_p \; \forall \tau_q \in S_q \; u_p(\sigma_p;\tau_q) \ge draw
$$
:::
#### Démonstration
Création de brute-force
### Jeu à somme nulle
:::success
Si $P$ est numérisable alors $P$ est dit à somme nulle signifie :
$$
\forall \sigma \in \prod_{p \in P} S_p \quad \sum u_p(\sigma) = 0
$$
:::
#### Exemple
:::info
Beaucoup de win / loose et le poker
:::
### Propriété de stratégie
:::success
Une stratégie $\sigma_p \in S_p$ d'un joueur $p \in S$ est dite __dominée__ lorsque :
$$
\forall(\sigma_{-p}) \in \prod_{q \neq p} S_q \quad \exists_{\sigma_p^´ \neq \sigma_p} \sigma_p^´ \in S_p \quad u_p(\sigma_p; \sigma_{-p}) \prec_p u_p(\sigma_p^´; \sigma_{-p})
$$
:::
Un joueur rationnel ne cherche pas à jouer une stratégie donnée.
-> prétraitement : procédure d'élimination des stratégies dominées
#### Exemple
:::info
$P = (A ; B)$
Partie incomprise. Compléter avec 20210908_113808.jpg ou suivante.
:::
### Interractions en jeu : Best Responses
:::success
Soit $p \in P$ un joueur et $\sigma_{-p}$ profil stratégique (tronqué de $\sigma_p$).
On définit :
$$
BR(\sigma_{-p}) = \{\sigma_p \in S_p \;|\; u_p(\sigma_p ; \sigma_{-p}) = max_{\ast \in S_p}(u_p(\ast; \sigma_{-p})\}
$$
:::
#### Exemple
:::info
Avec $(A;B)$ précédent, $BR(\tau_2) = {\sigma_3}$ car $u_A(\sigma_3; \tau_2) = max(0;1)$.
:::
#### Exemple bis
:::info
Considérons :
$$
C =
\begin{pmatrix}
0 & 1 & 3 \\ 4 & -1 & 2 \\ 4 & 2 & 1
\end{pmatrix}
$$
avec $\{\sigma_1, \sigma_2, \sigma_3\}$ les lignes et $\{\tau_1, \tau_2, \tau_3\}$ les colonnes. Alors :
$$
BR(\tau_1) = \{\sigma_2;\sigma_3\}
$$
:::
#### Convention
On écrit $br(\sigma_{-p})$ pour décrire l'arbitraire des éléments de $BR(\sigma_{-p})$.
### Équilibre de Nash
:::success
Un profil stratégique $\sigma = (\sigma_p)_{p \in P}$ est dit __équilibre de Nash__ lorsque :
$$
\forall p \in P \quad \sigma_p = br(\sigma_{-p})
$$
:::
#### Analogie
$$
\forall p \in P \quad \sigma_p \in BR(\sigma_{-p})
$$
#### Exemple avec le Dilemme du prisonnier
:::info
$A = \begin{pmatrix} -3 & -10 \\ 0 & -5 \end{pmatrix}$ et $B = \,^tA$. On note également $T=Trahir$ et $C=Cooperer$
On propose $(T_A;T_B)$ un équilibre de Nash.
$$
BR(T_B) = \{T_A\} \text{ et } BR(T_A) = \{T_B\}
$$
On a $(T_A; T_B) = (br(T_B);br(T_A))$ est bien un équilibre de Nash.
:::
#### Exemple avec Pierre-Feuille-Ciseaux
:::info
$$
P = \{A;B\} \text{, } S_A = S_B = \{P;F;C\}
$$
$$
A =
\begin{pmatrix}
0 & -1 & 1 \\
1 & 0 & -1 \\
-1 & 1 & 0 \\
\end{pmatrix}
\text{ et } B = -A
$$
On a bien un jeu à somme nulle et sans équilibre de Nash.
:::
## Partie 2
:::warning
stratégies pures --> stratégies mixtes
:::
À partir d'un jeu $\Gamma$ on crée un nouveau jeu $\Gamma '$ de façon suivante:
* les joueurs sont inchangés
* _nouvelles stratégies :_
Si $S_p$ ancien ensemble de strat du joueur $p$, le nouveau pour $\Gamma'$ devient :
$$
\Delta(S_p) = { \mu : \text{distrib prob sur} \ S_p }
$$
Si on a $S_p =\{ \sigma_1(p), \dots, \sigma_n(p) \}$ alors on peut assimiler le nouvel ensemble pour le nouveau jeu à:
$$
\Delta_p = \{ x \in \mathbb{R}^n \ | \ \forall k \leq n \ x_k \geq 0 \ \ \wedge \sum_{k=1}^n x_k = 1 \}
$$
:::warning
Fait pensser a un simplexe !
polygone en dimension n
[probas] -> [analyse convexe]
:::
### Interprétation
Les vecteurs de base $e_i$ de $\mathbb{R}^n$ seront les analogues de $\sigma_i(p)$. On a alors :
$$
x_i = \mathbb{P}[p \text{ plays } \sigma_i(p)]
$$
_nouvelles fonctions d'utilité :_
pour le joueur $p$ on prend comme u
nouvelle utilité les espérances associées aux gains aléatoires induits par les distributions.
Si $X_p$ est la stratégie aléa jouée par $p$ alors:
$$
v_p(x_1 \dots x_P) = \mathbb{E}[u_p(X_1 \dots X_P)] \text{ avec } P = |\mathcal{P}|
$$
Discussions : le choix de l'espérance est remis en question dans de nombreux travaux
-> cette étude sera abordée ultérieurement
### Cas deux joueurs (bimatriciels)
On a donc pour les matrices de gain $(A;B)$ de nouvelles stratégies codififées par des vecteurs $x$ et $y$ de $\mathbb{R}^n$ et $\mathbb{R}^k$ où: $n = |S_A|$ et $k=|S_B|$.
:::success
On appelle :
* __stratégies pures__ : le vecteur de base associée à stratégie du jeu d'origine
* __stratégies mixtes__ : tout vecteur $x \in \Delta_p$ non "de base"
en particulier, si $x$ désigne un stratégie mixte, il existe $i$ tel que $0 < x_i < 1$
:::
### Théorème (cas bimatriciel normal)
:::success
Si $A$ joue $x$ et $B$ joue $y$ vecteurs stratégies dans le jeu sous forme normal alors :
$$
u_A(x;y) = \ ^tx A y \text{ et } u_B(x;y) = \ ^t x B y
$$
:::
#### Jeu normal bimatriciel : Exemple de PFC
$$
A =
\begin{pmatrix}
0 & -1 & 1 \\
1 & 0 & -1 \\
-1 & 1 & 0
\end{pmatrix}
\text{ avec }
B = -A = \,^tA
$$
Si $A$ joue : $\ ^tx_1 = \begin{pmatrix}\frac{1}{2} & \frac{1}{6} & \frac{1}{3}\end{pmatrix} = \begin{pmatrix} \mathbb P(P) & \mathbb P(F) & \mathbb P(C))\end{pmatrix}$ et B joue : $\ ^ty_1 = \begin{pmatrix}\frac{1}{4} & \frac{1}{4} & \frac{1}{2}\end{pmatrix}$
#### Calcul de gain :
$$
\begin{aligned}
u_A(x_1, y_1) &= \,^tx_1 A y_1 \\
&= \frac{1}{12}
\end{aligned}
$$
Ce qui ressemble à de l'algèbre linéaire (produit scalaire)
--------------------------------------
### Introduction aux jeux sous forme normale
Principe :
stratégies pures --> stratégies mixtes
à partir d'un jeu $\Gamma$ on crée un nouveau jeu $\Gamma '$ de façon suivante :
les joueurs sont inchangés
nouvelles stratégies :
Si $S_p$ ancien ensemble de strat du joueur $p$, le nouveau pour $\Gamma'$ devient :
$$\Delta(S_p) = \{\mu : \text{distrib prob sur} \ S_p\}$$
examinons le cas fini
si on a $S_p =\{ \sigma_1(p) \dots \sigma_n(p) \}$ alors on peut assimiler le nouvel ensemble pour le nouveau jeu à :
=tex \Delta_p = { x \in \mathbb{R}^n \ | \ \forall k \leq n \ xk \geq 0 \ \ \wedge \sum{k=1}^n x_k = 1 }
Cela fait penser à un simplex !
polgone en dimension n
[probas] -> [analyse convexe]
interprétation :
les vecteurs de base $e_i$ de $\mathbb{R}^n$ seront les analogues de $\sigma_i(p)$
on a alors $x_i$ vaut $\mathbb{P}[\text{player } \ p \ \text{plays } \ \sigma_i(p)]$
nouvelles fonctions d'utilité :
pour le joueur $p$ on prend comme u
nouvelle utilité les espérances associées aux gains aléatoires induits par les distribu
Si $X_p$ est la stratégie aléa jouée par $p$ alors :
=tex v_p(x_1 \dots x_P) = \mathbb{E}[u_p(X_1 \dots X_P]
avec $P = |\mathcal{P}|$
discussions : le choix de l'espérance est remis en question dans de nombreux travaux
-> cette étude sera abordée ultérieurement
Cas deux joueurs (bimatriciels)
On a donc pour les matrices de gain $(A;B)$ de nouvelles stratégies codififées par des vecteurs $x$ et $y$ de $\mathbb{R}^n$ et $\mathbb{R}^k$ où:
$n = |S_A|$ et $k=|S_B|$
Vocabulaire :
stratégies pure : vecteur de base associée à stratégie du jeu d'origine
Stratégies mixtes : tout vecteur $x \in \Delta_p$ non "de base"
en particulier, si $x$ désigne un stratégie mixte, il existe $i$ tel que $0 < x_i < 1$
théorème (cas bimatriciel normal)
Si $A$ joue $x$ et $B$ joue $y$ vecteurs stratégies dans le jeu sous forme normal alors :
$u_A(x;y) = \ \ x^T A y$