# Notions liées à la statistique
# Table des matières:
[toc]
:::danger
Les algorithmes d'optimisation sont généralement écrits pour minimiser une fonction. Si l'on désire maximiser une fonction, il suffira de minimiser son opposée.
:::
# Sklearn
- Bibliothèque en Python pour l'apprentissage automatique. Il fournit des outils pour les tâches d'apprentissage automatique telles que la régression, la classification, le clustering, etc. Cela aide les utilisateurs à construire et à tester facilement des modèles d'apprentissage automatique pour diverses tâches ans avoir à écrire beaucoup de code.
# Machine learning
- Apprentissage automatique : domaine de l'intelligence artificielle qui permet à une machine de s'améliorer en effectuant des tâches sans être explicitement programmée pour les faire. La machine apprend à apartir de données.
# Signification statistique
- aide à savoir si les différences observées sont importantes ou simplement le résultat du hasard.
# Test de causalité de Granger
- Utilisé pour déterminer si une variable statistique (appelée variable X) peut être utilisée pour prédire une autre variable statistique (appelée variable y) dans une série temporelle. Ce test se concentre sur les relations à long terme entre les variables.
# Variable endogène
- are influenced by other variables within the system. In other words, we expect that a change in one's state affects the other. Sometimes, these can be referred to as dependent variables in machine learning literature.
# Variable exogène
- exogenous variables are outside the system and do not have a direct influence on the variables. They are external influencers. Sometimes, these can be referred to as independent variables in machine learning literature.
# Modèle unidirectionnel et bidirectionnel
- un modèle unidirectionnel ne considère que la relation entre le passé et le futur, tandis qu'un modèle bidirectionnel considère à la fois la relation entre le passé et le futur et la relation entre le futur et le passé.
# Prévisions saturées
- Sont des prévisions qui ne peuvent pas être améliorées en utilisant des modèles statistiques plus complexes. Cela signifie que, même en utilisant des modèles plus avancés ou en ajoutant plus de données, les prévisions resteront les mêmes. Les prévisions saturées sont souvent observées dans les séries chronologiques avec peu ou pas de structure sous-jacente ou avec des fluctuation aléatoire. Les prévisions saturées sont souvent similaires à des prévisions naïves, telles que la prévision d'une valeur constante ou la moyenne des données passées.
# Distribution
Les données peuvent être distrubée différemment. La meilleur distribution est la distribution normale.
 [[1]](https://www.mathsisfun.com/data/-normal-distribution.html)
On dit qu'une distribution est normal lorsque
* la médian = la moyenne = le mode.
* Il est y a une symétrie au centre
* 50 % des valeurs sont inférieures ou supérieures à la moyenne
L'écart-type est une mesure de dispersions des nombres.

* 68% des valeurs se situent dans le 1 écart-type de la moyenne
* 95% dans le 2
* 99,7% dans le 3
Différence entre une distribution normale standard et une distribution normale :

# Degrée de liberté
Désigne le nombre de variables aléatoires qui ne peuvent être déterminées ou fixées par une équation.
Le degré de liberté, c'est le nombre de choix que l'on peut faire une fois que l'on a déjà choisi certaines choses. Par exemple, si on a choisi les jours de la semaine du lundi au samedi, le degré de liberté est de 1, car il ne reste plus qu'un seul jour possible pour compléter la semaine, qui est le dimanche. C'est comme si on avait un puzzle avec une place vide et qu'on ne pouvait mettre qu'une seule pièce à cette place. Le degré de liberté, c'est le nombre de pièces qu'on peut encore choisir pour remplir cette place.
# Variance
Mesure qui permet de tenir compte de la dispersion de toutes les valeurs d'un ensemble de données.
# L'hypothèse nulle
- hypothèse nulle peut être pensée comme une hypothèse de départ selon laquelle il n'y a pas de différence ou de relation entre les deux variables étudiées. Le but du test statistique est de vérifier si l'observation peut être rejetée ou non en faveur de l'hypothèse nulle. Si l'observation est statistiquement significative et ne peut pas être expliquée par le hasard, l'hypothèse nulle est rejetée.
-
Paramètre de la population fixé à une valeur particulière $H_0$, n'importe quelle autre hypothèse est appelé hypothése alternative ou contre-hypothèse $H_1$.

**e.g.** Prenons l'exemple de deux piles de bonbons, une pile de rouges et une pile de verts. L'hypothèse nulle serait de dire que les deux piles ont le même nombre de bonbons. Mais si on compte les bonbons et qu'on trouve que la pile rouge en a plus que la pile verte, alors on peut rejeter l'hypothèse nulle et dire qu'il y a bien une différence entre les deux piles.
# Généralisation
Capacité du modèle à pouvoir effectuer des prédictions robustes sur les nouvelles données
# Qualité d'ajustement (Model fitting)
Mesure de capacité d'un modèle d'apprentissage à se généraliser à des données similaires à celles sur lesquelles il a été formé.
Degré d'ajustement du modèle aux données observées.
# Overfitting & underfitting
* Le sur-apprentissage, trop collé aux données d'entrainement. Bonne performance sur les données d'apprentisssage et mauvaise généralisation. (haute variance mais biais faible)
* Le sous-apprentissage, les données s'adapte mal aux données d'entrainement. Mauvaise performance sur les données d'apprentissage et mauvaise généralisation. ( Faible variance mais biais élevé)
Le meilleur deal est juste avant l'augmentation du coût d'erreur dans le test set.

(https://mrmint.fr/overfitting-et-underfitting-quand-vos-algorithmes-de-machine-learning-derapent#:~:text=L'Overfitting%20(sur%2Dapprentissage,quels%20cas%20ils%20se%20manifestent.)
[[2]](https://towardsdatascience.com/understanding-the-bias-variance-tradeoff-165e6942b229)
# L'écart interquartile
Souvent appelé "IQR", est un moyen de mesurer la dispersion de la moitié centrale d'un ensemble de données. Il est calculé comme la différence entre le premier quatile 25% et ke troisitéme quartile 75% d'un senmble de données.
# Régression linéaire
C'est un modèle de la relation entre la magnitude d'une variable et celle d'une autre. E.g. lorsque X augmente, Y augmente également.
La différence entre la régression et la corrélation est que le premier quantifie la nature de la relation alors que le second mesure la force qui lie les deux variable.
:::danger
Ce type de modèle ne doit pas être utiliser pour extrapoler au-delà des pages données (Sauf pour les times series). [Pratical Statistics For Data Scientist page 161 The Dangers of Extrapolation]
:::
## Variable indépendante
Variable utilisé pour prédire la cible (Target).
Syn. Feature, predictor
## Coefficiant de regréssion
La pente de la ligne de regression
## Valeur ajustée (Fitted Values)
L'estimation de $Ŷ_i$ obtenu par la régression linéaire
Syn : les valeurs prédites.
## Résidus
La différence entre les valeurs observées et les valeurs ajustées.
Syn. Prédiction errors
## La méthode des moindres carrés (Least squares)
- C'est une méthode utilisée pour trouver la meilleure ligne qui explique les données
Principe de la méthode des moindres carrés : Elle consiste à calculer l'ordonnée à l'origine et la pente en minimisant la somme S des carrées des distances entre la valeur prédite et la valeur observée. **Cette méthode permet de trouver la meilleure droite passant pas les points**.
[www.lachimie.fr/analytique/moindre-carre](https://www.lachimie.fr/analytique/moindre-carre.php)
# Multicolinéarité
C'est un concept où plusieurs variables indépendantes sont corrélées entre-elles.
# Variable indépendante
Paramètre qui varie sans être influencé par les autres paramètres du problèmes. Généralement présenter comme x.
# Régression locale ou LOESS
Loess est une méthode utilisée pour ajuster une courbe lisse aux nuages de points. Loess calcule la courbe lisse à un point donné en ajustant un polynôme à une fenêtre de données autour de ce point. Cela nous donne deux arguments importants : la taille de la fenêtre, qui détermine le degré de régularité de l'ajustement, et le degré du polynôme (généralement 0 ou 1) [*](https://towardsdatascience.com/multi-seasonal-time-series-decomposition-using-mstl-in-python-136630e67530#:~:text=Time%20series%20decomposition%20is%20about,ARIMA%2DSEATS%20%5B3%5D.)

# Méthode STL
STL (Seasonal-Trend decomposition using LOESS) est une méthode fiable de décomposition d’une série chronologique qui est souvent employée dans les analyses économiques et environnementales. La méthode STL utilise des modèles de régression ajustés localement pour décomposer une série chronologique en composants saisonniers, de tendance et restants. [*](https://doc.arcgis.com/fr/insights/latest/analyze/stl.htm)
# Root Mean Squared error (RMSA)
- Mesure la précision globale du modèle et de comparer des modèles de régression.
# R-squared statistic ($R^2$)
- Mesure la proportion de la variation des données qui est prise en compte dans le modèle.
- Permet d'évaluer la façon dont le modèle s'adapte aux données.
# T-statistic et son image mirroir, P-Value
- Utiliser pour supporter ou rejeter l'hypothèse nulle.
- Un T-statistique élevés (un P-value proche de 0) indique qu'un prédiceur devrait être conservé dans un modèle, tandi qu'un T-statistic très faible indique qu'un prédicteur pourrait être abandonnée.
# Diagramme Quantile-Quantile (QQ plot)
- Le QQ plot est utilisé pour vérifier si une série de données suit la distribution normale.
# AIC
- Métrique qui pénalise l'ajout de termes au modèle
- On doit favoriser le modèle avec le AIC le plus faible.
- AIC, c'est comme un jeu. Imagine que tu as des jouets différents pour construire une tour, et que tu veux savoir lequel est le meilleur pour construire la tour la plus haute et la plus stable. L'AIC, c'est comme une aide qui te dit lequel des jouets est le meilleur en utilisant un score. Le jouet avec le meilleur score sera le plus approprié pour construire la tour la plus haute et la plus stable. De cette façon, l'AIC aide à choisir le meilleur modèle pour expliquer les choses.Dans l'exemple de la tour de jouets, les jouets sont les paramètres. Les différents jouets sont des modèles différents avec des caractéristiques uniques telles que la taille, la forme, le poids, etc. Chaque jouet peut être considéré comme un paramètre différent.
# BIC
- Similaire au AIC, mais avec une pénalité forte pour l'inclusion de variable suppllémentaires dans le modèle.
# Intervalle de confiance
- Intervalle d'incertitude placés autour des coefficiant de régression et de prédiction.
- Un intervalle de confiance à 95% indique que pour 19 échantillons sur 20 prélevés à partir d’une même population, ces intervalles contiendront le paramètre étudié, avec une marge d'erreur de 5%.
# One Hot Encoding
- C'est le processus pour créer des variables muettes (Dummy Variable)
# Série temporelle univariée
- Séquence de mesure de la même variable recueillis au fil du temps. Le plus souvent, les mesures sont effectuées à intervalles de temps réguliers.
# Autoregressive (AR)
- Est un modèle linaire qui se base sur les valeurs précédentes pour prédire les valeurs du présent.
- Il se base sur PACF
# ACF
- Pour qu'un ACF ait un sens, la série doit être une série faiblement stationnaire.
# Moving average (MA)
- Erreur passé (multiplié par un coefficiant)
# Résidu standardisé
- Résidus divisés par l'erreur type des résidus
# Valeur influente
- Valeur ou enregistrement dont l'abcense créée une grande différence dans une équation de régression.
# Leverage
- Le degrée d'influence qu'un seul enregistrement a sur une équation de régression
# Régression polynominal
- Ajout de termes polynominaux (carré, cubes, etc.) à une regression.
# Variable endogène et exogène
- une variable exogène n'est pas affectées par les autres variables du système alors que la variable endogène l'est. Une variable purement endogène est une variable qui est dépendante des autres variables du système.
# GESD
- Est une approche statistique simple utilisée pour détecter les valeurs abérantes dans un ensemble de données univariées qui suivent une distribution approximativement normale.
# Forêt d'isloment (Isolation Forest)
- ALgorithme de détection des analomies. Il détecte les données abérantes à l'aide de l'isolement. On prosède par découpe aléatoire, plus le nombre de découpe(s) est petit et plus il y a de chances que l'observation isoléee soit une anomalie.
# Horizon
- Combien de temps dans le futur nous voulons prédire
# Biais de prévision (Forecasting bias)
- Permet de savoir si le processus, les méthodes et les outils utilisés pour le calcul des prévisions ne sont pas excentrés ou au contraire ont tendance à générer des prévisions toujours trop optimistes (biais positif) ou toujours trop pessimistes (biais négatif).
# Biais
- C'est une démarche ou un procédé qui engendre des erreurs dans les résulats d'une étude.

[url](https://towardsdatascience.com/forecast-kpi-rmse-mae-mape-bias-cdc5703d242d)
# Coefficiant de variation (CoV: Coefficient of Variation)
- Le coefficient de variation (CV) est le rapport de l'écart-type à la moyenne. Plus la valeur du coefficient de variation est élevée, plus la dispersion autour de la moyenne est grande. Il est généralement exprimé en pourcentage.
- Permet de s'assurer que tous les séries chronologique d'un ensemble de données sont ramenées à une échelle comune.
- Plus la valeur est grande plus les prédictions sont médiocres.
- 0.49 est la valeurs de base qui sépare la série temporelle prédictive facilement de celle qui l'est difficilement.
- Il ne prend pas en considèration les saisonalités , les tendances et les valeurs négatives.
:::info
Utilisé Residual Variability(RV) pour contrer les problèmes énumérés dans la dernière ligne. [Look book Modern time series forecasting with python page 97 ]
:::
# Probabilité vs Vraisemblance (Probability vs Likelihood)
- La probabilité est utilisé quand on parle de résulatats et la vraisemblance pour les hypothèses
- Le terme "probabilité" fait référence à la possibilité que quelque chose se produise. Le terme "vraisemblance" fait référence au processus de détermination de la meilleure distribution des données compte tenu d'une situation spécifique dans les données. Lorsque vous calculez la probabilité d'un résultat donné, vous supposez que les paramètres du modèle sont fiables.
# Capacité d'un modèle
- La capacité d'un modèle est son habilité à être flexible pour s'adapter à un grand nombre de variété de fonction.
# Hyperparameters
- Ce sont les paramètres qui sont passés au modèle avant son apprentissage.
# Regularisation
- C'est les techniques utilisées pour calibrer un modèles d'apprentissage automatique afin de minimiser la fonction de perte et d'éviter un sur apprentissage ou un sous apprentissage.
# Duite de données (Data Leakage)
- Ce produit lorsqu'on entraine un algorithme de machine learning sur des information qu'on essaye de prédire.
# La méthode des moindres carrés (OLS)
- Effectuer une régression linaire au sens des moindres carrés, c'est trouvé la droite qui minimise l'écart précédent, c'est à dire la somme des carrés des différences.
# Somme des résidus au carré (RSS)
- C'est une mesure de la qualité de l'approximation du modèle par rapport aux données.
# Unit root
- Propriété statistique qui peut être observée dans certaines séries chronologiques. Cela signifie que la série peut être représentée par une suite de nombres qui changent sans fin et sans tendance, sans augmenter ou diminuer de manière significative sur une longue période. Les série chronologique avec une unit root sont souvent appelées séries non-stationnaire, ce qui signifie qu'elles ne restent pas à la même valeur à long terme.
# Méthode de descent
- Technique d'optimisation numérique utilisée pour minimiser une fonction de coût en ajustant les paramètre d'un modèle mathématique.
- La Descente de Gradient est un algorithme d’optimisation qui permet de trouver le minimum de n’importe quelle fonction convexe en convergeant progressivement vers celui-ci.
# Cost function (La fonction de coût)
- C'est une mesure utilisée pour évaluer l'écart entre les prédictions d'un modèle et les valeurs réelles des données d'entraînement. La fonction de coût, quant à elle, est une mesure globale de l'erreur de prédiction du modèle sur l'ensemble du jeu de données.
# Bagging vs Boosting
En résumé, le bagging et le boosting sont deux méthodes d'ensemble en apprentissage automatique qui permettent de combiner plusieurs modèles pour améliorer les performances de prédiction et la stabilité du modèle. La principale différence entre ces deux méthodes réside dans la façon dont les modèles sont entraînés et combinés : le bagging entraîne plusieurs modèles indépendants sur des échantillons aléatoires, tandis que le boosting entraîne plusieurs modèles de manière séquentielle en accordant plus d'importance aux exemples mal classés.
# Modèle additif
somme de termes indépendants pour modéliser la variable dépendente.
# Métrique de performance
## MAPE
- Produit des erreurs élevées pendant les périodes de faible demande, ce qui l'impacte significament.
e.g. On peut penser que les gens n'achétent pas de glaces en été, alors qu'en réalité, ils en achétent beaucoup.
=> Faire attention quand on l'utilise pour prévoir des choses pendant les périodes où il y a peu de demande.
## Biais de précision (Forecast bias)
- Le biais de prévision (forecast bias en anglais) est une mesure de l'exactitude d'un modèle de prévision. Il s'agit de la différence entre les prévisions du modèle et les résultats réels, en moyenne. Un biais positif indique que les prévisions sont systématiquement supérieures aux résultats réels, tandis qu'un biais négatif indique que les prévisions sont systématiquement inférieures aux résultats réels.
- Le biais de prévision quantifie la différence entre les prévisions et les résultats réels, en moyenne. Ainsi, il peut être considéré comme une mesure globale de l'exactitude d'un modèle de prévision, qui est distincte mais liée aux métriques de performance.