Statistiques descriptives avec NumPy : Moyenne, Médiane, Variance et Écart-type
Ces indicateurs sont utilisés pour décrire rapidement un dataset afin d’avoir une idée des informations qu’il contient.
- NumPy : génération et calculs numériques
- Matplotlib : visualisation graphique
- Seaborn : visualisation statistique avancée
La moyenne
On commence par créer un dataset avec numpy :
import numpy as np
np.random.seed(1)
data = np.random.uniform(low=-5, high=5, size=101)
data
La moyenne est la somme des valeurs divisée par leur nombre.
Formule :
µ = (1/n) Σ (i=1 → n) xi
- µ (mu) : moyenne des valeurs
- n : nombre total d’éléments
- Σ : somme
- xi : i-ème valeur
Implémentation en Python :
# MOYENNE
nombre_de_points = data.shape[0]
print(nombre_de_points) # 101
somme_des_points = data.sum()
moyenne = somme_des_points / nombre_de_points
print("à la main ", moyenne)
print("avec numpy", data.mean())
Résultat :
à la main -0.15698637012013283
avec numpy -0.15698637012013283
On constate que les deux méthodes donnent le même résultat, car numpy.mean() applique exactement la formule de la moyenne. La moyenne des 101 points générés est donc environ -0,157.
La médiane
La médiane est une autre mesure de tendance centrale. Elle est définie comme la valeur qui sépare un ensemble de données en deux parties de taille égale :
- 50 % des valeurs ≤ médiane
- 50 % des valeurs ≥ médiane
Méthode de calcul :
- Trier les données par ordre croissant
- Si n est impair : prendre la valeur du milieu
- Si n est pair : prendre la moyenne des deux valeurs centrales
Exemple avec 101 valeurs (impair) :
data.sort() # trie le tableau en place
mediane = data[50] # 51e valeur
print(mediane)
# -0.5008786652005952
# ou directement :
mediane = np.median(data)
print(mediane)
# -0.5008786652005952
La médiane correspond ici à environ -0,501.
Différence clé : la moyenne est sensible aux valeurs extrêmes, alors que la médiane est robuste.
Analogie :
- La moyenne correspond à additionner toutes les tailles d’un groupe de personnes puis diviser par leur nombre.
- La médiane correspond à la taille de la personne au milieu une fois le groupe rangé du plus petit au plus grand.
Ainsi, si un basketteur de 2,30 m rejoint le groupe, la moyenne sera fortement modifiée, mais la médiane restera inchangée tant qu’il ne déplace pas le centre.
Percentiles :
- La médiane = 50e percentile
- 25e percentile (Q1) : 25 % des données en dessous
- 75e percentile (Q3) : 75 % des données en dessous
- 49e percentile : 49 % des observations en dessous
La variance
La variance mesure la dispersion des données autour de la moyenne. Elle est notée V(X) ou σ².
Définition : la variance est la moyenne des carrés des écarts à la moyenne.
Formule :
σ² = (1/n) Σ (i=1 → n) (xi - µ)²
- Variance faible : valeurs proches de la moyenne → faible dispersion
- Variance élevée : valeurs éloignées → forte dispersion
Unité :
- Si les données sont en mètres → variance en m²
- Pour revenir à l’unité initiale, on prend la racine carrée : écart-type