Statistiques descriptives avec NumPy : Moyenne, Médiane, Variance et Écart-type

Ces indicateurs sont utilisés pour décrire rapidement un dataset afin d’avoir une idée des informations qu’il contient.

  • NumPy : génération et calculs numériques
  • Matplotlib : visualisation graphique
  • Seaborn : visualisation statistique avancée

La moyenne

On commence par créer un dataset avec numpy :


import numpy as np

np.random.seed(1)
data = np.random.uniform(low=-5, high=5, size=101)
data
La moyenne est la somme des valeurs divisée par leur nombre.

Formule :


µ = (1/n) Σ (i=1 → n) xi
  • µ (mu) : moyenne des valeurs
  • n : nombre total d’éléments
  • Σ : somme
  • xi : i-ème valeur

Implémentation en Python :


# MOYENNE
nombre_de_points = data.shape[0]
print(nombre_de_points)  # 101

somme_des_points = data.sum()
moyenne = somme_des_points / nombre_de_points

print("à la main ", moyenne)
print("avec numpy", data.mean())

Résultat :


à la main  -0.15698637012013283
avec numpy -0.15698637012013283

On constate que les deux méthodes donnent le même résultat, car numpy.mean() applique exactement la formule de la moyenne. La moyenne des 101 points générés est donc environ -0,157.


La médiane

La médiane est une autre mesure de tendance centrale. Elle est définie comme la valeur qui sépare un ensemble de données en deux parties de taille égale :

  • 50 % des valeurs ≤ médiane
  • 50 % des valeurs ≥ médiane

Méthode de calcul :

  • Trier les données par ordre croissant
  • Si n est impair : prendre la valeur du milieu
  • Si n est pair : prendre la moyenne des deux valeurs centrales

Exemple avec 101 valeurs (impair) :


data.sort()        # trie le tableau en place
mediane = data[50] # 51e valeur
print(mediane)
# -0.5008786652005952

# ou directement :
mediane = np.median(data)
print(mediane)
# -0.5008786652005952

La médiane correspond ici à environ -0,501.

Différence clé : la moyenne est sensible aux valeurs extrêmes, alors que la médiane est robuste.

Analogie :

  • La moyenne correspond à additionner toutes les tailles d’un groupe de personnes puis diviser par leur nombre.
  • La médiane correspond à la taille de la personne au milieu une fois le groupe rangé du plus petit au plus grand.

Ainsi, si un basketteur de 2,30 m rejoint le groupe, la moyenne sera fortement modifiée, mais la médiane restera inchangée tant qu’il ne déplace pas le centre.

Percentiles :

  • La médiane = 50e percentile
  • 25e percentile (Q1) : 25 % des données en dessous
  • 75e percentile (Q3) : 75 % des données en dessous
  • 49e percentile : 49 % des observations en dessous

La variance

La variance mesure la dispersion des données autour de la moyenne. Elle est notée V(X) ou σ².

Définition : la variance est la moyenne des carrés des écarts à la moyenne.

Formule :


σ² = (1/n) Σ (i=1 → n) (xi - µ)²
  • Variance faible : valeurs proches de la moyenne → faible dispersion
  • Variance élevée : valeurs éloignées → forte dispersion

Unité :

  • Si les données sont en mètres → variance en m²
  • Pour revenir à l’unité initiale, on prend la racine carrée : écart-type