Écart-type et inégalité de Tchebychev

Lorsque nous travaillons avec un ensemble de données, nous savons que la moyenne (µ) et l’écart-type (σ) nous donnent une idée de la tendance centrale et de la dispersion des valeurs. L’inégalité de Tchebychev est un résultat fondamental qui permet de garantir, quelle que soit la distribution des données, qu’une proportion minimale des observations se trouvent dans un intervalle défini autour de la moyenne.

Le principe est le suivant : pour tout k > 1, au moins une proportion de 1 - (1/k²) des valeurs du dataset se trouvent dans l’intervalle [µ - kσ , µ + kσ]. Cette propriété est universelle : elle ne dépend pas de la forme de la distribution des données, qu’elle soit symétrique, asymétrique, en cloche ou totalement irrégulière.

Si k = 2, l’inégalité de Tchebychev garantit qu’au moins 75 % des valeurs se trouvent entre µ - 2σ et µ + 2σ.
Si k = 3, elle garantit qu’au moins 89 % des valeurs se trouvent entre µ - 3σ et µ + 3σ.

Ainsi, même si nous n’avons aucune information sur la distribution précise des données, nous pouvons affirmer avec confiance qu’une grande partie d’entre elles restent concentrées autour de la moyenne, dans une bande proportionnelle à l’écart-type.

Cette inégalité fournit donc un outil robuste pour encadrer les données et établir des bornes de confiance minimales dans des situations où nous ne connaissons pas la loi de distribution.

Implémentation en Python


variance = lambda d : print("variance:", np.var(d).round(2))
ecart_type = lambda d : print("ecart_type:", np.std(d).round(2))
moyenne = lambda d : print("moyenne:", np.mean(d).round(2))

En Python, une fonction lambda est une fonction anonyme, définie en une seule ligne. Elle est utile lorsqu’on a besoin d’une fonction simple et temporaire.

Syntaxe générale :


lambda arguments : expression

Exemple simple : f = lambda x : x * x → f(5) renvoie 25.
Avec plusieurs arguments : somme = lambda a, b : a + b → somme(3, 7) renvoie 10.

Avec map :


nombres = [1, 2, 3, 4, 5]
carres = list(map(lambda x : x * x, nombres))

En résumé, une fonction lambda est une manière compacte de définir une fonction simple, mais limitée à une seule expression.

Cas n°1


# cas 1
profondeur = -np.ones(10)

plt.ylim(-2.5, 0)
plt.plot(profondeur)
variance(profondeur)
ecart_type(profondeur)
moyenne(profondeur)

Nous définissons un tableau contenant dix valeurs, toutes égales à -1. Cela implique que la série est parfaitement constante.

Variance : égale à 0,0 car aucune dispersion.
Écart-type : également 0,0.
Moyenne : égale à -1,0.

Ce cas illustre une situation totalement homogène : aucune variation n’est présente, la seule information utile est la moyenne.

Cas n°2


# cas 2
profondeur = -np.random.uniform(low=0.1, high=1.9, size=10)

plt.ylim(-2.5, 0)
plt.plot(profondeur)
variance(profondeur)
ecart_type(profondeur)
moyenne(profondeur)

# Résultats : variance = 0.26, écart-type = 0.51, moyenne = -0.97

Moyenne : -0.97 → les profondeurs se situent en moyenne à ~ -1 mètre.
Variance : 0.26 → dispersion faible.
Écart-type : 0.51 → la majorité des valeurs se trouvent entre -0.46 et -1.48.

La distribution est homogène, centrée autour de -1, avec une dispersion modérée.

Cas n°3


# cas 3
profondeur = -np.ones(20)
profondeur[5] = -2.0

plt.ylim(-2.5, 0)
plt.plot(profondeur)
variance(profondeur)
ecart_type(profondeur)
moyenne(profondeur)

19 valeurs à -1 et une valeur à -2.
Moyenne : -1,05 → légèrement abaissée par la valeur exceptionnelle.
Variance / Écart-type : faibles mais non nuls → reflètent l’anomalie ponctuelle.

Ce cas illustre l’influence d’une valeur isolée : la moyenne se décale légèrement et la dispersion augmente, même si la majorité des données est homogène.

Implémentation en Python

Cas n°1

Cas n°2

Cas n°3

Partager cet article