Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Laurent COCAULT

La loi de Benford

A la fin du mois de décembre 2019, Etienne Klein recevait Mickaël Launay dans son émission "La conversation scientifique" (l'émission peut être écoutée en podcast ici). Cette émission a été l'occasion pour ses deux participants de revenir sur les sujets abordés dans le second livre de Launay: Le théorème du parapluie. L'émission a suscité chez moi un vif intérêt et a soulevé des questions pour lesquelles j'attendais une réponse qui devait se présenter au pied du sapin quelques jours plus tard puisque le livre de Launay était sur ma liste de Noël.

Le théorème du parapluie

Le théorème du parapluie

Parmi les sujets abordés, celui abordant la loi de Benford est le premier à m'avoir plongé dans quelques réflexions. Cette loi indique que la distribution statistique du premier chiffre d'un ensemble de mesures n'est pas homogène et que les petits chiffres apparaissent plus souvent que les grands; ainsi les mesures commencent plus souvent par le chiffre "1" que par le chiffre "2" qui est lui-même plus fréquent que le chiffre "3" et ainsi de suite. L'application de cette loi au prix des articles dans un supermarché fonctionne particulièrement bien: vous trouverez plus d'articles à 1€ et quelques centimes qu'à 2€ et quelques centimes et encore davantage par rapport aux prix à 3€ et quelques centimes. Si on peut objecter de cette hétérogénéité de distribution est le fruit d'une stratégie commerciale, il est plus difficile de proposer le même argument lorsqu'il s'agit de mesures sur des objets naturels: en l'occurrence, Mickaël Launay prend l'exemple de la longueur des fleuves. Cet exemple a attiré mon attention dans la mesure où je dispose d'un outil presque prêt à l'usage pour le vérifier. L'été dernier, je développais en effet quelques scripts Python me permettant d'extraire deux millions de données de la base de données WikiData (cf. "On the street where you live" - partie 2) Il suffit de quelques adaptations pour vérifier si la longueur des cours d'eau du monde suit bien la loi de Benford.

La loi de Benford

Cette fonction permet de sélectionner, dans la base ElasticSearch constituée l'été dernier, l'ensemble des données du type Q4022 qui correspond aux cours d'eau. A partir de cette liste, il est possible de réinterroger la base WikiData pour obtenir les informations complémentaires. Cette approche suppose de disposer d'une classe dérivée comprenant un champ spécifique à un cours d'eau, sa longueur.

La loi de Benford

La sélection de la longueur d'un fleuve implique une mise à jour de la fonction de téléchargement des données WikiData qui crée une instance de la classe nouvellement créée.

La loi de Benford

Une fois la longueur des fleuves récupérée, il ne reste plus qu'à en faire une analyse statistique destinée à vérifier la loi de Benford.

La loi de Benford

L'exécution de cette fonction permet de proposer le résultat suivant: sur 5316 cours d'eau référencés, la longueur minimale relevée est de 380 mètres et la longueur de maximale de 6690 kilomètres pour une longueur moyenne de 160 kilomètres. Si on regarde la distribution du premier "digit" des longueurs de fleuves, on obtient le résultat suivant:

  1. 1452 occurrences
  2. 1025 occurrences
  3. 616 occurrences
  4. 521 occurrences
  5. 382 occurrences
  6. 316 occurrences
  7. 299 occurrences
  8. 274 occurrences
  9. 197 occurrences

A ces valeurs on ajoutera 19 cours d'eau dont la longueur est inférieure au kilomètre et dont le premier chiffre est 0. Normalement, il convient de regarder le premier chiffre significatif; dans le cas de la longueur des fleuves, j'ai considéré que le faible nombre de valeurs sous la barre du kilomètre n'était significative au point d'ajuster l'algorithme de calcul.

La loi de Benford

Ce qui est le plus troublant, c'est que le changement d'échelle de mesure ne contredit par la loi de Benford qui reste vérifiée si on analyse la longueur des cours d'eau en miles et non en kilomètres (un mile valant 1609 mètres). La distribution change naturellement, mais les ordres de grandeur restent conformes à la loi de Benford. Voici les valeurs en miles:

  1. 1627 occurrences
  2. 885 occurrences
  3. 608 occurrences
  4. 497 occurrences
  5. 354 occurrences
  6. 320 occurrences
  7. 273 occurrences
  8. 223 occurrences
  9. 231 occurrences

En réalité l'invariance de ce constat doit nous mettre sur la piste de l'explication de la loi de Benford. En effet, on ne modifie pas significativement la répartition en appliquant un facteur multiplicatif aux données parce que la nature des grandeurs est multiplicative. Autrement dit, le biais observé est dû à la construction mathématique d'une échelle additive telle que nous l'utilisons quotidiennement et qui ne correspond pas à la façon dont il faudrait considérer la mesure du monde. Il n'est pas important de savoir quelle est la longueur d'un fleuve en kilomètres ou en miles, ou dans toute autre unité de mesure, mais de considérer qu'un fleuve qui est deux fois plus long qu'un autre le sera quelle que soit l'unité de mesure. Pour se convaincre de l'essence multiplicative du monde et de la pertinence d'une échelle multiplicative par rapport à une échelle additive, il suffit de regarder la distribution logarithmique des valeurs collectées. Si je reprends les longueurs en miles ci-dessus:

  • Commençant par 1: 1627 occurrences
  • Commençant par 2 ou 3: 1493 occurrences
  • Commençant par 4, 5, 6 ou 7: 1444 occurrences

Une échelle logarithmique permet bel et bien d'obtenir une répartition plus homogène des observations.

Je ne prétends pas avoir, avec ce bref article, exposé de manière aussi complète et aussi argumentée la loi de Benford que ne le fait Mickaël Launay dans le chapitre 1 de son livre "Le théorème du parapluie". Mais j'espère au moins avoir pu partager la surprise qui a été la mienne en découvrant cette loi et ce qu'elle suggère sur notre façon de mesurer le monde. Cet article aura peut-être au moins éveillé votre curiosité au point de vous amener à écouter la conversation entre Klein et Launay, voire à acheter le second livre de ce dernier.

Partager cet article
Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article