Accéder au contenu principal

Une utilisation perverse des statistiques

Je ne reviendrai pas ici sur les absurdes traitements statistiques exécutés par les très médiocres agents techniques déguisés du nom ronflant de "scientifiques" en épidémiologie ou en climatologie. Je voudrais simplement évoquer une affaire qui secoue une partie de l'opinion britannique depuis quelques jours : l'affaire des "A-levels".

D'après les informations rapidement glanées dans la presse anglaise, il semble que ce que nous appelons le "baccalauréat" en France s'appelle le "A-level exam". Les débats que soulèvent ce genre d'examen sont loin de mes centres d'intérêt actuels et je ne peux y apporter grand chose.

Cependant, un détail a attiré mon attention. Je n'ai pas pratiqué professionnellement les statistiques. Mais dans ma longue formation supérieure, j'ai rencontré trois fois ce domaine des mathématiques : une première fois en mathématiques appliquées à l'Université de Paris-Jussieu, une deuxième fois en étudiant la Physique statistique à l'université d'Orsay, puis lorsque mon cursus à l'EME - école d'ingénieurs - m'a fait rencontrer la recherche opérationnelle. Je connais donc les bases de cette science et ses grandes lignes. Tout cela pour affirmer à mon lecteur que je peux distinguer une statistique d'un satané mensonge ...

Depuis longtemps, je suis sidéré par l'utilisation des statistiques qui est faite par de nombreux professionnels qui les font facilement diffuser dans le grand public. Des notions capitales sont complètement ignorées comme le domaine de validité d'une statistique, les limites de l'idée de distribution et de celles de moyenne et de variance. Parfois, une étude statistique vraiment correcte est diffusée dans le grand public d'une façon telle qu'il en retient le contraire.

Je me souviens des rages d'un ami, mathématicien professionnel, quand il lisait un article qui utilisait des séries chronologiques pour en déduire une prévision. Beaucoup de gens imaginent en effet que, si une population suit une série chronologique, alors la moyenne de cette série est celle que la population devra prendre plus tard. Par exemple, en climatologie, si la température moyenne des trente dernières années est de, mettons 17,4°C, alors, pour les trente années suivantes, la différence de la température mesurée avec la température moyenne précédente est "évidemment" une anomalie de température pui plus tard qu'elle ne prend pas la valeur de température moyenne décidée ... C'est idiot, mais c'est comme cela que procèdent trop de professionnels, en particulier trompés par le concept dangereux de modèle de données.

Dans l'affaire des "A-Levels", une administration britannique, OfQual, a été chargée de résoudre le problème que le confinement général de la population britannique a posé aux institutions d'enseignement. Il n'était pas possible d'organiser des examens publics, en présentiel, comme on dit dans le langage baroque de nos fonctionnaires. Le "ministre" a alors donné comme instruction à OfQual de simuler un examen juste et équitable. Que fait un fonctionnaire qui reçoit la mission de faire un examen public, juste et équitable ? Il prend les dossiers des candidats réels, qu'il répartit par classes d'âge, de sexe, d'ethnie, de catégorie socio-professionnelle des parents, de lieu de résidence, etc. Il prend ensuite les statistiques des années passées concernant les notes obtenues pour les classes d'âge, de sexe, d'ethnie, de catégorie .... qu'il a relevé. Il fait alors tourner un générateur aléatoire qui sélectionne un candidat et qui lui attribue une note au hasard de sorte que à la fin de la "simulation de l'examen" de 2020, les statistiques 2020 par classes d'âge, de sexe, d'ethnie, de catégorie .... classes d'âge, de sexe, d'ethnie, de catégorie .... soient à peu près identiques à celles des années passées !

Bien sûr, c'est beaucoup trop simple. Le travail d'un "modélisateur" est alors de rendre le modèle tellement complexe que même lui ne sait plus, le lendemain, comment son modèle fonctionne. Pour la vérification, il faudra de la constance ... Et de fait, de plus en plus d'études utilisant les statistiques ne sont plus reproductibles pour le plus grand plaisir de fraudeurs. Je vous rassure donc : le modèle de données de OfQual pour l’organisation du "A-level" est beaucoup plus complexe ... au lieu d'inventer des notes au hasard, il utilise les notes produites par les professeurs de chaque candidat - un peu à la manière de nos contrôles continus, en plus "subtil". L'algorithme d'Ofqual modifie les notes du "contrôle continu" pour rendre l'examen final 1-Level, "juste et équitable" selon les classes analysées !

Résultat : tollé général. Les étudiants recalés sont furieux parce que, lors de leur contrôle continu "à l'anglaise", il leur semblait avoir de bien meilleurs résultats. Le tollé s'étend aux parents et aux amis. Puis, aux universités alarmées que, si les bons élèves se plaignent de ne pas être reçus, cela pourrait signifier que ce sont les "mauvais" qui vont "entrer" à l'Université ... Le gouvernement annonce qu'il va ... "faire demi-tour (U-turn)". Je n'ai pas cherché à savoir ce que serait ce demi-tour, mais j'imagine que les fonctionnaires ont certainement protesté que leur modèle était juste et équitable tel que le ministre l'avait commandé et que les étudiants contestataires montrent seulement qu'ils n'ont pas l'esprit scientifique, puisque "ils ne respectent pas le consensus unanime de la communauté scientifique". Et oui ! on en est là ...

Il serait vraiment temps que des médias libres utilisent l'expertise de véritables scientifiques pour démonter les effarants trucages auxquels la statistique donne lieu quand elle est laissée aux mains d'individus sans scrupules. Par ailleurs, il me semble qu'un nombre de plus en plus élevé de personnes prétendant au "titre" de "scientifique", que ce soit parce qu'ils prétendent posséder un diplôme scientifique ou parce qu'ils sont employés par une organisation prétendant au statut difficilement contrôlable d'institution scientifique, n'ont pas la moindre idée des bases de leur science et finissent par être tellement nombreux qu'il est impossible qu'ils soient "débusqués" par leurs "pairs".

On peut penser que ce serait beaucoup plus salubre pour l'opinion publique que le fait de "poursuivre" des gémonies un pauvre hère qui élucubre dans son coin de Facebook ou de Twitter.

 

__________

Commentaires

Posts les plus consultés de ce blog

Coronavirus - L'étude américaine du The Lancet de Mai 2020

1 - Une simple étude privée déclenche les décisions de politique de santé nationales Cette étude intitulée " Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19 " et publiée le 22.05.2020 a pour auteurs principaux deux médecins à peu près inconnus, un cardiologue spécialisé dans l'intervention lors de conférences médicales organisées par les grands laboratoires pharmaceutiques et un ancien chirurgien, reconverti dans la manipulation de données médicales, a immédiatement déclenchée les décisions politiques suivantes en France : les essais thérapeutiques concernant l'association HCQ et Azythromocine sont suspendus ou arrêtés ; le décret du 23 mars 2020 qui autorisait cette association médicamenteuse en la réservant exclusivement à l'hôpital public est abrogé. Pour résumer, sur la foi d'une très vulgaire étude d'un hôpital secondaire des USA produite par deux auteurs sans aucune compétence particulière en inf