Croire en la science ? De mauvaises études de données volumineuses peuvent ébranler votre foi – Twin Cities :

Le café était très populaire en Suède au 17ème siècle – et également illégal. Le roi Gustav III croyait que c’était un poison lent et a conçu une expérience astucieuse pour le prouver. Il a commué les peines des frères jumeaux meurtriers qui attendaient d’être décapités, à une condition : Un frère devait boire trois pots de café chaque jour tandis que l’autre buvait trois pots de thé. La mort prématurée du buveur de café prouverait que le café était un poison.

Il s’est avéré que le jumeau buveur de café a survécu au buveur de thé, mais ce n’est que dans les années 1820 que les Suédois ont finalement été légalement autorisés à faire ce qu’ils avaient toujours fait – boire du café, beaucoup de café.

La pierre angulaire de la révolution scientifique est l’insistance pour que les affirmations soient testées avec des données, idéalement dans un essai contrôlé au hasard. L’expérience de Gustav était remarquable pour son utilisation de jumeaux mâles identiques, ce qui éliminait les effets de confusion du sexe, de l’âge et des gènes. La faiblesse la plus flagrante était que rien de statistiquement convaincant ne peut provenir d’un si petit échantillon.

Aujourd’hui, le problème n’est pas la rareté des données, mais le contraire.

Nous avons trop de données et cela sape la crédibilité de la science.

La chance est inhérente aux essais aléatoires. Dans une étude médicale, certains patients peuvent être en meilleure santé. Dans une étude agricole, certains sols peuvent être plus fertiles. Dans une étude pédagogique, certains étudiants peuvent être plus motivés. Les chercheurs calculent par conséquent la probabilité (la valeur p) que les résultats puissent se produire par hasard. Une faible valeur de p indique que les résultats ne peuvent pas facilement être attribués à la chance du tirage au sort.

Faible à quel point? Dans les années 1920, le grand statisticien britannique Ronald Fisher a déclaré qu’il considérait les valeurs p inférieures à 5 % comme convaincantes et, ainsi, 5 % sont devenus l’obstacle à la certification “statistiquement significative” nécessaire à la publication, au financement et à la renommée.

Ce n’est pas un obstacle difficile. Supposons qu’un chercheur malheureux calcule les corrélations entre des centaines de variables, ignorant parfaitement que les données sont toutes, en fait, des nombres aléatoires. En moyenne, une corrélation sur 20 sera statistiquement significative, même si chaque corrélation n’est rien de plus qu’une coïncidence.

Les vrais chercheurs ne corrèlent pas les nombres aléatoires mais, trop souvent, ils corrèlent ce qui est essentiellement des variables choisies au hasard. Cette recherche aléatoire de signification statistique a même un nom : fouille de données. Comme pour les nombres aléatoires, la corrélation entre des variables non liées choisies au hasard a 5 % de chance d’être statistiquement significative de manière fortuite. L’exploration de données peut être augmentée en manipulant, en élaguant et en torturant les données pour obtenir de faibles valeurs de p.

Pour trouver une signification statistique, il suffit de regarder suffisamment fort. Ainsi, l’obstacle des 5 % a eu l’effet pervers d’encourager les chercheurs à faire plus de tests et à rapporter plus de résultats dénués de sens.

Ainsi, des relations idiotes sont publiées dans de bonnes revues simplement parce que les résultats sont statistiquement significatifs.

  • Les étudiants réussissent mieux à un test de rappel s’ils étudient pour le test après l’avoir passé (Journal of Personality and Social Psychology).
  • Les Américains d’origine japonaise sont sujets aux crises cardiaques le quatrième jour du mois (British Medical Journal).
  • Les prix du bitcoin peuvent être prédits à partir des rendements des stocks dans l’industrie du carton, des conteneurs et des boîtes (National Bureau of Economic Research).
  • Les femmes chinoises âgées peuvent reporter leur décès jusqu’après la célébration du Harvest Moon Festival (Journal of the American Medical Association).
  • Les femmes qui mangent quotidiennement des céréales pour le petit-déjeuner sont plus susceptibles d’avoir des bébés de sexe masculin (Proceedings of the Royal Society).
  • Les gens peuvent utiliser des poses puissantes pour augmenter leur testostérone, l’hormone de dominance, et réduire leur cortisol, l’hormone du stress (science psychologique).
  • Les ouragans sont plus meurtriers s’ils portent des noms féminins (Proceedings of the National Academy of Sciences).
  • Les investisseurs peuvent obtenir un rendement annuel du marché de 23 % en basant leurs décisions d’achat/vente sur le nombre de recherches Google pour le mot « dette » (Scientific Reports).

Ces études aujourd’hui discréditées ne sont que la pointe d’un iceberg statistique connu sous le nom de crise de réplication.

Une équipe dirigée par John Ioannidis a examiné les tentatives de reproduction de 34 études médicales très respectées et a constaté que seulement 20 avaient été confirmées. Le projet de reproductibilité a tenté de reproduire 97 études publiées dans des revues de psychologie de premier plan et n’en a confirmé que 35. Le projet de réplication d’économie expérimentale a tenté de reproduire 18 études expérimentales publiées dans des revues d’économie de premier plan et n’en a confirmé que 11.

J’ai écrit un article satirique qui visait à démontrer la folie de l’exploration de données.

J’ai regardé les tweets volumineux de Donald Trump et j’ai trouvé des corrélations statistiquement significatives entre : Trump tweetant le mot « président » et l’indice S&P 500 deux jours plus tard ; Trump tweetant le mot « jamais » et la température à Moscou quatre jours plus tard ; Trump tweetant le mot « plus » et le prix du thé en Chine quatre jours plus tard ; et Trump tweetant le mot « démocrate » et quelques nombres aléatoires que j’avais générés.

J’ai conclu – la langue aussi fermement que possible – que j’avais trouvé “des preuves convaincantes de la valeur de l’utilisation d’algorithmes d’exploration de données pour découvrir des corrélations statistiquement convaincantes, jusqu’ici inconnues, qui peuvent être utilisées pour faire des prédictions fiables”.

J’ai naïvement supposé que les lecteurs comprendraient le but de cette blague de nerd: De grands ensembles de données peuvent facilement être extraits et torturés pour identifier des modèles totalement inutiles. J’ai soumis l’article à une revue universitaire et les commentaires de l’examinateur démontrent magnifiquement à quel point la notion selon laquelle la signification statistique l’emporte sur le bon sens est profondément ancrée : « Le document est généralement bien écrit et structuré. Il s’agit d’une étude intéressante et les auteurs ont collecté des ensembles de données uniques en utilisant une méthodologie de pointe. »

Il est tentant de croire que plus de données signifie plus de connaissances. Cependant, l’explosion du nombre de choses qui sont mesurées et enregistrées a amplifié au-delà de toute croyance le nombre de modèles coïncidents et de fausses relations statistiques qui attendent de nous tromper.

Si le nombre de vraies relations encore à découvrir est limité, alors que le nombre de modèles coïncidents croît de façon exponentielle avec l’accumulation de plus en plus de données, alors la probabilité qu’un modèle découvert au hasard soit réel approche inévitablement de zéro.

Le problème aujourd’hui n’est pas que nous ayons trop peu de données, mais que nous en ayons trop, ce qui incite les chercheurs à les rechercher à la recherche de modèles faciles à trouver, susceptibles d’être des coïncidences et peu susceptibles d’être utiles.

Gary Smith, professeur d’économie au Pomona College, est l’auteur de « The AI ​​Delusion » et du prochain Distrust : Big Data, torture des données et assaut contre la science. Il a écrit cette chronique pour Bloomberg Opinion.

Leave a Comment