En matière de statistiques, je viens de prendre une grosse claque. J’ai lu il y a quelques semaines un
article scientifique que je ne connaissais pas, et ce dernier est en train de modifier radicalement mon opinion sur pas mal d’études scientifiques basées sur des analyses statistiques.
En matière de statistiques, je viens de prendre une grosse claque. J’ai lu il y a quelques semaines un article scientifique que je ne connaissais pas, et ce dernier est en train de modifier radicalement mon opinion sur pas mal d’études scientifiques basées sur des analyses statistiques.
Aujourd’hui on va parler de facteurs de confusion, et notez que même si vous êtes déjà versé en stats, lisez quand même : ça pourrait vous étonner.
[...]
Pour éviter cet écueil, il existe une technique statistique :
contrôler le facteur de confusion.
[...]
C’est une technique ultra-classique en statistiques, qui est employée dans une grande majorité des études statistiques en épidémiologie, économétrie, etc.
[...]
Mais ce qu’il se produit souvent, c’est qu’on ne dispose que d’une
approximation du facteur de confusion.
[...]
Dans les études statistiques observationnelles, même si on a bien identifié un facteur de confusion (comme le niveau de vie), on n’a rarement accès à sa « vraie » valeur, mais seulement à une sorte de proxy.
[...]
Et là…patatras ! Avant, le lien champagne/espérance de vie disparaissait en contrôlant par le facteur de confusion, mais maintenant, le lien subsiste ! Quand je contrôle avec ce proxy, je trouve qu’il reste une corrélation résiduelle entre la consommation de champagne et l’espérance de vie : \(R^2=0.31\)., et avec une valeur p qui reste excellente de surcroit, puisque \(p=10^{-7}\). Donc c’est largement publiable comme résultat !
[...]
Cette corrélation résiduelle que j’observe est donc un artéfact statistique, lié au fait que j’ai contrôlé par un proxy plutôt que par le « vrai » facteur de confusion intrinsèque. D’une certaine façon, le facteur de confusion « déborde » et vient entâcher l’analyse, même si on a essayé de le contrôler.
Ici, malgré la valeur p très faible, on commet ce qu’on appelle en statistique
une erreur de type I : on trouve un effet là où il n’y en a pas en réalité (c’est un « faux positif »).
L’ennui, c’est que ce qu’il vient de se passer ici n’est pas spécifique au jeu de données que j’ai créé. C’est un phénomène qui semble très général, et qui potentiellement se produit dès que l’on contrôle par un facteur de confusion bruité plutôt que par le « vrai » facteur de confusion.
Ce phénomène de faux positif additionnel est donc l’objet de cet article que j’ai lu récemment, qui m’a complètement chamboulé, et dont le titre est assez clair
[...]
Il y a essentiellement trois facteurs importants qui peuvent avoir un impact sur la probabilité de ces erreurs de type I :
- L’importance du facteur de confusion;
- La fiabilitié du proxy dont on dispose pour ce facteur de confusion;
- Et bien sûr la taille de l’échantillon.
[...]
Comme vous pouvez le voir,
les conclusions sont terribles. Le risque de faux positif est énorme dans presque toutes les configurations.
Intuitivement on pourrait penser que — comment souvent en statistiques — ce phénomène de faux positif sera éliminé en prenant des échantillons plus importants.
[...]
Vous n’avez pas la berlue : quand on augmente la taille de l’échantillon, la situation est encore pire ! Plus l’échantillon est grand, plus le risque est important qu’un facteur de confusion mal contrôlé « déborde ». Plus l’échantillon est petit, plus l’effet que vous recherchez sera difficile à mettre en évidence, mais plus faible sera le risque que le facteur de confusion vienne y mettre la pagaille.
[...]
En soi l’idée que « contrôler les facteurs de confusion est difficile » n’est pas nouvelle. [...] Mais c’est la première fois que je le vois démontré avec autant de simplicité sur un cas aussi « pur » (c’est littéralement quelques lignes de Python), et avec une quantification par simulation Monte Carlo du risque additionnel d’erreur de type I.
Cela ne fait que quelques semaines que j’ai découvert ce résultat. Peut-être ai-je besoin de mieux le comprendre et le digérer, et si vous voyez des failles dans mon raisonnement, je suis preneur. Mais à ce stade
je trouve les conclusions absolument catastrophiques. J’ai l’impression qu’une majorité des études observationnelles que j’ai pu lire sont probablement entachées par ce phénomène, et ce d’une façon bien plus importante que les biais de publication auxquels on pense usuellement.