{"id":703,"date":"2017-04-28T13:35:25","date_gmt":"2017-04-28T11:35:25","guid":{"rendered":"http:\/\/perso.ens-lyon.fr\/lise.vaudor\/?p=703"},"modified":"2017-07-13T09:22:13","modified_gmt":"2017-07-13T07:22:13","slug":"torturer-ses-donnees-pour-les-faire-parler-cest-mal-oui-mais-pourquoi","status":"publish","type":"post","link":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/torturer-ses-donnees-pour-les-faire-parler-cest-mal-oui-mais-pourquoi\/","title":{"rendered":"Torturer ses donn\u00e9es pour les faire parler, c&rsquo;est mal! (Oui, mais pourquoi?)"},"content":{"rendered":"<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/Lise_Vaudor_headband-1.png\" alt=\"\" \/><\/p>\n<h1>Le pav\u00e9 dans la mare<\/h1>\n<p>Il y a peu de temps je suis tomb\u00e9e sur cet article qui m&rsquo;a laiss\u00e9e songeuse:<\/p>\n<p>Ioannidis JPA (2005) <em>Why Most Published Research Findings Are False.<\/em> PLoS Med 2(8):e124. (<a href=\"https:\/\/doi.org\/10.1371\/journal.pmed.0020124\">https:\/\/doi.org\/10.1371\/journal.pmed.0020124<\/a>\u000b)<\/p>\n<p>Comme son titre l&rsquo;indique, cet article s&rsquo;appuie sur des calculs de probabilit\u00e9s pour montrer que <strong>lorsqu&rsquo;un chercheur publie un r\u00e9sultat significatif, il y a en fait de fortes chances pour que ce r\u00e9sultat soit faux<\/strong>.<\/p>\n<p>Pass\u00e9 le premier stade de stup\u00e9faction (\u00ab\u00a0Comment est-ce possible?\u00a0\u00bb), le deuxi\u00e8me stade de d\u00e9couragement (\u00ab\u00a0Las! A quoi bon continuer \u00e0 chercher?\u00a0\u00bb), le troisi\u00e8me stade de r\u00e9silience (\u00ab\u00a0Bon ben, puisque c&rsquo;est comme \u00e7a je n&rsquo;ai qu&rsquo;\u00e0 rentrer chez moi!\u00a0\u00bb), j&rsquo;ai eu envie de comprendre d&rsquo;o\u00f9 l&rsquo;auteur tirait cette conclusion (qui, si on l&rsquo;en croit, aurait de fortes chances d&rsquo;\u00eatre fausse, donc!).<\/p>\n<p>J&rsquo;ai donc tent\u00e9 de m&rsquo;approprier son raisonnement \u00e0 travers une petite mise en situation\/bande dessin\u00e9e (une fois n&rsquo;est pas coutume, ce billet ne traite pas du tout de R, mais uniquement de statistiques!).<\/p>\n<h1>Essayons de comprendre<\/h1>\n<p>Imaginons donc <strong>un chercheur souhaitant savoir quelle est la couleur d&rsquo;une micro-b\u00eab\u00eate<\/strong> unicellulaire si minuscule qu&rsquo;il ne peut l&rsquo;observer directement (m\u00eame si nous, gr\u00e2ce \u00e0 nos dons d&rsquo;omniscience, voyons bien que cette micro-b\u00eab\u00eate est rose)<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive7.JPG\" alt=\"\" \/><\/p>\n<p>Le chercheur formule une <strong>hypoth\u00e8se quant \u00e0 la couleur de la micro-b\u00eab\u00eate<\/strong> (ici, l&rsquo;hypoth\u00e8se serait qu&rsquo;elle est bleue) et dispose d&rsquo;une <strong>m\u00e9thode pour tester son hypoth\u00e8se<\/strong>. Par exemple, il est capable de mesurer une quantit\u00e9 relative de pigment bleu et v\u00e9rifie si cette quantit\u00e9 augmente quand la quantit\u00e9 de micro-b\u00eab\u00eate augmente.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive8.JPG\" alt=\"\" \/><\/p>\n<p>Ici, son test n&rsquo;est pas concluant et il n&rsquo;est pas en mesure d&rsquo;affirmer que la micro-b\u00eab\u00eate est bleue.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive9.JPG\" alt=\"\" \/><\/p>\n<p>Le chercheur va sans doute tester <strong>un certain nombre d&rsquo;hypoth\u00e8ses<\/strong> de cette mani\u00e8re:<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive12.JPG\" alt=\"\" \/> <img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive15.JPG\" alt=\"\" \/><\/p>\n<p>Et avec un peu de chance, il va \u00e9galement tester une hypoth\u00e8se vraie:<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive17.JPG\" alt=\"\" \/><\/p>\n<p>Dans ce cas, il aura une probabilit\u00e9 de 1\u2005\u2212\u2005<em>\u03b2<\/em> d&rsquo;obtenir un <strong>r\u00e9sultat significatif<\/strong>, ce qu&rsquo;il va s&#8217;empresser (et c&rsquo;est bien naturel) de communiquer au monde:<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive19.JPG\" alt=\"\" \/><\/p>\n<p>Revenons juste un instant \u00e0 cette valeur de 1\u2005\u2212\u2005<em>\u03b2<\/em>, qui correspond \u00e0 la probabilit\u00e9 que le test indique un effet significatif si l&rsquo;effet existe r\u00e9ellement. Cette valeur correspond \u00e0 la <strong>puissance<\/strong> d&rsquo;un test.<\/p>\n<p>La puissance d&rsquo;un test r\u00e9sulte, grosso modo, d&rsquo;une combinaison de plusieurs facteurs, et notamment de:<\/p>\n<ul>\n<li>la <strong>taille d&rsquo;effet<\/strong> (est-ce que la quantit\u00e9 de micro-b\u00eab\u00eate influence beaucoup la quantit\u00e9 de pigment ou non)<\/li>\n<li>la <strong>variabilit\u00e9 r\u00e9siduelle<\/strong> (est-ce que les donn\u00e9es varient beaucoup autour de la loi liant quantit\u00e9 de micro-b\u00eab\u00eate et quantit\u00e9 de pigment)<\/li>\n<li>la <strong>taille d&rsquo;\u00e9chantillon<\/strong> (i.e. sur combien de mesures on s&rsquo;appuie pour notre test)<\/li>\n<\/ul>\n<p>Bien qu&rsquo;elle soit tr\u00e8s compliqu\u00e9e \u00e0 estimer, on peut n\u00e9anmoins dire que plus la <strong>taille d&rsquo;effet est grande<\/strong>, plus la <strong>variabilit\u00e9 r\u00e9siduelle est faible<\/strong>, plus la <strong>taille d&rsquo;\u00e9chantillon est grande<\/strong>, et plus l&rsquo;on va avoir une <strong>puissance statistique \u00e9lev\u00e9e<\/strong>&#8230;<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive20.JPG\" alt=\"\" \/><\/p>\n<p>Malheureusement, il est aussi possible que le chercheur teste une hypoth\u00e8se fausse et obtienne un r\u00e9sultat malgr\u00e9 tout significatif.<\/p>\n<p>Ce risque d&rsquo;erreur correspond au fameux <em>\u03b1<\/em> (souvent, <em>\u03b1<\/em>\u2004=\u20040.05) des tests statistiques. En effet, quand on fait un test d&rsquo;hypoth\u00e8se au seuil <em>\u03b1<\/em>\u2004=\u20040.05 on accepte un niveau de risque de 5% de trouver un effet alors qu&rsquo;il n&rsquo;y en a pas.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive23.JPG\" alt=\"\" \/><\/p>\n<p>Consid\u00e9rons maintenant deux scientifiques, un bien raisonnable (et bien peign\u00e9), qui ne teste qu&rsquo;un <strong>petit nombre d&rsquo;hypoth\u00e8ses<\/strong>, et un scientifique un peu plus foufou, qui envisage <strong>un nombre d&rsquo;hypoth\u00e8ses plus important<\/strong> (dont certaines sembleront m\u00eame farfelues m\u00eame aux non-sp\u00e9cialistes des micro-b\u00eab\u00eates).<\/p>\n<p>Dans le premier cas, le <strong>ratio R<\/strong> (nombre d&rsquo;hypoth\u00e8ses vraies\/nombre d&rsquo;hypoth\u00e8ses fausses) est de <strong>1\/4<\/strong>, tandis qu&rsquo;il est de <strong>1\/10<\/strong> dans le deuxi\u00e8me.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive24.JPG\" alt=\"\" \/><\/p>\n<p>Eh bien, il est en fait possible de <strong>calculer la probabilit\u00e9 qu&rsquo;un r\u00e9sultat de recherche significatif soit effectivement vrai<\/strong> \u00e0 partir de <em>\u03b1<\/em>, <em>\u03b2<\/em>, et R, en passant par le calcul de probabilit\u00e9s d\u00e9crit dans le tableau ci-dessous (tir\u00e9 de l&rsquo;article Ioannidis, 2005):<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/journal.pmed.0020124.t001.png\" alt=\"\" \/><\/p>\n<p>Ainsi, si<\/p>\n<ul>\n<li>la puissance du test est de 0.5 (i.e. au vu de la variabilit\u00e9 des donn\u00e9es, de la taille d&rsquo;effet et de la taille d&rsquo;\u00e9chantillon on estime que si l&rsquo;hypoth\u00e8se est correcte on aura environ une chance sur deux d&rsquo;avoir un r\u00e9sultat significatif),<\/li>\n<li>le risque d&rsquo;erreur de type I, <em>\u03b1<\/em>, est fix\u00e9 \u00e0 5%,<\/li>\n<li>le ratio R est de 1\/4, i.e. on a test\u00e9 un nombre raisonnable d&rsquo;hypoth\u00e8ses<\/li>\n<\/ul>\n<p>alors on a <strong>71% de chances<\/strong> qu&rsquo;un r\u00e9sultat significatif corresponde effectivement \u00e0 la couleur r\u00e9elle, soit (tout de m\u00eame) 29% de chances que le r\u00e9sultat fi\u00e8rement communiqu\u00e9 au monde soit faux.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive25.JPG\" alt=\"\" \/><\/p>\n<p>Par ailleurs, si la <strong>puissance du test \u00e9tait plus faible<\/strong> -ici, 0.2- (par exemple parce que votre taille d&rsquo;\u00e9chantillon est faible et vos mesures tr\u00e8s variables), alors cette probabilit\u00e9 descendrait \u00e0 <strong>50%<\/strong> (on aurait autant de chances que le r\u00e9sultat annonc\u00e9 soit faux qu&rsquo;il soit vrai. Ouch).<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive26.JPG\" alt=\"\" \/><\/p>\n<p>Si en plus on a test\u00e9 tout un tas d&rsquo;hypoth\u00e8ses pour sortir un r\u00e9sultat significatif (comme notre scientifique mal peign\u00e9 et son <strong>R=1\/10<\/strong>), alors on n&rsquo;a que <strong>29%<\/strong> de chances que le r\u00e9sultat annonc\u00e9 comme significatif soit vrai!<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive27.JPG\" alt=\"\" \/><\/p>\n<p>Si notre scientifique mal peign\u00e9 compense ses hypoth\u00e8ses excentriques par un travail acharn\u00e9 et r\u00e9ussit ainsi \u00e0 obtenir une <strong>puissance statistique de 0.5<\/strong>, il r\u00e9ussit \u00e0 augmenter ses chances que le r\u00e9sultat qu&rsquo;il annonce est vrai \u00e0 <strong>50%<\/strong> (pas non plus de quoi pavaner, mais c&rsquo;est d\u00e9j\u00e0 mieux!).<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive28.JPG\" alt=\"\" \/><\/p>\n<p>Il peut aussi d\u00e9cider d&rsquo;\u00eatre plus strict sur son <strong>risque d&rsquo;erreur <em>\u03b1<\/em><\/strong> en le diminuant \u00e0 (par exemple), <strong>1%<\/strong>, et ainsi augmenter ses chances que tout r\u00e9sultat significatif soit effectivement vrai avec une probablit\u00e9 de <strong>67%<\/strong>.<\/p>\n<p><img decoding=\"async\" src=\"..\/..\/lise.vaudor\/Rfigures\/Torturer_ses_donnees\/diapos\/Diapositive29.JPG\" alt=\"\" \/><\/p>\n<h1>La morale de l&rsquo;histoire<\/h1>\n<p>On peut voir plusieurs le\u00e7ons \u00e0 cette \u00ab\u00a0d\u00e9monstration\u00a0\u00bb&#8230; La premi\u00e8re, comme le titre de ce billet l&rsquo;indique, et que c&rsquo;est une tr\u00e8s mauvaise id\u00e9e de de torturer ses donn\u00e9es jusqu&rsquo;\u00e0 ce qu&rsquo;elles parlent (tester des corr\u00e9lations entre tout un tas de variables, transform\u00e9es de tout un tas de mani\u00e8res, jusqu&rsquo;\u00e0 obtenir un r\u00e9sultat significatif que l&rsquo;on pourra publier!), car alors on a de fortes chances de publier un r\u00e9sultat qui est en fait faux.<\/p>\n<p>On peut en fait comprendre ce probl\u00e8me comme r\u00e9sultant de plusieurs caract\u00e9ristiques (aux effets quelque peu pervers) de la recherche scientifique telle qu&rsquo;on la pratique de nos jours.<\/p>\n<p>Une des ces caract\u00e9ristiques est l&rsquo;<strong>importance extr\u00eame accord\u00e9e \u00e0 la p-value<\/strong> en recherche quantitative. Dans certains domaines, une p-value&lt;5% semble \u00eatre un Graal, garant \u00e0 la fois la \u00ab\u00a0scientificit\u00e9\u00a0\u00bb d&rsquo;une \u00e9tude et de son apport \u00e0 un domaine. Or d&rsquo;une part il existe d&rsquo;autres mani\u00e8res de faire de la science et d&rsquo;analyser ses donn\u00e9es que l&rsquo;inf\u00e9rence statistique fr\u00e9quentiste classique et ses tests d&rsquo;hypoth\u00e8se (oui oui, c&rsquo;est une statisticienne qui dit \u00e7a). D&rsquo;autre part, la \u00ab\u00a0philosophie\u00a0\u00bb des tests d&rsquo;hypoth\u00e8se est parfois mal comprise, et est appliqu\u00e9e comme une recette de cuisine l\u00e0 o\u00f9 un peu de recul et de nuance serait n\u00e9cessaire (la notion de <strong>puissance statistique<\/strong>, notamment, m\u00e9riterait un peu plus d&rsquo;attention qu&rsquo;on ne lui en accorde g\u00e9n\u00e9ralement, comme on l&rsquo;a vu pr\u00e9c\u00e9demment).<\/p>\n<p>Une autre cause \u00e0 ce probl\u00e8me est le \u00ab\u00a0biais\u00a0\u00bb correspondant au fait que l&rsquo;on publie plus volontiers (ou plus facilement) un r\u00e9sultat significatif qu&rsquo;un r\u00e9sultat qui ne l&rsquo;est pas. Or l&rsquo;<strong>incapacit\u00e9 \u00e0 confirmer l&rsquo;existence d&rsquo;un effet, pourvu que la puissance statistique du test soit suffisante, devrait elle aussi \u00eatre consid\u00e9r\u00e9e comme un r\u00e9sultat<\/strong> (et non pas simplement \u00eatre mise sous le tapis comme impubliable ou impossible \u00e0 mettre en valeur)&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le pav\u00e9 dans la mare Il y a peu de temps je suis tomb\u00e9e sur cet article qui m&rsquo;a laiss\u00e9e songeuse: Ioannidis JPA (2005) Why Most Published Research Findings Are False. PLoS Med 2(8):e124. (https:\/\/doi.org\/10.1371\/journal.pmed.0020124\u000b) Comme son titre l&rsquo;indique, cet article s&rsquo;appuie sur des calculs de probabilit\u00e9s pour montrer que lorsqu&rsquo;un chercheur publie un r\u00e9sultat significatif, il y a en fait de fortes chances pour que ce r\u00e9sultat soit faux&#8230; <a href=\"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/torturer-ses-donnees-pour-les-faire-parler-cest-mal-oui-mais-pourquoi\/\">Read More<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5],"tags":[],"class_list":["post-703","post","type-post","status-publish","format-standard","hentry","category-tous-les-posts"],"_links":{"self":[{"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/posts\/703","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/comments?post=703"}],"version-history":[{"count":22,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/posts\/703\/revisions"}],"predecessor-version":[{"id":782,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/posts\/703\/revisions\/782"}],"wp:attachment":[{"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/media?parent=703"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/categories?post=703"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/perso.ens-lyon.fr\/lise.vaudor\/wp-json\/wp\/v2\/tags?post=703"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}