{"id":884,"date":"2020-02-24T16:12:21","date_gmt":"2020-02-24T15:12:21","guid":{"rendered":"http:\/\/www.dietetclic.com\/?p=884"},"modified":"2020-10-27T12:47:05","modified_gmt":"2020-10-27T11:47:05","slug":"prerequis-aux-etudes-scientifiques-outils-et-notions-statistiques","status":"publish","type":"post","link":"https:\/\/www.dietetclic.com\/?p=884","title":{"rendered":"Pr\u00e9requis aux \u00e9tudes scientifiques : outils et notions statistiques"},"content":{"rendered":"<p>Comme je l&rsquo;ai indiqu\u00e9 dans mon article pr\u00e9c\u00e9dent sur <a href=\"http:\/\/www.dietetclic.com\/?p=854\">les sources non acad\u00e9mique<\/a>, la fiabilit\u00e9 des t\u00e9moignages rapport\u00e9s et potentiellement d\u00e9form\u00e9s ou les m\u00e9canismes de m\u00e9moire d\u00e9forment r\u00e9guli\u00e8rement la r\u00e9alit\u00e9. Il est donc n\u00e9cessaire de garder un compte pr\u00e9cis pour rester objectif et ne pas choisir uniquement les exemples qui  nous int\u00e9ressent.<\/p>\n<p>C&rsquo;est pour cela que les \u00e9tudes publi\u00e9es reposent sur diff\u00e9rents outils statistiques.<\/p>\n<p>Les <strong>statistiques descriptives<\/strong>, qui servent \u00e0 structurer les donn\u00e9es r\u00e9colt\u00e9es pour dresser le premier panorama d&rsquo;une situation afin d&rsquo;essayer de comprendre un ph\u00e9nom\u00e8ne.<\/p>\n<p>Il est alors de coutume de proposer des repr\u00e9sentations chiffr\u00e9es et graphiques qui apportent des informations utilisables et de produire des <strong>probabilit\u00e9s <\/strong>d\u2019occurrence d&rsquo;un \u00e9v\u00e8nement.<\/p>\n<blockquote><p>La neutralit\u00e9 des statistiques \u00e9vite de ne se souvenir que des cas qui nous arrangent <\/p><\/blockquote>\n<p>Le choix de la population \u00e9tudi\u00e9e ne dois pas pr\u00e9senter de <em>biais de s\u00e9lection<\/em> (je ne choisis que les gens qui m&rsquo;arrangent) mais doivent \u00eatre le plus possible repr\u00e9sentatif de la population que l&rsquo;on souhaite \u00e9tudier. Certains sujets peuvent aussi \u00eatre affect\u00e9s par un <em>biais du survivant<\/em>, les t\u00e9moignages de personnes ayant surv\u00e9cu \u00e0 un situation mortelle prenant alors une proportion plus importante que dans la r\u00e9alit\u00e9 puisque ceux qui sont morts ne peuvent t\u00e9moigner. D&rsquo;autres probl\u00e8mes peuvent survenir, notamment par la m\u00e9thode de s\u00e9lection reposant sur le b\u00e9n\u00e9volat (seuls les gens int\u00e9ress\u00e9s par un sujet et ayant certains comportements participent).<\/p>\n<blockquote><p>La mani\u00e8re de s\u00e9lectionner un \u00e9chantillon sens\u00e9 \u00eatre repr\u00e9sentatif de la population que l&rsquo;on veut \u00e9tudier est donc cruciale.<\/p><\/blockquote>\n<p>La taille de l&rsquo;\u00e9chantillon interrog\u00e9 est aussi un probl\u00e8me. Il faut qu&rsquo;il soit assez important pour pouvoir \u00eatre repr\u00e9sentatif de la population \u00e9tudi\u00e9e. Si je n&rsquo;interroge que 4 personnes, je peux tomber sur 4 personnes \u00ab\u00a0hors norme\u00a0\u00bb mais si j&rsquo;en contacte 100 c&rsquo;est beaucoup moins probable et si c&rsquo;est 1000 c&rsquo;est encore plus rare. Plus la taille de l&rsquo;\u00e9chantillon est grande et plus son comportement sera proche de celui de la population \u00e9tudi\u00e9e. On parle de <strong>Loi des grands nombres<\/strong>.<\/p>\n<blockquote><p>\nPar exemple si vous jouez \u00e0 pile ou face, une pi\u00e8ce non truqu\u00e9e lanc\u00e9e sans manipulation a en th\u00e9orie une \u00ab\u00a0chance\u00a0\u00bb sur deux de tomber sur pile et la m\u00eame \u00ab\u00a0chance\u00a0\u00bb sur face. Si vous faites l&rsquo;exp\u00e9rience, il se peut que deux lancers de suite donnent face mais plus vous lancerez la pi\u00e8ce plus vous tendrez vers les 50% de pile et 50 de face.<\/p><\/blockquote>\n<p>La repr\u00e9sentation graphique de ces probabilit\u00e9s permet de produire une courbe de loi statistique. La plus connue est celle dite de la <strong>Loi Normale<\/strong> et le <strong>Th\u00e9or\u00e8me central limite<\/strong> postule qu&rsquo;une suite de variable tendra vers la loi normale. Mais elle n\u00e9cessite un \u00e9chantillon d&rsquo;au moins 30 personnes pour commencer \u00e0 pouvoir \u00eatre utilis\u00e9e. En dessous de cette taille, il est n\u00e9cessaire d&rsquo;utiliser des lois correctrices et la fiabilit\u00e9 est bien moindre. Pensez-y lorsque vous lisez des \u00e9tudes sur 15 ou 20 personnes&#8230; L\u00e0 encore plus la taille d&rsquo;\u00e9chantillon est importante et plus la fiabilit\u00e9 augmente.<\/p>\n<p>Pour plus de d\u00e9tails, la chaine YouTube \u00ab\u00a0La statistique expliqu\u00e9e \u00e0 mon chat\u00a0\u00bb propose une <a href=\"https:\/\/www.youtube.com\/watch?v=4dhm2QAA2x4\">vid\u00e9o <\/a>qui pourrait vous int\u00e9resser.<\/p>\n<p>Et la dispersion autour de la moyenne (nomm\u00e9e <em>esp\u00e9rance <\/em>puisque c&rsquo;est la valeur la plus probable), not\u00e9e en <em>\u00e9cart type<\/em>, permet d&rsquo;englober une plus ou moins grande partie de la distribution en tenant compte des variabilit\u00e9s. On consid\u00e8re qu&rsquo;un \u00e9cart type couvre 68% de la distribution, deux correspond \u00e0 95% et trois \u00e0 99,7%.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/LN-300x117.png\" alt=\"\" width=\"400\" height=\"156\" class=\"alignnone size-medium wp-image-899\" srcset=\"https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/LN-300x117.png 300w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/LN.png 400w\" sizes=\"(max-width: 400px) 100vw, 400px\" \/><\/p>\n<p>Grace \u00e0 ces \u00e9carts types il est possible, lorsque l&rsquo;on confronte une donn\u00e9e \u00e0 la distribution de loi normale, de dire si cette donn\u00e9e semble fiable ou pas (\u00e0 68%, 95 ou 99.7%). C&rsquo;est ainsi qu&rsquo;il est possible de poser des hypoth\u00e8ses et de les tester. Et gardez \u00e0 l&rsquo;esprit que m\u00eame une \u00e9tude bien men\u00e9e et fiable \u00e0 99,7% peut produire un r\u00e9sultat faux en \u00e9tant dans les 0.3%&#8230;<\/p>\n<p>On commence par postuler une hypoth\u00e8se (par exemple que le ph\u00e9nom\u00e8ne A entraine le r\u00e9sultat B). Puis le r\u00e9sultat de l&rsquo;exp\u00e9rience est mis en lien statistiquement avec le r\u00e9sultat th\u00e9orique. Si le r\u00e9sultat obtenu n&rsquo;est pas coh\u00e9rent, on rejette l&rsquo;hypoth\u00e8se. S&rsquo;il n&rsquo;est pas incoh\u00e9rent, on ne rejette pas l&rsquo;hypoth\u00e8se.<\/p>\n<blockquote><p>\nJ&rsquo;insiste sur le fait de ne pas rejeter plut\u00f4t que de dire \u00ab\u00a0on valide l&rsquo;hypoth\u00e8se\u00a0\u00bb car il serait possible de passer \u00e0 cot\u00e9 d&rsquo;une autre explication (par exemple C -> B) et le r\u00e9sultat serait donc coh\u00e9rent avec notre hypoth\u00e8se bien que l&rsquo;hypoth\u00e8se soit fausse&#8230; Jusqu&rsquo;\u00e0 preuve du contraire (donc dans un temporaire qui peut \u00eatre d\u00e9finitif), cette th\u00e9orie sera utilisable.<\/p><\/blockquote>\n<p>Cette notion de fiabilit\u00e9 dans un intervalle de valeurs apparait sous le nom de significativit\u00e9 (significatif statistiquement), not\u00e9 P. Il est donc important de regarder cette valeur dans une \u00e9tude. On consid\u00e8re qu&rsquo;un p <5% est significatif, s'il est sup\u00e9rieur il faudra augmenter la taille de l'\u00e9chantillon car la diff\u00e9rence observ\u00e9e ne sera peut-\u00eatre due qu'au hasard.\n\nCette <a href=\"https:\/\/www.youtube.com\/watch?v=zESh2yrL5kY\">vid\u00e9o<\/a> de l&rsquo;Inserm de moins de 4 minutes qui vous l&rsquo;expliquera plus en d\u00e9tail. <\/p>\n<p>C&rsquo;est ici qu&rsquo;entrent en jeu les <em>biais de confusion<\/em>. Quelque chose dans l&rsquo;\u00e9tude n&rsquo;a pas \u00e9t\u00e9 pris en compte et pourtant les r\u00e9sultat vont dans le sens qui nous arrange. Je vais prendre un exemple qui illustre cela tr\u00e8s bien : une \u00e9tude regardait la relation entre nombre de cigognes et nombres de b\u00e9b\u00e9s&#8230; et effectivement l\u00e0 o\u00f9 il y avait plus de cigognes, il y avait plus de b\u00e9b\u00e9s. Donc les cigognes apportent les b\u00e9b\u00e9s ? La confusion venait d&rsquo;un facteur simple. Les cigognes report\u00e9es avaient leur nid sur les chemin\u00e9es. Plus une ville est grande plus il y a de chemin\u00e9es, donc de cigognes. Mais aussi plus une ville est grande et plus il y a de b\u00e9b\u00e9s si on consid\u00e8re le taux de naissance identique dans les diff\u00e9rentes tailles de ville&#8230; le d\u00e9terminant n&rsquo;\u00e9tait donc pas le nombre de cigogne mais la taille de la ville.<\/p>\n<p>Une autre notion importante et m\u00eame fondamentale est la diff\u00e9rence entre la <strong>corr\u00e9lation <\/strong>et la <strong>causalit\u00e9<\/strong>. La corr\u00e9lation est un lien observ\u00e9 entre deux s\u00e9ries de donn\u00e9es. Mais cela n&rsquo;indique pas si c&rsquo;est le fruit du hasard ou si un ph\u00e9nom\u00e8ne lie bien les deux s\u00e9ries&#8230;<\/p>\n<p>Le site <a href=\"http:\/\/tylervigen.com\/spurious-correlations\">spurious correlations<\/a> s&rsquo;est fait une sp\u00e9cialit\u00e9 de d\u00e9noncer ces liens qu&rsquo;il est tr\u00e8s tentant de faire entre&#8230;<\/p>\n<p>Les noyades par chute dans une piscine et le nombre de films avec Nicolas Cage<br \/>\n<img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-300x118.jpeg\" alt=\"\" width=\"600\" height=\"236\" class=\"alignnone size-medium wp-image-903\" srcset=\"https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-300x118.jpeg 300w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-1024x404.jpeg 1024w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-768x303.jpeg 768w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-1536x606.jpeg 1536w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart-2048x807.jpeg 2048w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Ou mieux encore, la consommation de fromage et les morts par \u00e9touffement dans ses draps qui est encore plus \u00ab\u00a0parlante\u00a0\u00bb.<br \/>\n<img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-300x118.jpeg\" alt=\"\" width=\"600\" height=\"236\" class=\"alignnone size-medium wp-image-904\" srcset=\"https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-300x118.jpeg 300w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-1024x404.jpeg 1024w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-768x303.jpeg 768w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-1536x606.jpeg 1536w, https:\/\/www.dietetclic.com\/wp-content\/uploads\/2020\/02\/chart1-2048x807.jpeg 2048w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/p>\n<p>Comme ces deux infographies issues du <a href=\"http:\/\/tylervigen.com\/spurious-correlations\">site<\/a> dont je vous ai parl\u00e9 le montrent, un lien peut \u00eatre le fruit du hasard. Et c&rsquo;est un r\u00e9el probl\u00e8me des \u00e9tudes dites observationnelles qui ont tendance \u00e0 tirer des conclusions rapides au lieu de tester des hypoth\u00e8ses.<\/p>\n<p>M\u00eame dans le cas o\u00f9 un lien est fermement \u00e9tabli, il ne faut pas non plus anticiper le sens de cette relation avec un <em>biais d&rsquo;ant\u00e9riorit\u00e9<\/em>. Dit autrement, ce n&rsquo;est pas parce que cela s&rsquo;est pass\u00e9 avant que c&rsquo;est la cause. Cette mani\u00e8re de pens\u00e9e est anti-intuitive et l&rsquo;ant\u00e9riorit\u00e9 n&rsquo;est en rien la preuve de la cause.<\/p>\n<p>Un exemple permettra de mieux comprendre. Imaginez que vous ne connaissiez pas le syst\u00e8me de transports en commun. Qu&rsquo;observe-t-on ? Des gens arrivent \u00e0 un arr\u00eat de bus, puis le bus vient. Est-ce que ce sont les gens qui font venir le bus ou le bus qui fait venir les gens ? Bien \u00e9videmment les gens viennent parce qu&rsquo;ils savent qu&rsquo;ils pourront prendre le bus et arrivent en avance pour \u00eatre s\u00fbrs de ne pas le rater&#8230; Il faut se m\u00e9fier des id\u00e9es re\u00e7ues et des pens\u00e9es toutes faites.<\/p>\n<blockquote><p>Deux choses : <\/p>\n<ul>\n<li>Ne confondez pas corr\u00e9lation et causalit\u00e9 ;<\/li>\n<li>Ne tirez pas de conclusion h\u00e2tive sur le sens de la causalit\u00e9 si elle existe.<\/li>\n<\/ul>\n<\/blockquote>\n<p>Enfin, l&rsquo;<strong>\u00e9conom\u00e9trie<\/strong> permet de cr\u00e9er des mod\u00e8les plus complexes d&rsquo;explication d&rsquo;un ph\u00e9nom\u00e8ne pouvant int\u00e9grer diff\u00e9rents facteurs et permet de tester les hypoth\u00e8ses ou l&rsquo;implication de ces facteurs dans un ph\u00e9nom\u00e8nes.<\/p>\n<p>Donc non, toutes les \u00e9tudes ne se valent pas en terme de qualit\u00e9 de r\u00e9colte des donn\u00e9es, de respect des outils statistiques et des conclusions apport\u00e9es mais cela fera l&rsquo;objet d&rsquo;un autre article.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Comme je l&rsquo;ai indiqu\u00e9 dans mon article pr\u00e9c\u00e9dent sur les sources non acad\u00e9mique, la fiabilit\u00e9 des t\u00e9moignages rapport\u00e9s et potentiellement d\u00e9form\u00e9s ou les m\u00e9canismes de m\u00e9moire d\u00e9forment r\u00e9guli\u00e8rement la r\u00e9alit\u00e9. Il est donc n\u00e9cessaire de garder un compte pr\u00e9cis pour &hellip; <a href=\"https:\/\/www.dietetclic.com\/?p=884\">Continuer la lecture <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,9],"tags":[],"class_list":["post-884","post","type-post","status-publish","format-standard","hentry","category-articles","category-methode-scientifique"],"_links":{"self":[{"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/posts\/884"}],"collection":[{"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=884"}],"version-history":[{"count":38,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/posts\/884\/revisions"}],"predecessor-version":[{"id":967,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=\/wp\/v2\/posts\/884\/revisions\/967"}],"wp:attachment":[{"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=884"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=884"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.dietetclic.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=884"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}