If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Types d'études statistiques

Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

on va supposer que tu as une sensation tu as l'impression que la consommation de sucre la consommation de sucre peut provoquer des maladies cardiaques maladies cardiaques voilà ça c'est une impression que tu as et tu voudrais en pousser un peu plus lent quête pour en savoir un peu plus et donc tu vas te demander quel est le quel type d'études statistiques tu peux mettre en oeuvre pour essayer de mieux comprendre la consommation de sucre en général et le lien qu'elle peut avoir avec les maladies cardiaques alors tu pourrais dans un premier temps essayé de mieux comprendre cette consommation de sucre dans la population dans son ensemble alors malheureusement évidemment c'est pas possible d'avoir une idée exacte très précise de la consommation de sucre de combien consomme de sucre chaque personne n'en dans une population la plupart du temps c'est pas possible par exemple sur suppose qu'on s'occupe de la population de l'europe ça fait 750 millions d'habitants environ on va passer on peut pas aller interroger chaque chaque membre de cette population chaque individu européen ça serait beaucoup trop beaucoup trop long donc c'est impossible donc ce qu'on va faire en général c'est prélever prendre des échantillons un échantillon ou plusieurs dans cette population alors bon pour faire ça en fait on a on a la population ici on va la dessiner ça c'est la population dans son ensemble est en fait ce qu'on va faire c'est prélever des individus de cette population c'est ce qu'on appelle faire un échantillon donc on prélève un certain nombre d'individus voilà l'agent prélève quelques-uns alors évidemment il faut les prélevés au hasard hein c'est à dire que il faut par exemple à aller se met devant une pâtisserie est demandé à tous les gens qui sortent de cette pâtisserie parce que ils vont peut-être avoir une consommation de ce parti particulière de sucre faut pas non plus aller se mettre devant un club de vie mais interrogé tous les gens qui sortent si on faisait ça en introduirait un biais d'une certaine manière on truque créé un peu les données puisque on n'aurait pas du tout une panoplie échantillon représentatif de la population ce qu'il faut faire c'est prélever des personnes dans différents endroits pour que l'endroit où on l'a où on prélève ces personnes ne soient pas d'une certaine manière n'affecte pas la consommation de sucre alors ces personnes vont te donner une idée de leur consommation elles vont expliquer combien le consomment de jeu de sucre en un jour donné par exemple un jour tirer au hasard et ça ça va te donner une indication sur le paramètre consommation de sucre dans l'échantillon et du coup dans la population aussi alors bon évidemment le plus on a des champions le mieux c'est le plus grand sont les échantillons le mieux c'est on reviendra en détail d'ailleurs sur sur la manière d'avoir un estimateur un meilleur estimateur delà du paramètre qu'on cherche à étudier dans la population donc avec plus d'échantillons de plus grande taille ainsi de suite on reviendra là dessus dans le détail en tout cas on fait ça pour pour avoir une idée une estimation de la consommation moyenne de sucre chez les européens dans un jour quelconque donc cette manière de faire cette manière de prélever dst des échantillons dans la population pour essayer d'avoir une idée à partir de cet échantillon de la consommation de sucre dans la population totale donc avoir une idée de la réelle consommation de la population ça s'appelle un échantillonnage s'appelle un échantillonnage et donc c'est l'étude d'un ou plusieurs échantillons prélevés aléatoirement dans la population et en déterminant par exemple par une enquête ou d'autres moyens le paramètre dans l'échantillon on arrive on fait ça pour avoir une estimation du paramètre dans la population totale donc ici par exemple on va interroger les personnes sur leur consommation de sucre quotidienne un jour donné par exemple on va leur dire ce matin combien avez vous de consommer de sucre et puis on va pouvoir déterminer la consommation de sucre moyenne de ce jour dans cet échantillon et on va s'en servir pour estimer la pole la consommation de sucre dans la population totale ce jour là alors ça c'est déjà pas mal ça va nous donner une idée de la consommation quotidienne des européens de en sucre mais nous ce qu'on voulait c'était pas seulement ça c'était surtout essayer de voir l'impact de la consommation de sucre sur les maladies cardiaques alors pour ça en fait qu'est ce que tu vas faire c'est conduire une enquête auprès d'eux par exemple de gens de 60 ans alors tu va conduire cette enquête tu ça veut dire que tu vas aller interroger des personnes de 60 ans ou plus disons de 60 ans évidemment tu vas pas aller interroger ces personnes dans un hôpital je sais tu es malade cardiaque par exemple tu vas pas non plus allé interroger ces personnes devant un club de gym tu vas aller interroger des personnes que tu auras choisis au hasard dans des endroits différentes pour éviter que la condition des gens que tu interroges affecte l'objet de ton et tu donc le lien entre la consommation de sucre et les maladies cardiaques donc tu vas par exemple prélever trois cents personnes de 60 ans aléatoirement un donc an mal an dans des endroits très différents en essayant d'avoir un échantillon représentatif on verra précisément plus tard ce que ça veut dire un saint mais voilà l'idée c'est que tu as tu as donc un échantillon de personnes de 60 ans ils sont 300 et donc ses 300 personnes qui va leur demander d'une part qu'elle a été lorsque la console leur consommation de sucre sur les trente dernières années par exemple mais aussi qu'elle est quelles sont leurs conditions on de coeur quelles sont leurs conditions cardiaque comme en vain fonctionne leur coeur est ce que tu vas obtenir c'est quelque chose comme ça un graphique alors tu peux par exemple placer ici la consommation de sucre la consommation de sucre en abscisses et puis en ordonner tu vas pouvoir placer à disons le risque de maladie cardiaque comme ça risque de maladie cardiaque donc par exemple risque on va dire à 60 ans puisque sept des personnes de 60 ans voilà et du coup ce que tu vas obtenir c'est une série de points on appelle ça un nuage de points dont plusieurs points 1 point par personnes interrogées comme ça alors par exemple ici on va mettre ce quelqu'un qui accueille ce qu'est une consommation de sucre élevé donc disons de 200 grammes par jour et du coup il un risque élevé de maladies cardiaques maintenant on peut aussi avoir une autre personne qui a consommé beaucoup beaucoup de sucre de 100 g toujours par jour mais qui pour autant un risque de maladie cardiaque très faible voilà donc puis après on peut avoir d'autres a évidemment en âge on a d'autres cas de figure 1 je vais leur présenter comme ça voilà bon je vais évidemment pas faire les 300 points mais voilà on obtient un nuage de points alors ce qui est important là dedans c'est quand on regarde ce graphique comme ça de loin on a l'impression qu'ils aient une tendance qui se dégage en impression qu effectivement si on consomme plus de sucre on va avoir plus de risques et si on consomme moins de sucre on en aura - en fait on a l'impression qu'il ya une sorte de corrélation entre les deux paramètres qui sont ici et ça se traduit par ça parce que l'on a l'impression qu'on peut tracer une ligne qui va passer par proches qui va être assez proche de tous les points donc par exemple peut essayer de la faire comme ça voilà cette ligne trace une ligne à peu près ici on a l'impression que cette ligne donne une expression de la tendance qui lie la consommation de sucre au risque de maladie cardiaque à 60 ans voilà on a l'impression que plus on consomme de sucre plus on va avoir de risque de maladie cardiaque moins on consomme de sucre moins on aura de risques de maladies cardiaques voilà en d'autres mots on a l'impression qu'il ya une corrélation entre la consommation de sucre et le risque de maladie cardiaque à 60 ans donc ça c'est vraiment une impression qu on a en regardant la forme de nuages de points qu'on a tracé alors voilà quand on voit ça on a on a très envie de sauter à la conclusion d'ailleurs c'est très souvent ce qui se passe dans les dents les dans les sciences médicales on a envie de sauter à la conclusion est de dire d'aubin clairement la consommation de sucre entraîne une maladie risque de maladie cardiaque plus élevé mais en fait ça c'est cette conclusion c'est assez dangereux parce que ce qu'on a fait ici ne nous dit pas ça ça pourrait être beaucoup d'autres choses ça pourrait pourrait par exemple se dire mon bain parmi les gens qui sont en mauvaise santé cardiaque en mauvaise condition cardiaque peut-être que c'est c'est peut-être que ces gens là finalement consomment plus de sucre parce qu'ils en ont besoin pour d'autres raisons qui peut être que les maladies cardiaques entraîne une en ville plus forts besoins plus fort en sucre donc c'est ce qui fait que on aurait ce bien entre le risque de maladie cardiaque et lesieu la consommation de sucre ça pourrait être ça ça pourrait être aussi d'autre chose est en tout cas ce qui est sûr c'est qu'on ne sait pas dans quel ordre dans quel sens prendre cette corrélation est ce que c'est le risque de maladie cardiaque qui entraîne une plus forte consommation de sucre ou l'averse ou bien est-ce que c'est pas quelque chose de complètement différent qui met en oeuvre cette corrélation par exemple ça peut être la consommation de graisses de gracq et qui entraîne plus de maladies cardiaques et puis peut-être que cette consommation de gras entraide elle aussi plus forte consommation de sucre ou bien un verre sans fin on ne sait pas et du coup c'est quand même assez hasardeux de tirer des conclusions sur le lien de causalité entre la consommation de sucre et le risque de maladie cardiaque donc tout ce qu'on peut dire c'est qu'il ya une corrélation entre les deux paramètres qu'on étudie et dans ce cas là ce qu'on a ce type d'étude ça s'appelle une étude d'observation on a observé une corrélation mais on ne peut pas vraiment dire qu'est ce qui cause quoi donc on peut pas vraiment conclure sur une causalité d'un paramètre sur l'autre donc je vais l'écrire ici ça c'est une étude d'observation d'observation voilà ou alors tout ça c'est bien joli mais tu vas me dire alors comment est-ce qu'on peut prouver vous voilà en tout cas avoir une idée plus précise du lien de causalité entre la consommation de sucre et les mâles et le risque de maladie cardiaque alors pour faire sa ba en fait ce qu'on fait en général c'est une étude expérimentale une étude expérimentale se dire c'est une expérience mais on va la faire selon certaines règles qui sont assez logiques on va prendre deux groupes de personnes de groupes de personnes donc je vais faire comme ça un premier groupe sur lequel va apporter l'expérience donc ça c'est le groupe expérimental et puis un deuxième groupe qu'on va appeler le groupe témoin c'est le groupe témoin on dit aussi le groupe de contrôle un an fait bon alors évidemment comme toujours quand on prélève un certain échantillons dans une population on le fait de manière complètement aléatoire c'est à dire que là on va pas se mettre tous les toutes les personnes en bonne santé ici toutes les personnes en mauvaise santé là on va pas mettre non plus ici que des cadres qui ont une vie de bureau et là que des ouvriers sur les chantiers voilà on va pas prendre des gens qui habitent un endroit et des gens qui habitent et un autre endroit on va vraiment essayer de faire deux groupes aléatoire de groupe de deux personnes prélevées au hasard donc voilà c'est ça hein on prend des gens on les met là là dans un groupe dans l'autre groupe est en fait ici ce qu'on va faire c'est prendre des gens de 30 ans par exemple et puis les répartir dans ces deux groupes donc on va disons faire un groupe de expérimental 200 personnes un groupe témoin 200 personnes aussi en ayant soin de prélever ces personnes de manière aléatoire alors ensuite ce qu'on fait sur ces deux paramètres sur ces deux groupes de personnes dans le premier en fait on va faire changer un paramètre est dans le deuxième on fera rien changé c'est pour ça qu'on appelle ça le groupe témoin c'est pour pouvoir comparer l'influencent d'un seul paramètre alors ici ce qu'on va faire bon effectivement là je donne juste un exemple c'est pas une expérience cette expérience qu'on va décrire ici ne serait pas beaucoup de gens là auraient tendance à la trouver et éthiquement peu correct d'ailleurs je serais le premier à le penser aussi parce qu'en fait ce qu'on va faire ici c'est prendre des gens de 30 ans dans les deux groupes mais ici on va les faire consommer un peu plus de sucre tout simplement au delà de leur consommation normale lacroix leur consommation habituelle de sucre on va leur dire bon bah tu vas en plus prendre boire tous les soirs une boisson au sucre et donc c'est ça en fait en va en quelque sorte forcé leur consommation de sucre force et la consommation de sucre et puis le groupe témoin là le groupe de contrôle ça c'est des personnes qu'on va laisser avoir leur consommation normale de sucre voile alors c'est ce qu'on va faire on va prolonger cette expérience pendant 30 ans disons 30 ans donc c'est ça qui est pas trés éthiquement correct parce que là ce qu'on fait c'est forcer des gens à consommer quelque chose qui a priori n'est pas très bon pour la santé donc effectivement c'est pas très bien de faire ça mais bon là on fait juste un exemple et donc on étudie la consommation de sucre dans ces deux groupes de trentenaires pendant trente ans donc une fois qu'ils ont 60 ans on va aller regarder quelles sont les conditions cardiaque de des personnes de ce groupe là ce qu'il ya eu plus de maladies cardiaques comment est ce qu'ils sont aujourd'hui dans quelle condition cardiaque ils sont aujourd'hui voilà et puis on va se demander si statistiquement on peut penser que les différences la différence entre les deux groupes est purement dû au hasard ou pas par exemple ici si on suppose que la dans ce groupe dans le groupe expérimental et à un petit peu plus de deux maladies cardiaques un peu plus de risque de maladie cardiaque que dans le groupe témoin ça ferait déjà une bonne expérience mais ça ne suffirait pas vraiment à conclure que la consommation de sucre entraîne des maladies cardiaques parce que ça pourrait très bien être le hasard qui fait que dans ce groupe s'il ya eu plus de maladies cardiaques s'est pas on ne peut pas forcément en déduire le lien de cause à effet par contre ça serait complètement différent nos conclusions pourraient être complètement différent si par exemple danseuse dans ce groupe là on observait qu'après trente ans il ya dix fois plus de maladies cardiaques ou dix fois plus de facteurs de riz ce que de maladies cardiaques que dans ce groupe si par exemple sur les 100 personnes ici il y en a dix fois plus que il ya dix fois plus de personnes en mauvaise condition cardiaque que parmi les 100 personnes de ce groupe là et bien là on pourrait se dire que c'est statistiquement pas possible que ce ce que cette différence si si importante soit dû au hasard et donc dans ce cas là on va pouvoir se dire bon bah oui il y a il y a quand même de bonnes raisons de penser que la consommation de sucre entraîne une augmentation des risques de maladies cardiaques et ça on pourrait le conclure parce que du coup la différence serait trop importante pour qu'on puisse la tribu au hasard et comme le seul paramètre qui a changé entre les que le groupe expérimental et le groupe témoin c'est la consommation de sucre on peut faire ce lien entre la consommation de sucre et l'augmentation des risques de maladies cardiaques voilà enfin on va on creusera dans d'autres vidéos chacun de ces types d'études statistiques mais là ce que je voulais faire c'était de montrer plusieurs situations dans lesquelles on va mener des études statistiques justement alors l'échantillonnage on le fait quand on doit quand on essaie d'estimer la valeur d'un paramètre dans une population alors on sélectionne au hasard on prélève au hasard un échantillon et puis on mesure cette valeur dans cet échantillon et on essaie de l'extra d'extrapoler ça à la population dans son ensemble peuvent cette situation là on observe nos deux paramètres c'était la consommation de sucre et le risque de maladie cardiaque à 60 ans et on fait notre étude d'observation et là on se dit là il ya une corrélation entre ces deux paramètres ça vaut le coup d'aller faire une étude expérimentale par exemple et ses textes cette étude expérimentale ça sera la seule manière d'aller d'aller vérifier s'il ya effectivement un lien de cause à effet entre les deux entre les deux paramètres de l'étude