If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Distribution d'échantillonnage de la moyenne d'échantillon - 2

Développement sur le théorème central limite et sur la distribution d'échantillonnage de la moyenne d'échantillon. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors maintenant qu'on a une connaissance assez correcte de la distribution d'échantillonnage des moyennes alors ce qu'on va explorer un petit peu plus dans cette vidéo c'est la manière dont varie la distribution quand on fait varier la taille de l'échantillon alors on va d'abord commencer par revoir un petit peu ce qu'on avait fait dans l'est dans les vidéos précédentes alors ce qu'on avait fait c'est qu'on était parti d'une distribution absolument quelconque vraiment n'importe laquelle bon pour simplifier on va prendre une distribution discrète avec une variable discrète parce que sinon ça serait un peu plus compliqué à visualiser mais là là ce qu'on va faire donc c'est décidé l'histogramme d'une distribution absolument quelconque donc par exemple on peut avoir cette valeur-là ici c'est la valeur 1 10 ans on peut avoir une valeur 2 avec un petit peu moins de chance d'avoir cette valeur 2 on va dire au contraire qu' il ya une probabilité assez élevé d'avoir la valeur 3 une probabilité nul d'avoir la valeur 4 donc là ça serait un bâton de taille nul et puis la valeur 5 elle est aussi l bison assez probable aussi voilà ça c'est la valeur 5 et puis la valeur 6 les probables aussi mais moins voilà je fais vraiment une distribution complètement au hasard avec en fait ce que je veux c'est qu'elle ressemble par une loi normale alors on va dire que il ya absolument aucune possibilité d'avoir un set ni 1,8 donc probabilité nul d'avoir à 7 ou 8 et puis le neuf par contre est une valeur qu'on a assez fréquemment voilà donc ça c'est vraiment une distribution quelconque je les fait comme ça au hasard est ce qu'on avait fait dans la vidéo précédente c'est qu'on avait prélevés au hasard des échantillons dans cette distribution et on avait choisi des échantillons de taille 4 1 donc qu'est-ce que ça veut dire prendre un échantillon de taille car ça veut dire qu'on va choisir au hasard quatre valeurs dans cette distribution donc il y aura beaucoup de chance d'avoir un oeuf beaucoup de chance d'avoir cinq au conte pourra pas avoir 2,7 ou 2,8 ni de 4 puisqu'il ya une probabilité nul d'avoir un 4 7 ou 8 donc voilà en fait on prélève au hasard 4,4 valeur de ces dans cette distribution alors je vais le faire là on peut par exemple avoir peut dire que m'a prélevé d'abord un échantillon de taille 4 donc là je vais mettre ça c'est la taille de l'échantillon n égale 4 donc on va dire que par exemple la première valeur qu'on a choisi c'est un oeuf effectivement il ya beaucoup de chance d'avoir un oeuf ensuite on a eu 1 5 on a près de vingt cinq bons là aussi il ya beaucoup de chance d'avoir un 5 ensuite on a eu un oeuf encore une fois et puis la dernière valeur ça a été un donc pas beaucoup de chance d'avoir un 1 mais c'est quand même possible donc là c'est ce qu'on a eu alors je combats fait ensuite à partir de cet échantillon c'est qu'on va calculer sa moyenne alors la moyenne on l'a appelé x un bar et on l'a calculé tout simplement en faisant la somme des valeurs et en divisant par le nombre de valeurs c'est-à-dire 4 donc ici ça ferait 9 + 5 14 +9 23 + 1 24 donc on aurait ici 24 sur quatre comme moyenne 24 sur quatre fait 24 / 4 ça fait 6 voilà donc la moyenne de cet échantillon ici de taille 4 7 6 alors ensuite ce qu'on a fait c'est placer cette moyenne sur un graphique donc là je vais retracer un axe et je vais tracé cette moyenne d'abord qui correspond à cet échantillon laddh donc je vais faire tout simplement un point ici pour la valeur 6 ça c'est la valeur 6 donc j'ai un point qui représente la moyenne x un bar de cette première échantillons alors on peut continuer à faire ça on continue à faire ça et on va avoir d'autres échantillons avec d'autres moyenne qu'on va continuer à placer là dessus donc tu peux avoir par exemple un deuxième échantillon qui a aussi moyenne 6 c'est possible peut avoir aussi un autre échantillon que qui va avoir une moyenne que je vais placer ici donc c'est peut-être quatre ou cinq et puis je peux continuer peut avoir encore un autre échantillon disons de moyenne par exemple cette île vite ici voilà et donc si je continue à faire ça donc c'est toujours des échantillons prélevés de taille 4 prélevés dans ma distribution initiale alors ce qu'on avait vu dans les vidéos précédentes c'est que si on continue à faire ça on allait avoir en fait on on continue à placer sur ce sur un graphique les moyennes eh bien on va avoir quelque chose qui va s'approcher d'une loi normale donc ça va être quelque chose qui va avoir une forme en cloche comme ça voilà bon évidemment ça sera pas parfaitement une loi normale parce que déjà une grosse différence c'est que on peut pas avoir ici de valeur inférieure à 1 la moyenne quand on prélève un échantillon dans cette distribution les valeurs possibles c'est entre 1 et 9 donc une moyenne nul par exemple c'est pas possible donc ici on n'aurait aucune valeur inférieure à 1 en fait même pas même pas à 0 mais à 1 et aucune valeur supérieure à 9 1 donc effectivement on n'aurait pas dans le cas d'une loi normale on aurait des queues de distribution qui ce qui ne se terminent pas infini à droite et à gauche ici ce ne sera pas le cas puisque ça va s'arrêter enfin on va avoir une valeur maximale et une valeur minimale alors effectivement ça c'est une grosse différence par rapport à la normale mais quand on regarde la partie centrale la partie qui est ici et bien en fait on va s'approcher d'une distribution normale de la forme d'une distribution normale alors ce que je voudrais approfondir dans cette vidéo c'est quelque chose qu'on a dont on a déjà parlé avant c'est qu'est ce qui se passe quand la taille de l'échantillon varie alors ici on a pris un échantillon de taille n égale 4 1 thaïs et 4 donc ici on va se demander qu'est ce qui se passe quand n varient qu'est ce qui se passe quand elle varie alors ici on a pris des échantillons de taille 4 on aurait pu prendre des échantillons de taille dit c'est à dire ici on aurait pu prélever 10 valeurs dans cette distribution ça nous aurait donné un échantillon de taille 10 on aurait pu calculer sa moyenne et le placer la placer sur le graphique recommencèrent sélectionné une dizaine de hamdi valeur exactement dans cette distribution en calculer la moyenne et la placer correctement comme on a fait ici avec une taille d'échantillon de 4 voilà on l'a fait dans une précédente vidéo en utilisant une simulation qui est fait sur un site internet on va la reprendre d'ailleurs cette simulation voilà on avait utilisé des taille d'échantillon de 5,2 25 qu'on peut le faire avec 10 enfin voilà alors avant de reprendre la simulation qu'on a vu la dernière fois je voudrais insister un petit peu regarder un petit peu ce qui se passe avec des petits échantillons donc le cas le plus petit c'est quand elle est égale à monter un petit peu ça donc je vais faire ça je vais prendre une taille d sion n égale alors qu'est ce que ça veut dire ça veut dire que mon échantillon ça sera juste une valeur de la distribution donc je vais prélever une valeur de la distribution je vais calculer la moyenne ce sera cette valeur elle mène évidemment puisqu'il ya qu une seule valeur et ensuite je vais place et donc du coup cette valeur alors je vais prince et un graphique donc je sais mon max voilà ensuite ce que je fais c'est prélever finalement une valeur là dedans alors quand je prélève une valeur là dedans j'ai vu un certain nombre de chanceux il est possible que j'aie d un an j'ai pas mal de chance d'avoir des seins quand même donc les uns je vais les mettre ici ça c'est la valeur 1 donc il est possible que j'aie d un jeu peut avoir aussi j'ai quelques chances d'avoir des deux mais un petit peu moins donc je peux avoir un certain nombre de deux ici par exemple et puis j'ai beaucoup de chance d'avoir des trois alors je vais avoir là je vais mettre les trois je peux avoir beaucoup de trois comme ça qui est possible que j'en ai vraiment beaucoup alors je ne sais pas combien d c'est fait mais je fais un grand nombre d'essai alors par contre j'ai aucune chance d'avoir un 4 puisque la probabilité d'avoir un 4 nuls ici un donc j'ai aucune chance d'avoir un cadre donc dans ma distribution d'échantillonnage de la moyenne dans ce cas là pour n égale 1 il y aura aucune aucune valeur 4 après je peux avoir beaucoup de 5,1 la valeur 5 est très probable donc je peux avoir a effectivement beaucoup de 5 comme ça voilà je peux avoir du possible que j'aie des 6 1 donc je peux avoir un certain nombre de six comme ça aussi et puis je aucune chance d'avoir un ami un set ni 1,8 par contre je peux avoir beaucoup de neuf donc la c9 c'est une valeur très probable donc je vais avoir quelque chose qui va ressembler à ça donc voilà ça c'est une représentation possible delà de la distribution des chèques d'échantillonnage des moyennes dans le cas où ce n est égal à 1 est effectivement là on voit bien que c'est absolument pas proche d'une loi normale puisque il ya des valeurs qui sont même pas atteinte il ya fait pas du tout symétrique il ya plusieurs modes enfin on est vraiment très très loin d'une loi normale donc ça rejoint ce qu'on avait vu dans les vidéos dans la vidéo précédente c'est que on va s'approcher d'une loi normale quand la taille d'échantillon va grandir donc là ce qu'il faut comprendre c'est que ça dépend pas du nombre des ses confins du nombre d'échantillons comprends ça dépend de la taille de l'échantillon un donc le ce théorème de la limite centre et il dit que quand n s'approche de l'infini camp n s'approche de l'infini et bien la distribution des 100 sites d'échantillonnage des moyennes devient proche s'approche de plus en plus d'une distribution normale voilà effectivement là on voit bien qu'avec n égale 1 ça marche pas c'est pas suffisant on pourrait voir le cas n égale de aussi pour un égal 2 bat je peux je vais faire moi je sais pas exactement à quoi ça va ressembler mais je peux faire une idée ça va pas être proche d'une noix normal parce que déjà il ya des valeurs qu'on va pas pouvoir avoir par exemple ici la valeur 6 et demi on peut pas la voir puisque six et demi il faudrait avoir par exemple 4 4 et 4 et 9 c'est pas possible ou alors 5 et 8 on peut pas l'avoir non plus ou alors si ces sept on peut pas avoir non plus donc c'est la valeur 6 et demi on peut pas la voir donc s'il pour me faire une idée je peux avoir je vais je vais faire des points mais bon je le fais au hasard je peux avoir des seins je peux avoir des deux des deux et demi d3d monde étroit pas mal de 3 des trois et demi d4 d5 mais ce qui est sûr c'est qu'il va y avoir un trou ici pour six et demi ainsi la c6 et demi en tout cas cette valeur je suis sûr qu'on peut pas la voir et puis ensuite on peut avoir des sept des huit des neuf donc on va voir peut-être quelque chose comme ça ce qui est sûr c'est qu'il y aura un trou ici à six et demi donc ça sera pas une loi normale donc voilà ici on va avoir peut-être une distribution un petit peu propre plus proche que dans le cas où n est égal à 1 mais en tout cas ça sera pas du tout une loi normale puisque à ce trou en tout cas à six et demi donc voilà donc c'est important de comprendre que le théorème de la limite centre et il dit que quand elle tend vers plus l'infini donc quand on prend des échantillons de taille très grande et bien on va avoir une distribution normale alors effectivement dans la pratique bon n égale 1-1 et negad 2 ça suffit pas mais on n'a pas besoin de prendre des échantillons de taille très très élevé parce que la distribution des d'échantillonnage des moyennes convergent très rapidement vers une distribution normale et donc dans la pratique n'égale 10 ou bien n égale 20-16 déjà cessé c'est suffisant pour avoir quelque chose de vraiment très proche d'une distribution normale donc quand on fait tendre la taille des chutes d'échantillons vert de l'échantillon ouvert plus fini on obtient une distribution normale alors ça fait ça veut dire quoi ça veut dire que on va avoir une distribution parfaitement normal donc je vais la dessiner ici une distribution parfaitement normal donc une courbe en cloche comme ça alors ça il faut le voir un peu comme là c'est la population la population entière qu'en général on connaît pas parce que dedans dans le cas d'un programme informatique ou bien dans ce que ce qu'on vient de faire on part d'une distribution qu'on connaît et on fait des ondes prélève des échantillons dans cette distribution d'orange général c'est pas ce qui se passe en général on connaît pas la distribution de départ donc on connaît pas sa moyenne en particulier mais ce que nous assure le théorème de la limite centre et c'est que quand on prélève des échantillons de taille très élevé eh bien on va avoir une distribution normale et que cette distribution normale ça va être donc ça c'est vraiment une distribution c'est la distribution d'échantillonnage des moyennes des moyennes donc c'est une vraie distribution qui est qui suit une loi parfaitement normal quand même temps vers plus infinie et elle a une moyenne cette moyenne - elle est ici par exemple ça je vais la notte mu x barre alors xbap parce que c'est la moyenne de toutes les moyennes de tous les échantillons qu'on a prélevé donc ce une moyenne de moyenne alors évidemment si on connaît pas la distribution initiale on pourra pas prélevées dans cette distribution là il ya des échantillons de taille en finir bien sûr que non par contre ce qu'on sait c'est que si on prend des échantillons par exemple de taille s'en est bien mais comme on prélève très grand nombre d'échantillons de taille sans on va avoir une distribution qui va s'approcher de cette distribution d'échantillonnage des moyennes qui est une loi normale parfaite pourtant quand même temps vers plus infinie donc voilà en général c'est ça qu'on fait on part on a une distribution qu'on connaît pas on prélève des échantillons de taille suffisamment élevé et puis enfin plus plus la taille de l'échantillon des échantillons sera élevé plus haut s'approchera de cette distribution d'échantillonnage des moyennes mais en tout cas à partir de sept de ses échantillons de ses très nombreux échantillons de grande taille on peut calculer la moyenne du coup ça sera une estimation assez bonne de la moyenne de la distribution d'échantillonnage des moyennes donc de cette moyenne la mue de x barre alors il ya autre chose qui était intéressante qu'on avait déjà relevé dans la dans la vidéo précédente à partir de la simulation c'est que si on prend par exemple n égale 5 on prend ce un nez des échantillons de taille 5 et bien on va avoir déjà quelque chose qui va s'approcher d'une loi normale donc une courbe à peu près comme ça voilà un peu asymétrique bon pas tout à fait normal mais ce qu'on avait vu aussi c'est que si on augmente la taille de l'échantillon ça c'est le théorème de la limite s'entraîne nous assure qu'on va avoir quelque chose une distribution qui va être encore plus proche de la loi normale mais ce qui était intéressant c'est que en fait on va avoir une distribution qui va être plus donc plus proche d'une loi normale mais aussi plus resserrée autour de la moyenne ça on l'avait vu dans la vidéo précédente donc on obtient une distribution qui a la même moyenne la moyenne est ici à peu près c'est une moyenne très proche qui suis un peu plus une loi normale mais surtout ce qu'on voit c'est que elle est plus resserré autour de la moyenne en fait ça veut dire que l à un écart-type plus petit donc plus on augmente la taille de l'échantillon plus on s'approche d'une loi normale mais aussi plus on s'approche d'une loi qui est resserré autour de la moyenne donc avec un écart type plus faibles plus petit et donc ça on peut par ont fait à partir de n'importe quelle distribution on l'a on aurait on peut le faire partir de cette distribution ici qu'on avait choisi au départ c'est ça dépend pas de la distribution initiale voilà ça c'est ça c'est une chose importante en fait plus on augmente la taille de l'échantillon plus on obtient une distribution resserrée autour de la moyenne avec effectivement à l'écart type qui est même plus faible que celui de la distribution de départ de distribution initiale on va voir ça on va reprendre la simulation de la dernière fois et on va voir ça avec cette simulation voilà alors bon on va partir de cette distribution la salle est très bien celle-là n'est pas du tout normal avec deux modes enfin bon on va partir de celle-ci on va en fait comparer alors qu'on va faire déjà c'est comparer le cas où on prend des échantillons de taille deux ici c'est des échantillons de taille de haies des échantillons de taille 16 donc moyenne ces mines et puis sdc standaard déviation de la sq youth et le coefficient d'asymétrie et courtoisie c'est le coefficient d'aplatissement on l'a vu dans les vidéos dans les dernières vidéos donc je vais commencer je vais prendre un échantillon d'abord de taille de il me met la moyenne là maintenant il prend un échantillon de taille 16 et il va calculer la moyenne qui va placer ici voilà alors pour ça c'est une fois maintenant je vais je vais le faire dit mille fois voilà et voilà ce qu'on obtient tout de suite donc ici on voit bien que la distribution dans le cas où on a pris des échantillons de taille de haies bien la distribution est absolument pas normal elle a trois pics donc déjà ça suffit pour dire qu'elle n'est pas normal on peut vérifier ça aussi avec les coefficients d'asymétrie et de kurt osys donc d'aplatissement celle ci elle a un coefficient m'en aller pratiquement symétrique dans ce cas-là 1 0 le coefficient d'asymétrie est proche de zéro là elle est pratiquement aussi métriques avec une légère asymétrie vers la gauche bon et puis le coefficient d'aplatissement la courtoisie 6,6 et négatif donc ça veut dire qu'on a un pique un peu plus faible et puis des queues de distribution un peu plus un peu plus courte que dans le cas d'une loi normale alors maintenant quand on regarde le cas n égale 16 mais là vraiment on a une forme tout à fait proche de la loi normale vraiment une forme en cloche on a une moyenne qui est pratiquement la même celle 65 et 16,67 donc là c'est vraiment les deux mêmes moyenne donc ça c'est intéressant mais surtout ce que je voudrais faire remarquer c'est que l'écart type dans le cas de cette distribution il est de 6 42 alors que quand on prend des échantillons de taille 16 et bien l'écart type est beaucoup beaucoup plus faible et à peu près trois fois plus faible donc on a une distribution qui effectivement est beaucoup beaucoup plus resserré autour de la valeur moyenne et elle est même beaucoup plus resserré autour de cette valeur moyenne que la distribution initiale donc ça c'était ce qu'on avait dit tout à l'heure ce qu'on vérifie la ici par grâce à cette simulation donc ça c'est déjà quelque chose de très intéressant le revenant va on va effacer tout ça et on va comparer détail des champs de distribution avec des tailles d'échantillons un peu plus importante donc on va faire rentrer par exemple n égale 16 ici et puis ici on va prendre n égale 25 alors bon je vais le faire une fois pour voir ce qui se passe donc là on prélève un échantillon de taille 16 ici voilà c'est ce qui fait maintenant il va calculer la moyenne et la place est ici et là il prend un échantillon de taille 25 voix là et il va calculer la moyenne et la placer dans le graphique dans ce dernier graphique ici alors voilà exactement donc ça je pourrais le refaire mais je vais le faire directement dit mille fois ça c'est l'intérêt des ordinateurs des programmes voilà alors on obtient deux formes de distribution d'échantillonnage des moyennes dans les deux cas les distributions sont très très proches d'une loi normale ici dans le cas n égale 16 on a un coefficient d'asymétrie qui est pratiquement nul 1 - 0 01 un aplatissement qui est très faible aussi donc on est effectivement là très proche d'une loi normale dans le cas n égale 25 bat la symétrie est pratiquement nul aussi 1 - 0 02 et l'aplatissement aussi donc là on est dans les deux cas très proche d'une loi normale et on a une moyenne qui est là même pratiquement 16,66 quand on prend un égal 25 et 16 67 quand on prend un égal 16 donc on est dans les deux cas très proche de la moyenne de la population initiale qui était de 16,68 donc ça c'est tout à fait ce qu'on a vu dans les dernières dans les vidéos précédentes est ce qu'on peut remarquer ici et ça se voit nue évidemment c'est que la donne dans le cas où wayne est égal à 25 et bien la distribution d'échantillonnage des moyennes est beaucoup plus resserré autour de la moyenne en fait la cloche est beaucoup plus fine que dans le cas où elle est égale à 16 et ça c'est ce que nous disent les valeurs de l'écart type 1 ici on a dans le cas n égale 16 en un écart type qui est de 2,28 2,28 c'est là alors que dans le cas de m n'égale 25 l'écart type et de 1,82 donc là c'est vraiment très fort flagrant même dans le cas où on a des tailles des échantillons suffisamment élevé pour s'approcher très fortement d'une loi normale la différence c'est que quand on augmente encore le la taille de l'échantillon bien on se retrouve avec une loi normale beaucoup plus resserré autour de la moyenne avec un écart type beaucoup plus faible effectivement ça se comprend dans nadja rapidement parler dans les dents vidéo précédente en fait on peut voir pour se faire une idée c'est pas mal de prendre un cas vraiment extrême par exemple si on prend des échantillons de taille 1 million bien donc ça veut dire qu'on va prélever 1 million de données dans cette distribution là effectivement il ya très très peu de probabilités que l'on prenne un million de données dans cette partie là par exemple donc en fait quand on prend un échantillon de 1 million de données dans cette distribution et qu'ensuite on en fait la moyenne et bien on va avoir une moyenne qui va s'approcher qui va s'écarter très peu de la moyenne initial ça paraît tout à fait logique puisque il ya très peu de chances d'avoir pris un million de valeurs très loin de là haut de la moyenne donc en fait on a beaucoup de chance d'avoir pris un million de valeur disséminés autour de la moyenne et quand on va prendre leur moelle la moyenne de ces 1 million de valeur on va effectivement être très proche de la moyenne réelle delà de la distribution donc c'est ça qui fait que quand on augmente la taille de l'échantillon on va finalement diminuer les risques de s'écarter de la moyenne de la population initiale donc on va vous diminuer l'écart type est effectivement on va voir pour ça que je m'engage à re réfléchir là dessus si c'est pas très claires et de même à manipuler cette simulation parce que ça peut être vraiment aidé à comprendre mais en tout cas ce qui est important c'est qu'en fait il existe une formule prennent est très claire entre la l'écart type de la distribution d'origine et l'écart type de la distribution d'échantillonnage des moyennes et et puis évidemment cette formule elle va faire intervenir le nombre d'échantillons et la taille des échantillons comprend donc ça c'est ce qu'on va faire dans la prochaine vidéo en attendant je t'engage à réfléchir calmement là dessus et à t'entraîner et à manipuler cette simulation