If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Déterminer intuitivement si telle ou telle variable aléatoire suit une loi normale

. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors comme on n'a jamais assez fait d'exercices sur la loi normale on n'a jamais fini de se familiariser avec ce concept là qu'est vraiment un concept central en statistiques et puis on retrouve très très souvent dans la nature donc on va ici faire des exercices là dessus alors j'ai pris cet exercice là sur la loi normale c'est pas un exercice classique parce que tu vas voir que ce qu'on nous demande c'est pas de calculer des choses c'est pas de démontrer des choses non plus mais c'est de donner notre avis mme sur des séries de données alors je vais lire l'énoncé parmi les séries suite de données suivantes laquelle est la plus susceptible de suivre une loi normale pour les autres séries expliquer pourquoi vous pensez qu'elle ne sont pas normalement distribués alors voilà c'est vraiment ça on nous demande notre avis on va pas nous demander d'être de démontrer des choses mais on va nous demander de justifier de donner notre impression est de la justifier voilà alors on va commencer par la première série de données a ici alors c'est l'entente de la main c'est à dire la longueur de l'intervalle compris entre l'extrémité du pouce et celle du petit doigt lorsque la main est ouverte le plus possible donc cet enfant de la main mesurée sur un échantillon aléatoire d'universitaires adultes alors bon je vais faire un petit dessin lampant de la main donc c'est la longueur de l'intervalle compris entre l'extrémité du pouce et celle du petit doigt quand la main est ouverte le plus possible donc une main mais je vais essayer de dessiner une main voilà ça c'est le pouce là on a un doigt de doigts trois doigts quatre doigts et voilà et là on a la main qui est ouverte le plus possible et la distance qui est prise en compte ici c'est l'enfant ça va de 7 de cette extrémité du pousse jusqu'à l'extrémité ici du petit doigt de l'auriculaire voilà alors on a mesuré cette distance là sur un échantillon aléatoire d'universitaires adultes voilà alors cette distance là évidemment elle est déterminée par un très très grand nombre de facteurs il peut y avoir des facteurs génétiques qui peut y avoir d'aidé des facteurs aussi lié à l'occupation et quelqu'un par exemple un musiciens un guitariste ou un pianiste qui ont l'habitude d'ouvrir à la main des tendre la main le plus possible peut-être que cette mesure là sera plus grande chez eux et y avoir d'autres facteurs enfin je suppose je j'imagine que cette distance-là est déterminé par 1 un très très grand nombre de facteurs aléatoires et donc on est en droit de supposer qu'elle va qu'elle va suivre une loi normale alors je vais essayer de la dessiner donc ça c'est pour le petit a alors cette distribution elle pourra ressembler à quelque chose comme ça donc on va tracer un axe disons qu'elle a une moyenne de 6 je regarde ma main la moyenne disons d'environ peut dire quelque chose comme 12 cm et donc la courbe ci on si on représente les données par une courbe cette courbe là elle devrait avoir quelque chose une forme de ce genre là une forme en cloche comme ça centré sur la moyenne qui est ici de 12 cm voilà alors effectivement il ya aidés ne sera pas vraiment une loi normale on peut tout de suite le dire parce qu'il va y avoir des différences importantes avec la loi normale en dehors du fait que cette forme là sera peut-être juste approché ça sera peut-être pas exactement une forme comme ça mais de toute façon il ya une chose qui est sûre c'est que une variable qui suit une loi normale n'est pas limité sommes donc ici par contre c'est certain qu'il y aura une taille minimale il ya une taille au-delà de laquelle en dessous de laquelle on pourra pas aller même si on imagine qu'on n'a pas demain que quelqu'un n'a pas demain et que il a du coup on pourra considérer ça comme une taille nul et ben voilà en tout cas ce qui est sûr c'est que il y aura pas de taille négative cette taille cette mesure-là la mesure de l'enfant ne peut pas être négatif donc on aura contrairement à ce qui est ce qui serait vraiment une loi normale une courbe qui va s'arrêter ici dans le cas d'une loi normale ça continuerait indéfiniment vers des valeurs négatif et puis de même on peut quand même imaginer qu'il ya aussi une limite supérieure à cette mesure de l'enfant puisque on peut vrai je sais pas on peut imaginer que quand même une main d'homme d'un être humain même si c'est un universitaire adultes va pas excédé par exemple un kilomètre enfin donc il ya forcément une limite si je prends je calcule la probabilité que dans cet échantillon il ya une main dont l'enfant mesure plus de 1 km par exemple ça sera une probabilité nul parce qu'il ya des facteurs physiologiques qui empêche que l'on pensera aussi long que ça aussi grand que ça alors que si on était vraiment dans une dans le cas d'une loi normale bien y aura une probabilité film que ce soit vrai mais ça serait pas une probabilité nul donc ce qu'on peut dire c'est que c'est probablement proche d'une loi normale mais certainement pas exactement une loi normale et d'ailleurs la inconsciemment c'est un peu un peu un peu bête de ma part mais j'ai parlé surtout des hommes alors que l'on peut quand même supposer que en général les femmes ont une main un peu plus petit donc un empan un peu plus faible une mesure de l'enfant un peu plus faibles que les hommes et donc si on regarde cette population d'universitaires adultes et bien on pourrait imaginer que en fait il y a deux de sommets 1 2 deux sommets donc je vais faire un petit dessin côté ça pourrait être plutôt quelque chose comme ça si on considère les sept différences entre les hommes et les femmes ça pourrait être quelque chose comme ça on pourrait avoir un premier sommet ici qui serait une valeur de 12 cm un mode de 12 cm et puis un mode un peu plus faible une autre valeur un peu plus faible qui serait un autre sommet donc un deuxième mode pour les femmes par exemple je n'ai pas à 10 cm j'ai aucune idée hein c'est pas du tout forcément réaliste que je dis mais le principe est celui là c'est qu'ils pourraient cette distribution là elle pourrait très bien être bimodale étant donné la différence entre les mains d'hommes et une main de femme donc ensuite imaginer que cette distribution redescend comme ça des deux côtés voilà voilà donc ça pourrait être une distribution qui à cette forme là mais grosso modo elle pourrait être approché par une par une loi normale donc je vais coché cette cette distribution la selle la schl en tourbe parce que ce sera probablement très proche d'une loi binôme d'une loi normale pardon alors maintenant on va regarder la deuxième série de données alors le salaire annuel de la totalité des employés d'une grande compagnie maritime alors bon évidemment ça dépend de la compagnie comment est organisée la compagnie comment est-ce que leur et rémunère cesser ses salariés enfin bon en tout cas ce qu'on peut se dire c'est que en général dans beaucoup de pays un salaire minimum est de toute façon même s'il n'a pas effectivement un salaire minimum légal on a quand même le fait que tout travail est rémunéré donc c'est salaire annuel de la totalité des apps des employés ils sont bornés par une valeur minime donc si je dessine je vais faire un dessin comme ça je vais avoir un salaire minimal alors dans ça dépend des endroits mais ce salaire minimal soit c'était une valeur légale soit c'est simplement le fait que si quelqu'un travaille on est on lui donne un salaire quand même n'est peut être très faible mais ça peut être un salaire donc ce qu'on peut imaginer c'est que il ya donc ce salaire minimal et puis une grande partie des employés qui touchent autour d'eux une valeur un salaire annuel autour de ce salaire minimal donc la plus grande partie des salariés de l'entreprise se trouve par ici dans des salaires disons alors là on peut mettre j'ai par exemple en europe ça serait peut-être vingt mille 20 mille euros vingt mille euros et puis là ici on a des des cadres un peu des cadres intermédiaires et puis plus on monte dans la hiérarchie de l'entreprise plus le salaire est élevé et là on a éventuellement si on va très très loin on pourrait marquer ici le salaire des dirigeants donc les cadres supérieurs donc par exemple du pdg des fondateurs et tout ça et là on aurait un deuxième pic en fait voilà et puis évidemment une salaire maximal qui sera celui de la personne qui touche le tiers le plus gros salaires de l'entreprise donc on a ici une distribution qui va avoir deux pics alors peut-être que dans les pays se ce deuxième pic qui concerne le salaire annuel des dirigeants de dpd du pdg ou des fondateurs peut-être qu'il sera beaucoup plus loin que ça hein je sais pas ça dépend des des compagnies ça dépend des pays enfin bon mais en tout cas ce qui est important c'est que là aussi on va avoir très probablement une distribution bimodale est aussi une distribution qui va être la plupart des valeurs vont être décalés vers la gauche donc la moyenne est très très à gauche très vers les valeurs faibles et la plupart des données sont répartis dans la queue de distribution gauche c'est ce qu'on appelle une distribution asymétrique asymétrique à droite à droite parce qu'il ya une une asymétrie du côté droit les données sont répartis vers des valeurs faibles donc vers la gauche ouch la plupart des données sont répartis plutôt vers la gauche et il ya une asymétrie du côté droit puisque on a beaucoup moins de données qui sont du côté droit voilà alors donc il ya une asymétrie à droite il ya deux modes donc ça ne peut pas être du tout une distrib une loi normale c'est de toute façon on n'a pas du tout la forme en cloche d'une loi normale donc cette série de données là on peut pas la retenir c'est pas elle pas du tout susceptible de suivre une loi normale alors on va continuer avec le petit c'est le salaire annuel dans un échantillon aléatoire de 50 pdg de grandes entreprises composée de 25 hommes et de 25 femmes alors là on est dans un cas un peu comme celui tout à l'heure alors je vais mettre ici le sait donc on peut imaginer que on a un salaire alors je vais faire un axe et on peut imaginer qu'un salaire minimal au dessous duquel le loca pdg nous n'acceptons pas de travail et donc ça peut être ici par exemple je ne vais pas donner de valeurs j'en ai aucune idée mais bon c'est en général un salaire plutôt élevé à aider les pdg de certaines entreprises qui acceptent de travailler pour un salaire faible mais bon dedans dans le cas général c'est quand même plutôt des salaires élevés et on peut imaginer que la danse et 50 pdg la plupart vont avoir un salaire voilà qui va ce qui va se jouer peuvent être assez regroupée donc on peut imaginer qu'il ya un pic comme ça et qu'après ça redescend jusqu'à éventuellement un salaire vraiment beaucoup plus élevé d'ailleurs on pourrait très bien imaginer comme on a vu tout à l'heure dans cette situation là qu'il ya dans ces 50 grandes entreprises ya une personne un pdg qui a vraiment un très très gros salaires donc ou alors deux ou trois qui ont un très très gros salaires donc on pourrait imaginer que là il ya un deuxième pic ici c'était pas c'est pas quelque chose d'impossible voilà donc en tout cas ce qui paraît assez logique c'est de penser que ça va être une distribution aussi asymétrique à droite puisque on va avoir la plupart des pdg et qui auront un salaire regroupés autour du salaire minimal hall au dessous duquel au cap et des jeunes acceptent de travailler voilà et puis éventuellement quelques quelques pdg là dedans qui ont un salaire beaucoup plus élevé mais bon grosso modo on peut imaginer que plupart des salaires vont être regroupées par ici puis alors il ya une autre indication dont l'âge est pas tenu compte comme tout à l'heure c'est que on nous dit aussi que l' on nous précise qu'il ya vingt-cinq hommes et 25 femmes dans ce groupe de 50 pdg les 25 hommes et 25 femmes ça c'est peut-être peut-être qu'on nous fait cette précision là parce que justement la parité homme femme n'est pas complètement réalisé encore et qu' il ya encore des disparités malheureusement entre le salaire annuel d'une femme et le salaire d'une annuel d'un homme à poste égal à fonction égale donc on peut plutôt imaginer que la courbe elle fait comme ça par exemple il ya un premier salaire modal pour les femmes une premier pic pour les femmes qui se trouve ici et puis il ya un deuxième pic ici là pour le salaire modale des hommes ensuite la courbe des sans voix près avec la problématique qu'on a déjà signalé ici en tout cas voilà il est possible aussi que cette cette distribution la soie bimodale voir trimodale six ans si on pense à ceux à ce groupe de p dg qui pourrait avoir un salaire vraiment beaucoup beaucoup plus élevé que les autres de quelques salles pdg ici voilà donc ça c'est une distribution qui est asymétrique à droite qui peut avoir plusieurs modes donc c'est certainement pas proche d'une loi normale alors on va continuer avec le d ici la date des pièces de 50 centimes prélevés dans la caisse d'une épicerie alors là ce veut dire qu'on va regarder dans la caisse on va regarder toutes les pièces de 50 centimes et qui a dans la caisse de cette épicerie et puis bon assez intéressante expérience mais bon on peut voir ce qu'ils on peut essayer d'imaginer ce qui se passe en ce sens là faire alors les pièces de monnaie donc je vais prendre je vais prendre une couleur pour faire ce dernier cas les pièces de monnaie en général ne sont pas très ancien parce qu'elle se perdent on est obligé d'en refaire y en a qui partent à l'étranger enfin en général ne sont pas très ancienne ce qu'on peut imaginer c'est que aujourd'hui on est en 2014 donc si on est en 2014 ici hein c'est la date de la date de fabrication des pièces qu'on regarde on peut imaginer qu'à pas de pièces de 2014 pratiquement aucune pièce de 2014 puisqu'elle son viennent d'être fabriquée ne sont pas encore tellement en circulation donc on peut imaginer qu'on va avoir presque très très peu de pièces fabriquées en 2014 par contre on peut en avoir beaucoup qui sont fabriqués qui ont été fabriqués dans l'est dont les quelques années précédentes donc on pourrait avoir une distribution qui va être un peu comme ça voilà donc par exemple on peut imaginer qu on trouve énormément de pièces la plupart des pièces qu'on trouve dans cette caisse ils ont été fabriqués entre 2009 et 2013 ou 2014 éventuellement et puis là bas ça descend plus on remonte dans le temps - on a deux pièces qui sont là et puis quel que soit le pays à toute façon il ya un moment où ça s'arrête parce que bon c'est par exemple si on regarde si on si on se dit que ce sont des pièces de 50 centimes d'euro à l'euro il existe depuis 2002 donc là pour le cas de l'euro ce serait 2002 is here et au delà de 2002 on aurait aucune pièce plus ancienne que 2002 ça serait c'est pas possible donc là on aura une distribution qui s'arrête ici à ce stade là 2002 voilà ça c'est pour le cas de l'euro si c'est une autre monnaie de toute façon il ya une date où ça s'arrête on est sûr qu'on aura pas une une pièce aussi ancienne que ça par exemple ben je sais pas il suffit de remonter suffisamment dans le temps pour remonter jusqu'à l'origine de la monnaie en question est donc à ce moment là on pourra pas remonter au delà évidemment puisque avant cette date là cette monnaie n'existait n'existait pas donc là aussi on a une distribution qui est complètement asymétrique elle est cette fois-ci asymétrique à gauche asymétrique à gauche voilà si on imagine sa de cette manière là et ça ça veut dire que la plupart des données sont regroupées vers la droite et que la queue distribution gauche elle est asymétrique alors dans une distribution de ce genre là ce qui est important a remarqué c'est que la médiane en général va être supérieure à la moyenne ici la médiane par exemple peut être ici voilà donc ça ça va être ici la médiane m peu mais la moyenne elle elle est beaucoup plus sensible aux valeurs extrêmes donc elle va être décalés vers l'est vers la gauche donc par exemple elle va être ici hein donc ça c'est la moyenne ça c'est vraiment une généralité donc quand on a une distribution qui est asymétrique à gauche la médiane est supérieure à la moyenne ce qu'on avait vu ici c'est le contraire là on avait une distribution asymétrique à droite alors si on peut si on se dit que la médiane et là par exemple médiane est là et bien là pour placer la moitié la moyenne on sait qu'elle va être supérieurs à la médiane puisque elle est plus sensible aux valeurs extrêmes bloquaient encore tout ça qui va la tirer toutes les données qui sont par là qui vont tirer la moyenne vers la droite du graphique donc vers les valeurs supérieures donc la moyenne pourrait peut-être l'appel sera par ici en tout cas elle sera supérieur à la médiane donc ça c'est la moyenne voilà ça c'est important à comprendre quand on a une distribution symétrique la moyenne et la médiane coïncide quand elle quand il ya une asymétrie alors on peut selon que la symétrie est à gauche ou à droite on peut dire que si la médiane est supérieure ou inférieure à la moyenne voilà alors bon maintenant pour revenir à la question ben selon tout ce qu'on vient de dire ici c'est vraiment là encore une fois c'est pas on n'a rien démontré précisément on a juste exprimé des raisons qui nous faisait penser que finalement la série qui était la plus susceptible la plus susceptible c'est bien préciser on demande pas une démonstration de suivre une loi normale et bien c'était effectivement cette distribution là qui est donné dans le a voilà