If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Comparer des pourcentages de population 2

La suite de la vidéo précédente. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors on va finir le travail qu'on avait commencé dans la vidéo précédente donc je vais rappeler rapidement de quoi il s'agissait on essayait on y avait une élection présidentielle en essayer de voir s'il y avait une différence entre les électeurs femmes les électeurs homme est ce que les électeurs femmes ont plus tendance à voter pour un candidat que pour l'autre et est-ce que c'est pareil pour les ce que ces différents pour les hommes voilà donc ce qu'on avait fait c'est d'abord regarder un petit peu les distributions des votes chez les femmes et chez les hommes ensuite on avait prélevé un échantillon de 1000 femmes et dans cet échantillon on avait une proportion moyenne de 0.6 142 ensuite on avait fait la même chose avec mille hommes et on avait trouvé une proportion moyenne des lecteurs pour b12 qui se prononcer pour le candidat b de 0.5 191 voilà est ce qu'on voulait faire c'était construit un intervalle de confiance à 95 % de la différence des proportions pour voir si effectivement il y avait une différence entre les proportions des lecteurs qui a les femmes et hommes qui allez lire le qu'ils allaient voter pour le candidat b voilà alors on avait regardé pour ça la distrib la distribution d'échantillonnage de la différence des proportions qui étaient ici on en avait calculé la moyenne qui est tout simplement la moyenne sur la peau la proportion de femmes qui votent pour b et là propres - la proportion d'hommes qui votent pour b 1 voilà on avait calculé de trouver une expression là pas calculer mais on a trouvé une expression de l'écart type est donc maintenant il nous reste à déterminer un intervalle de confiance pour la différence de proportions p1 - p2 donc c'est ce qu'on avait dit la dernière fois on avait terminé là dessus on doit chercher un intervalle de confiance c'est-à-dire un intervalle dont on pourra penser raisonnablement que dans 95 % des cas il contiendra cette moyenne ici alors on va partir de cette distribution d'échantillonnage qui est une moyenne donc finalement ce qu'on doit faire c'est trouver une valeur ici un intervalle autour de cette moyenne symétrique par rapport à la moyenne tels que dans 95 % des cas quand je prends un an je prélève une valeur dans cette distribution d'échantillonnage il ya 95% de chances qu'elle soit comprise dans cet intervalle voilà donc on doit chercher ces deux valeurs lan qui sont telles que cette surface là en fait fait 95% une probabilité de 95 une aire de 95% alors pour sabah ont fait comme d'habitude on va aller regarder une table de la loi normale donc j'en ai une ici alors attention au fait que la loi normale la tas de l'étape de la loi normale en général nous donne ne donne pas ce genre d'intervalle mais elle donne une probabilité cumulée donc en fait alors je vais faire le petit dessein habituelles voilà ça c'est ma loi normale centrée réduite voilà donc la moyenne ici c'est zéro et ce que nous donne cette table c'est par exemple si je prends une valeur là et bien ce que nous donne cette table là c'est la surface de toute cette l'air de toute cette surface là pardon voilà donc nous on doit chercher une valeur ici cette valeur si tel que toute cette surface cela doit faire alors pas 95 % parce que quand je regarde ici là si je reviens sur cette courbe la cette partie centrale de fait 95% donc comme la courbe est symétrique ici donc c'est les deux que distribution qui sont là celle-là est celle là elles doivent toutes les deux faire 2 5 % puisque la courbe est symétrique par rapport à l'axé des abscisses et puis là l'air de la surface totale sous la courbe c'est 100% donc ici on a des deux côtés 2 5% alors effectivement ici là ce qu'on doit chercher nous on cherche un intervalle centré autour de la moyenne on cherche quelque chose tel que et sade toute cette surface centrale est une probabilité est une aire de 95% mais ce qu'on doit chercher dans la table c'est cette terre-là plus cet air là hein donc tout l'air que géant jaune ça doit être en fait 97 5 % parce qu'on a c'est 95% ici et c'est 2 5 % qui sont là donc là on doit chercher cette valeur si de manière à avoir une surface totale de 97 5% donc zéro on va chercher dans la table la valeur 0,975 0,975 pense qu'à la longue tu va retenir un certain nombre de valeurs dont celle là alors elle est ici 0,907 9756 à 97 5% donc elle est obtenue pour la valeur de la variable centrée réduite pour laquelle on a cette valve cette probabilité là c'est 1,9 et les centièmes sont là donc 1,96 donc cette valeur là c'est 1,96 ce qui veut dire que dans le cas de la loi normale centrée réduite cette distance-là entre la moyenne qui est nulle et notre variable notre statistiques z qui est là c'est 1,96 mais en général ça c'est 1,96 écart-type 1.96 écart-type et puis dans le cadre de cette loi centrée réduite bien l'écart type c'est un donc c'est effectivement une distance de 1,96 donc la valeur qu'on cherche que si on regarde ici elle est telle que cette distance-là ses distances des jeux verts décès 1,96 fois l'écart type de notre distribution donc l'écart type de paix un bar - paix de bach dont on a une expression ici hein alors évidemment de l'autre côté c'est la même distance c'est la distance des points 96 fois cette fois l'écart type donc c'est cette distance là alors bon maintenant tu vas te dire il suffit qu'on calcule l'écart type et puis on aura effectivement cet intervalle là mais c'est pas si simple que ça parce que l'écart type on en a une expression qui est ici mais le problème c'est que on connais pas ni on connaît ni p1 et p2 puisque ça sur son aux proportions réelles sur la population et on les connaît pas sinon on n'aurait pas besoin de faire tout cette étude là évidemment donc vous ne connais pas ces deux proportion réelle donc il faut se débrouiller autrement et comme d'habitude on va trouver une estimation de ses des estimateurs pour ces deux proportions alors là on a pas trente-six choix possibles les estimateurs qu'on peut prendre ce sont nos moyennes aux proportions sur les échantillons ou moyenne sur les échantillons paie un bar et p2 barre donc c'est le seul choix qu'on a ri il faudrait qu ou alors il faudrait prendre un autre échantillon non feinte moyen passe n'est pas d'intérêt à faire ça on va prendre ça comme estimateur est ce qu'on sait c'est qu'ici on a pris des échantillons de taille vraiment élevé c'est des gros échantillons donc en fait on peut être certain que nos estimateur seront d assez bon estimateur de des proportions réelles sur les populations donc finalement ce qu'on va faire c'est remplacer ses valeurs p1 et p2 par les estime à 2 les moyennes qu'on a calculé donc ce 0.6 142 et 0.5 191 donc finalement ce qu'il faut qu'on fasse nous c'est quelqu'un va calculer un estimateur de notre écart type je vais le noter comme ça avec un chapeau en fait cette estimateur vas-y on va le calcul est simplement en remplaçant p1 par p un bar donc on va avoir dissipé un bar facteur de 1 - p un bar et puis p2 par p2 barre voilà donc on aura cette expression là qui donne l'estimateur et on sait que ce sera un bon estimateur de notre écart type alors je vais le calculer avec la calculatrice alors j'ai racine carrée j'ouvre une parenthèse pour le numérateur donc j'ai ensuite 0,6 142 donc ça c'est la proportion des vote des électrices femmes qui vont voter pour le candidat b facteur de 1 - 0,6 cent quarante deux voilà un plus ensuite alors la proportion des électeurs sommes là c'était zéro point 591 plus donc 0,580 11 fois un moins 0,5 191 je ferme la parenthèse jeudi visent tous à parme il j'ai oublié une parente haïtien donc je divise tout ça par mille et je sers ma parenthèse pour la racine carrée voilages obtient cette expression cette valeur là zéro virgule on va dire on va rendirent au millième 0,022 donc notre estimateur de l'écart type ici c'est 0,0 qu'est ce que j'ai dit 0,022 voilà alors à partir de ça qu'est ce qu'on peut faire alors je vais descendre un petit peu le maître ici alors ce que je sais depuis le moment où j'ai calculé où j'ai exprimé cette distance là je sais qu'il ya une probabilité de 95 % de 95% que si je prends une valeur aléatoire dans cette distribution d'échantillonnage des moyennes elles bien le se situe à moins de une distance de moins de d2 cette moyenne de la moyenne alors ici j'ai une valeur de cette distribution d'échantillonnage ans je vais là noté ici c'est je peux dire que cp un bar - p2 bas rhin alors je vais écrire ça ici p un bar - paix de bars et 0,6 en 42 - 0.5 191 je vais le faire à 0.6 en 42 - 0.5 104 monde ça c'est donc je fais je calcule tout simplement la différence des deux moyenne de mes deux proportion de mets dans mes échantillons et ça fait 0 0 51 donc je sais que si je prélève une valeur au hasard dans cette distribution d'échantillonnage des différences des proportions b dans 95 % des cas exactement elle va se situer à moins de cette distance-là de la moyenne donc en fait je vais pouvoir écrire que p120 cette valeur là 0,0 51 elle est plus petit que la moyenne mu de bon alors je vais écrire ça comme ça la moyenne de la distribution d'échantillonnage donc cp1 - p2 plus d je vais prendre le rouge pour le des plus d epuis à elle est plus grande que p 1 - p2 moins d 1 p1 - p2 - d voilà alors ça effectivement on peut l'intervertion on peut travailler pour encadrer en fait pékin - p2 donc ce qu'est ce qu'on va faire ça c'est juste des transformations ces de l'algèbre donc on va avoir finalement cet intervalle la paix 1 - p2 est compris entre 0 0 51 - d epuis 0.51 00 51 plus d voilà ça c'est un intervalle absolument exact à partir du moment où cette valeur là est exact donc je sais que dans il ya une probabilité de 95 % que ma proportion des mois ma différence entre les deux proportion soit comprise entre ces deux valeurs là à partir du moment où je j'ai une valeur exacte pour cette distance dès là c'est parce qu'il se passe je puisse qu'on n'a pas réussi à calculer l'écart type vraiment on a trouvé juste un estimateur qui est celui ci on va trouver une stimulation de la valeur des donc on va là calcul est donc décès 1,96 multiplié par la valeur qu'on a trouvé ici l'estimateur de notre écart type 0,022 voilà alors ça me donne 0,43 on va dire 00 43 pardon donc je vais noter ici ça c'est cette distance décès 00 43 voilà donc maintenant je vais pouvoir dire quelque chose sur cet encadrement de p1 - p 2 1 mais simplement effectivement comme je vais je vais avoir perdu un peu de précision donc je vais plus pouvoir parler du de certitudes je vais plus pouvoir dire que dans 95 % des cas notre différence des proportions va situer dans cet intervalle je vais simplement dire que y'a un intervalle de confiance c'est à dire qu'on peut raisonnablement penser que la différence des proportions se situera dans cet intervalle là dans 95 % des cas c'est un intervalle de confiance de à 95% de notre différence des proportions alors je vais juste calculer ces valeurs là 00 51 - des avec cette estimation cette valeur approché de d1 donc je vais le faire donc c'est 00 51 - la valeur précédente voilà ça nous donne 0,008 donc je sais que p1 la différence p1 - p2 elle va être supérieur à 0,00 et puis on va calculer la borne supérieure de l'intervalle l'âge arrondi au millième donc la borne supérieure de l'impact de l'intervalle c'est 0,050 est un plus notre des qui est 00 43 voilà hélas j'obtiens cette valeur 6 00 94 donc je vais décrire ici 00 94 voilà donc ça c'est notre intervalle de confiance à 95 % on peut raisonnablement penser que dans 95 % des cas notre différend la différence entre la proportion d'électeurs femme qui va voter pour b et la proportion d'électeurs homme qui va voter pour b va être situés dans cet intervalle là bon j insiste sur la perte de précision qu'on a tout ce que j'ai fait ici c'est exact c'est à dire que l'on peut affirmer que dans 95 % cette prof différents cela va se situer dans l'intervalle là mais ça c'est parce qu'on suppose que des connus mais ça ça serait vrai dans le cas où des aurait une valeur vraiment précise or c'est pas du tout ce qu'on a ici nous on a simplement une valeur approché puisqu'on a une valeur on est plus qu on était obligé de prendre un estimateur uniquement de l'écart type parce qu'on ne pouvait pas calculer l'écart type réel sur la de la distribution d'échantillonnage des différences des proportions donc voilà c'est pour ça que là on va pas un intervalle qui contient certainement dans 95 % des cas cette différence mais c'est un matériau ce qu'on appelle un intervalle de confiance à 95 % et donc là ce qu'on a envie de dire c'est qu'effectivement les femmes ont plus tendance à voter pour le candidat b que les hommes voilà