If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Tester une hypothèse comparant des pourcentages de population

Suite et fin. Créé par Sal Khan.

Transcription de la vidéo

alors dans la dernière vidéo on avait pris le cas d'une d'une élection présidentielle avec deux candidats a et b est ce qu'on avait essayé de faire c'est de regarder s'il y avait une différence significative entre la proportion des femmes qui étaient susceptibles de voter pour le candidat b et la proportion des hommes qui étaient susceptibles de voter pour le candidat béotie voilà alors ce qu'on avait fait c'est qu'on avait construit un intervalle de confiance à 95 % de la différence des proportions p1 - p2 entre la proportion des électeurs de femmes qui votaient pour le candidat b et la proportion des électeurs homme qui votaient pour le candidat ben et donc on avait construit ces intervalles de confiance voilà c'était celui ci est alors 7 dans cette vidéo on va se poser la même question mais on va le faire un peu plus directement tout simplement par un an faisant un test d'hypothèses alors je vais commencer donc par définir les hypothèses de ce test donc l'hypothèse nul à ch 0 je vais la définir dit en disant tout simplement qu'il n'ya pas de différence il n'y a pas de différence entre la proportion des lectrices femme qui votent pour le candidat b et la proportion d'électeurs homme qui votent pour ce candidat là aussi donc ça ça veut dire que la proportion réelle p12 femmes qui vont voter pour b est égale à la proportion réelle p2 d'hommes qui vont voter pour le candidat p alors voilà ça je peux l'exprimer aussi en disant que la différence p1 - p2 va être nulle pmp de est égal à zéro l'hypothèse alternative celle l'hypothèse contraire un du coup je vous la définir comme ça ch 1 c'est tout simplement qu'il y a une différence entre ces deux proportions il y a il y a une différence entre la proportion réelle p1 et la proportion réelle p2 donc ça je l'écris comme ça paie 1 et différence est différente de p2 et ça je peux l'exprimer aussi comme tout à l'heure en disant que la différence entre ces deux proportion la différence p1 - p2 va être non nul voila alors on va faire un test d'hypothèses avec ces deux hypothèses là et on va prendre comme seuil de signification le seuil alpha qui est égale à 5% voilà alors je te rappelle en ce que ça veut dire c'est à dire qu'on va commencer par supposer que h0 est vrai donc on suppose que h0 est vrai que h0 est vrai est donc en faisant cette supposition on va aller regarder les des échantillons qu'on avait pris sur nos deux proportion sur nos deux populations hommes et femmes et on va les regarder la probabilité ont essayé de calculer la probabilité que d'avoir obtenu certaines valeurs la paix un bar la moyenne donc c'est le sas et la moyenne qu'on avait calculé sur notre échantillon de la population de femmes - la moyenne qu'on avait calculé sur la proportion sur la population des lecteurs hommes on va regarder si quelle est la probabilité d'avoir obtenu cette différence là en sachant que h0 est vrai je l'écris comme ça et si cette propose et si cette probabilité là est inférieure à 5% eh bien on va rejeter l'hypothèse nuque donc je peux écrire ça comme ça on va calculer cette valeur là la probabilité d'avoir obtenu les échantillons qu'on a eu donc cette différence de proportions qu'on a eu effectivement dans nos échantillons et si cette probabilité là est inférieure à 5% alors alors on va rejeter l'hypothèse nul puisque ce résultat-là sera donc trop peu probable donc on va en conclure qu'on a fait une mauvaise suppositions et que donc l'hypothèse nul est fausse voilà donc on restera l'hypothèse nul au profit de l'hypothèse alternative achats donc pour faire ça en fait je vais reprendre un petit peu le travail qu'on a fait dans la dans la vidéo précédente donc j'en ai repris ici les éléments principaux alors on avait considéré ici la distribution d'échantillonnage des proportions de la différence des proportions des lectrices femmes aider les électeurs homme qui votent pour le candidat b et voilà c'était ça suivait une loi normale alors ce conseil nous c'est que si la si l'hypothèse nul est vrai c'est à dire qu'il ya pas de différence entre la proportion réelle p1 et la proportion réelle p2 donc que la différence paie un mois p 2 nuls on sait que cette moyenne large fait leur refaire jaune ici cette moyenne qui est ici elle est égale à zéro voilà ça c'est le cas si l'hypothèse nul est vrai comme on a supposé que l'hypothèse nul est vrai pour l'instant on va travailler en supposant que p 1 - p2 est égal à zéro alors là ce qu'on avait fait c'est qu'on avait pris un échantillon de 1000 femmes on avait calculé la proportion de lecteurs dans ce but dans cette dans cet échantillon qui allaient voter pour le candidat b et c zéro virgule 642 ça c'est ce qu'on avait trouvé ensuite on avait pris un échantillon de mille hommes et on avait regardé de la même manière combien d'électeurs dans cet échantillon lahav aller voter pour b on avait trouvé cette valeur la paix de bar qui était de 0.5 191 ensuite on avait calculé la différence entre ces deux proportion sur les deux échantillons qu'on avait pris et on avait trouvé cette valeur 6 00 51 voilà donc ce qu'on peut faire maintenant c'est travailler en supposant que notre hypothèse nul est vrai et essayer de voir si quelle est la probabilité d'avoir obtenu un échange une différence qui est aussi faible que ça voilà alors que cette valeur là en fait donc ce qu'on va faire ses calculs et dans la statistique du test c'est à dire la variable centrée réduite de sept associés à cette valeur là donc ça sera notre statistiques z statistiques du test freine statistiques êtes dans ce cas là et puis ensuite on va regarder quelle est la probabilité d'avoir obtenu cette valeur de la statistique z et si cette probabilité est inférieure à 5% et bien rejettera l'hypothèse nul alors je vais commencer par calcul est là la statistique du test donc je vais l'appeler z z c'est donc donc la valeur qu'on a obtenu fait un bar - p2 barre donc 0 points 0,51 0,0 51 - la moyenne de la distribution d'échantillonnage de la différence des proportions donc ça comme on a supposé que l'hypothèse nul est vrai on a dit que c'était fait un bar - pédebas et que donc depuis ce que l'hypothèse ne lèveraient cette différence elle est nulle donc là ce qu'on a c'est 0,51 0,51 pardon - 0 et donc on va compter cet écart là en terme d'écart type de la distribution d'échantillonnage de la différence des proportions donc on va diviser sa part l'écart type 2 alors c'était on l'avait noté comme ça c'est cet écart type l'écart type de cette distribution d'échantillonnage on l'avait décalé on l'avait noté comme ça sigma 2 paires bar - t2 barre donc on va diviser sa part sigma de paix un bar - p deux bars voilà alors maintenant il faut qu'on calcule cet cet écart type alors dans la vidéo précédente on avait trouvé cette formule 1 pour les quartiers peur là ici on avait trouvé un estimateur en remplaçant parler les proportions dans les échoppes calculée sur les échantillons mais la formule je vais leur écrire ici ce sera plus clair on peut partir de cette formule-là de la variance donc la variance cp 1 x 1 - p 1 / milk et la taille de l'échantillon plus paie deux fois 1 - 1 p 2 / 1000 aussi donc on va je vais leur écrire ici ce sera plus clair donc sigma de paix un bar - t2 barre on avait dit que c'était la racine carrée je le fais comme ça 2 p 1 x 1 - p 1 / 1000 plus p22 1 - x 1 - p2 pardon / 1000 voilà ça c'est la formule générale de la l'écart type de la distribution d'échantillonnage de la différence des proportions alors maintenant nous on sait que h 0 est vrai c'est ce qu'on a su poser dès le départ donc on sait que p1 est égale ap deux heures je vais l'écrire comme ça p1 et des galas p2 et donc on peut remplacer p1 et p2 par une même valeur qu'on va appeler pays si voilà donc cet écart type sigma de paix un bar et un bar moi ma tablette marche pas très bien aujourd'hui père un bar - t2 barre ses racines carrées en fait je vais remplacer ici p1 et p2 par p tout simplement et donc je vais obtenir racine carrée de p x 1 - p / 1000 plus paix soit 1 - p / 1000 est donc là je peut réécrire ça différemment en disant que c'est la racine carrée de l'ag deux fois le même terme donc j'ai 2 x p x 1 mois p / 1000 voilà donc ça c'est une expression de l'écart type de notre distribution d'échantillonnage de la moyenne en supposant que achemine que h0 est vrai donc que les proportions sont les proportions réelles sont sont équivalentes sont égales donc voilà ça c'est une formule général malheureusement on connaît pas on connaît ni p1 et p2 donc sonné papé et donc on peut pas calculer à partir de cette formule directement l'écart type qu'on cherche alors ce qu'on va faire c'est comme d'habitude la dernière fois on avait pris cette formule là et on avait en fait remplacé on avait pris des estimateurs de nos proportion p1 et p2 qui était tout simplement les proportions calculé dans nos échantillons donc là on va faire la même chose on va se demander on va essayer de remplacer ça se paie là par la proportion paix bar calculé dans un échantillon l'art en fête pour faire ça on va tout simplement considérer que nos deux échantillons sont un seul échantillon donc on va en fait supposer qu'on a interrogés alors là on avait interrogé 1000 hommes et 1000 femmes en fait ça cause ça correspond à avoir interrogé 2000 personnes et on va regarder tout simplement combien dans ces deux mille personnes combien vont voter combien de personnes vont voter pour b sans s'intéresser au sexe de ses électeurs donc en fait on va écrire que p bars et bars bah c'est le nombre de personnes qui ont voté pour le candidat b / les 2000 personnes qui constituent notre échantillon donc pour calculer ce nombre de personnes qui ont voté pour bva tout simplement additionner les femmes et les hommes le nombre de femmes qui ont voté pour ben et le nombre d'hommes qui ont voté pour ben et donc ça sera 642 pour les femmes + 5 191 pour les hommes donc ça nous donne six cent quarante deux plus 591 voilà alors ça je vais le calculer avec la calculatrice alors si 140-2 plus 591 ça c'est le numérateur / 2000 j'obtiens 0.61 65 donc la proportion d'électeurs qui vont voter pour b dans mon échantillon de 2000 personnes ces 61 65 donc maintenant je vais pouvoir calculer je vais le faire directement la calculatrice un jeu calculer un estimateur de cet écart type alors je vais prendre la racine carrée de alors ça me donne deux je vais ouvrir la parenthèse pour le numérateur deux fois 05 61 65 x 1 - 0,61 65 le tout divisé alors je ferme la parenthèse pour le numérateur / 1000 voilà donc la valeur que je vais prendre pour l'écart type ici de sigma de paix un bar - pédebas et bien ça va être 0,02 117 voilà donc finalement je peux revenir au calcul de ma statistique zi6 ça va être tout simplement 0,0 51 / 0,02 117 voilà donc je vais faire ça avec la calculatrice donc je vais quelqu'une et 0,0 51 / 0,02 117 voix là et ça me donne cette valeur si 2,35 donc ça je vais prendre la valeur approché 2,35 donc ça c'est finalement z je vais décrire ici z c'est 2,35 voilà alors je vais reprendre un petit peu tout ce qu'on a fait depuis le bund tout ce qu'on a fait ici donc on a supposé que à 0 et everest à dire que n'est pas de différence entre la proportion d'électeurs femmes électeurs hommes qui allaient voter pour le candidat ben et donc que paie un mois p2 était égale à zéro ça veut dire que quand on regarde la distribution d'échantillonnage de cette statistique ici p 1 - p2p un mois p 2 à 1 et bien en fait sa moyenne elle est nulle c'est ce qu'on avait dit la moyenne ici et nulle quand on suppose que h 0 est vrai et donc ensuite on avait cette différence entre les deux proportion calculée sur nos échantillons qui est de 0.51 00 51 pardon 00 51 et on avait vu que en calculant la statistique du test associé à cette valeur là on avait vu que cette valeur s'éloigne de 2,35 écart type de la moyenne 0 de la moyenne de cette distribution d'échantillonnage qui est nul ça c'est ce qu'on vient de voir en calculant la statistique est d'associer à cette valeur là et donc on avait vu que cette statistique était 2,35 ce qui veut dire effectivement que notre valeur est situé à 2,35 écart type de la moyenne 0 donc que cette distance-là est de 2,35 et quartier donc maintenant ce qu'on doit faire c'est regarder si la probabilité d'avoir cette valeur ci est inférieure à notre seuil de signification qui est 5% et si c'est le cas et bien on ira pour a rejeté l'hypothèse nul voila donc c'est ce qu'on va regarder ici alors je me remets la alors ce qu'on va regarder nous c'est à quelle valeur de la loi normale correspond cette proportion cette ce pourcentage l'as notre seuil de signification donc je vais je vais prendre la table de la loi normale alors je l'avais ici voilà donc je vais reprendre un petit peu ça en fait on a notre loi normale je vais la dessiner donc c'est une loi normale comme ça en cloche une forme en cloche avec la moyenne ici qu'est 0 hélas ce qu'on va essayer déterminé c'est quelle est la valeur qui correspond à notre seuil de signification donc c'est ce qu'on appelle la valeur critique valeur critique c'est celle là et c'est celle qui va déterminer notre zone de rejet en fait ici on est dans le cas d'un test bilatérales c'est à dire que ce qu'on veut c'est regarder la propre la probabilité d'avoir une valeur qui s'écartent de la moyenne de plus de cette valeur critique par valeurs supérieures ou par valeurs inférieures donc on va déterminer ses deux procès deux valeurs là donc cette valeur critique et la l'asymétrique par rapport à la moyenne valeur symétrique par rapport à la moyenne de nous de manière à voir ici cette surface là il ya une aire de 95 % 1 ça on l'a déjà fait très souvent donc il faut que cette valeur là soit 95% donc ici on a bien notre zone de rejet je le dessine est en jaune notre zone de rejet ici qui est de 5% alors ça sera ça veut dire qu'ici il ya 2 5% et cette surface là elle a également une aire de 2 5% voilà donc ensuite on va regarder si notre notre valeur 2,35 notre statistics des dc qu'on a calculé tout à l'heure et plus et danse dans la zone de régis en fait ce qui est en jaune ici c'est ça s'appelle la zone de rejet donc si notre valeur de la statistique est situé dans la zone de rejet à ce moment là on pourra rejeter l'hypothèse nul alors du coup nous ce qu'on doit chercher dans la table c'est pas la valeur 95% mais c'est la table de la loi normale je te rappel elle donne les probabilité cumulée donc elle va donner toute cette surface la selle ce morceau si plus la surface que j'ai assuré en rose donc on doit chercher la valeur qui correspond qui donne une probabilité de 90 7,5 pour cent c'est ce qu'on a fait déjà dans la vidéo précédente donc je vais aller un petit peu vite c'est cette valeur si 0,97 50 ses 97 5% et elle correspond à une valeur de 1,9 101,96 ici le dixième est ici le 100e donc cette valeur critique ici c'est 1,96 on l'avait calculé dans la vidéo précédente donc ça ça veut dire en fait qu' il y a 2 vient 5 % de chance il ya une probabilité de 2 5% date de prendre un échantillon d'avoir un échantillon un échantillon j'ai du mal à écrire aujourd'hui se désole 9 la tablette marche pas très bien d'avoir un échantillon avec une statistique z une statistique z supérieur à 1 96 % 6 h 0 est vrai si on suppose que h0 est vrai voilà alors nous ce qu'on a ici c'est qu'on a fait ses comptes on a supposé que à 0 et est vrai on a pris un échantillon et on a calculé cette statistique c'est d'ici qu'est une valeur de 2,35 donc 2.35 c'est ici elle est supérieure à la valeur critique donc finalement on a une probabilité de inférieur à 2 5 % d'avoir obtenu cette valeur là de la statistique z donc on peut en déduire finalement c'est la conclusion qu'on peut tirer on peut rejeter notre hypothèse nul donc je vais leur écrire ici ici z égale 2,35 et supérieur à 1,96 donc on a une probabilité inférieur de 2 à 2 5% d'avoir obtenu cette valeur là donc on finalement on rejette h0 rejette h 0 est donc finalement si on rejette 1 0 alors je reviens petit peu en arrière un giro c'était l'hypothèse selon laquelle n'y ait pas de différence entre la proportion de femmes qui votaient pour bébé la proportion d'hommes qui votaient pour b eh bien on rejette cette hypothèse donc on en conclut que finalement il ya une différence de comportement électoral entre les hommes et les femmes avec un risque d'erreur de 5 % 1 voilà bon c'était une vidéo un petit peu longue je te conseille de la reprendre un peu calmement pour être sûr d'avoir bien compris