If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Test d'hypothèse sur la différence entre deux moyennes

Tester une hypothèse sur la différence entre deux moyennes. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans la vidéo précédente on avait construit un intervalle de confiance à 95 % de la différence de perte de poids entre les populations de ceux qui suivaient ce régime alimentaire et ceux qui ne le suivaient pas un donc voilà ce que je voudrais faire ici c'est un test d'hypothèses en fait pour se rendre compte si vraiment ce régime alimentaire et une bonne aide pour pour perdre du poids alors bon on va commencer par définir nos hypothèses évidemment ça c'est ce qu'on fait en général quand on fait un test d'hypothèses dont je vais commencer par définir l'hypothèse nul qu'hypothèse nul à ch 0 ben cette hypothèse nul j'ai simplement supposer que ce régime alimentaire ne fait rien ne l'aide pas du tout à perdre du poids donc en fait si je compte j'appelle muin la populace perte moyenne de poids pour la population qui suit qui suivent le régime et bien en fait elle va être égal à la populace et à la perte de poids de ceux qui ne suivent pas le régime donc je peux les boucles je pourrais écrire que mu 1 est égalament u2 je vais écrire ça comme ça en fait mieux 1 - mu 2 est égal à zéro donc il ya pas de différence de perte de poids seul ou si on suit le régime ou si on ne le suis pas alors on peut écrire ça différemment en considérant les distributions d'échantillonnage des moyennes des deux populations ça en fait ça peut être écrit de cette manière là c'est mu 2 x 1 bar - mu 2 x 2 bars et donc ça doit être égale à zéro alors je peux écrire ça parce qu'en fait on a vu ça dans plusieurs vidéos quand je prends la distribution d'échantillonnage des moyennes elle fait distribuer sur la elle a une moyenne qui coïncide avec la moyenne réelle sur la population donc quand on a des échantillons de taille assez élevé 1 ce qui est le cas ici puisqu'on a des échantillons de taille sans donc ici cette cette population cette moyenne réelle sur la population de ceux qui suivent le régime elle va être égal à cette moyenne de la distribution d'échantillonnage des moyennes et de la même manière cette moyenne mu 2 va être égal à cette moyenne si mu 2 x 2 bars voilà donc là je peux écrire c'est de cette manière là et puis en fait je peux encore à écrire ça différemment puisque ça ce terme là un ce terme si on avait vu dans une autre vidéo que cette c'était tout simplement la moyenne de la différence des moyennes x un bar - x2 barre voilà donc finalement notre hypothèse nul on peut l'écrire comme ça c'est l'hypothèse selon laquelle la moyenne de la distribution d'échantillonnage des différences des moyennes musique saint bar - x2 bas est nul voilà donc ça c'est une formulation de mon hypothèse nul et puis je vais maintenant formulé l'hypothèse alternative h1 donc cette hypothèse la basse et on va supposer que le régime alimentaire aide effectivement à perdre du poids donc je vais l'écrire comme ça ça veut dire que si on suit le régime on a plus de chance de perdre du poids que si on ne le suis pas donc ça veut dire que la moyenne réelle mieux un va être supérieure à la moyenne 1200 donc on peut écrire ça comme samu un - mu 2 va être supérieur à 0 et puis en suivant exactement le même raisonnement que ce qu'on a fait ici on peut réécrire cette hypothèse là en disant que la moyenne mu 2 x 1 bar - x de bar va être supérieur à 0 voilà là ça ce sont nos deux hypothèses donc on va travailler avec ces hypothèses là en fait ce qu'on va faire c'est d'abord supposer que l'hypothèse nul est vrai que à 0 est vrai on va supposer donc que cette différence que cette moyenne la nuls et puis on va fixer est ce qu'on appelle un seuil de signification je vais l'écrire ici un seuil de signification et en fait qu'on va faire c'est calculer la probabilité d'avoir cette valeur si qu'on a obtenus avec nos échantillons donc ça c'est exactement la moyenne est la différence entre nos deux moyenne entre entre la perte de poids moyens dans le groupe 1 et la perte de poids moyens dans le groupe témoin dans le groupe 2 donc si cette probabilité là est inférieure à notre seuil de signification eh bien on va on va pouvoir rejeter l'hypothèse nul donc ici on va fixer un seuil de signification l'art en général on note avec la lettre alpha donc ici alpha on va dire que c'est 5% donc si notre la probabilité d'avoir cette valeur là est inférieure à 5% bien on pourra se dire que l'hypothèse nul n'est pas n'est pas la bonne et qu'il faut la rejeter en faveur de l'hypothèse alternative alors on va examiner un petit peu la situation donc ce qu'on a nous notait d'échantillons sont assez élevés donc mû 2 x 1 bar la distribution d'échantillonnage des moyennes dans le groupe 1 suit une loi normale et la même chose pour le groupe de l sur une loi normale aussi un donc finalement ce qu'on va obtenir c'est une distribution d'échantillonnage de la différence des moyennes qui suit une loi normale donc je vais tracer une une loi normale donc c'est une courbe en cloche comme ça voilà avec ici une moyenne réelle c'est la moyenne mu 2 x 1 bar - x2 barre et on a vu en fait que cette moyenne ci coïncide avec la différence de nos deux moyennes mu 1 - mu 2 alors du coup ce qu'on a nous c'est un seuil de signification de 5% donc je vais le placer ici un et ce seuil de signification ça veut dire que ici cette partie là doit être de 5% dont claire de cette partie du plan doit représenter 5% de leur total est en fait on doit déterminer cette valeur si la valeur pour laquelle effectivement cette probabilité l'aed 5% donc c'est ce qu'on appelle on va chercher en fait une ce qu'on appelle une valeur critique cette valeur là donc je vais le faire en rouge cette valeur si c'est la valeur critique et donc on va déterminer cette valeur là et si notre notre valeur ici est supérieure à cette valeur critique et bien ça voudrait dire qu'elle se situera par ici donc elle aura une probabilité inférieur à 5% et du coup on va rejeter l'hypothèse est donc là il faut qu'on trouve la valeur critique donc on va se reporter à une vanne à une table de la loi normale sans très réduite et on va chercher cette valeur critique qui correspond à ce partage si en fait l'air sous la courbe inverse pour les valeurs inférieures à cette valeur critique elle est de 95% donc ce qu'on va chercher dans la table de la loi normale c'est la preuve une probabilité de 95 % donc on va chercher la valeur 0.95 on va la chercher alors elle est par ici dire 20 94 95 donc on va prendre cette valeur si 0.95 est elle qu elle correspond à la valeur 1,65 cette valeur cette ligne là et cette colonne l'a donc 1,65 donc ici notre valeur critique c'est 1,65 alors c'est 1,65 en fait là dans le cadre de la loi normale j'ai peut-être faire un dessin ici pour clarifier ça quand j'ai une loi normale centrée réduite comme ça la moyenne c'est zéro et l'écart type c'est un donc quand on a cette valeur là 1,65 1,65 elle partage l'air sous la cour dont deux parties une qui fait 5 % c'est celle pour les valeurs supérieures 1,65 et en fait c'est 1,65 écart-type donc il ya 5 via moins de cinq chances sur cent d'avoir une valeur qui ce qui est supérieur de plus un de plus de 1,65 écart type de l'aval de la moyenne qui est nul ici donc ça veut dire que ici cette distance là dans notre cas là cette distance là c'est 1,65 écart-type l'écart type donc c'est l'écart type de notre distribution d'échantillonnage de la différence des moyennes alors maintenant il faut qu'on calcule ça on ne pourra pas calculer une valeur exacte et précise de ça mais on va calculer une estime sion de cette valeur à partir des écarts types de nos deux groupes témoins le groupe 1 à groupe 2 qui le groupe témoin voilà alors pour ça on avait déjà vu une une formule 1 c'était voilà voilà celle là on l'avait même déjà calculé dans la vidéo précédente donc c'est la racine carrée de la variance divisé par la taille de l'échantillon pour la première population et la varenne plus la variance de la promise de la deuxième population divisé par la taille des échantillons donc nous ça on l'avait déjà calculé je vais pas le refaire on avait calculé nestia une estimation de cet écart type boxer sigma chapeau 2 x 1 bar - x2 barre et on avait calculé que c'était donc alors je vais écrire la formule ici un ses racines carrées de alors le premier écart type c'est 2012 donc il faut faire 2,12 au carré divisé par la taille de l'échantillon qui est 100 dans le premier groupe plus là l'écart type du deuxième groupe élevée au carré 1,83 élevée au carré / 100 qui est la taille de l'échantillon du deuxième groupe et donc ça on l'avait calculé ça fait 0,28 tu peux refaire le calcul si tu veux mais c'est la valeur qu'on avait trouvé donc finalement alors là je vais remonter un petit peu cette valeur là 1,65 x l'écart type de ma distribution d'échantillonnage de la différence des moyennes c'est je vais leur écrire ici 1,65 x x 1 - x sigma 2 x 1 bar - x de bach ça va être à peu près c'est 1,65 fois 0,28 voilà alors ça je vais le calcul est par contre avec la calculatrice balade d'ailleurs voilà on voit le calcul ici que j'avais fait avant racine c'est cette expression là que j'avais calculé ici est effectivement c'est 0.28 alors on va calculer maintenant ce produit-là 1,65 fois 0,28 ce qui fait 0,4 160 2 0 162 donc ça c'est 0,4 cent soixante deux voilà donc notre valeur critique ici c'est 0,4 cent soixante deux donc ça ça veut dire que en supposant que l'hypothèse nul est vrai on quand on prélève au hasard une valeur dans cette distribution d'échantillonnage ici en fait il ya moins de 5 % de chances qu'elle soit supérieure à cette valeur de cette valeur critique de 0.4 162 or nous ici on a une valeur 0.86 qui est largement supérieur à 0 point 4 162 1 je vais l'écrire ici donc en fait elle se situe par la voilà par ici donc sa probabilité est inférieure à 5% donc on va rejeter à 0 on rejette h 0 je l'écris ici on rejette l'hypothèse nul à ch 0 en faveur de l'hypothèse alternative selon laquelle effectivement ce régime alimentaire aide à perdre du poids alors avec un risque d'erreur de première espèce de 5% on peut rejeter h 02 donc on peut dire que le régime alimentaire est effectivement une bonne aide pour perdre du poids alors je voudrais rappeler à ce que ça veut dire ça veut dire qu'on fait quand on fait ce qu'on vient de faire ici on a moins de 5 % de chances d'avoir rejeté l'hypothèse nul alors qu'elle était vrai donc en fait on a une probabilité assez faible de l'avoir rejetée à tort voilà donc on à la réaliser un vrai test d'hypothèses et on en a conclu que effectivement ce régime alimentaire était un bon régime avec un risque d'erreur de 5 % risque d'erreur de première espèce de 5% donc je vais reformuler rapidement ce raisonnement si on suppose que notre hypothèse nul est vrai donc que le régime alimentaire n'a pas n'a pas d'effet eh bien il ya une très très faible probabilité d'obtenir ce qu'on a obtenu effectivement avec nos échantillons donc c'est une probabilité inférieur à 5% donc ça ça nous donne suffisamment de raisons de penser que cette hypothèse nul était étaient fausses donc que le régime alimentaire et est une bonne aide pour perdre du poids et quand on formule cette conclusion là on prend un risque inférieur à 5% de se tromper