If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Test d'hypothèse sur un pourcentage dans le cas d'un échantillon de grande taille

Est-il vrai que dans un certain pays plus de 30 % des ménages ont accès à internet ? Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

on souhaite tester l'hypothèse selon laquelle dans un pays donné plus de 30% des ménages ont un accès internet avec un seuil de signification de 5% pour cela on a prélevé un échantillon de 150 ménages et dans lequel 57 possède un accès à un accès internet alors bon c'est un test d'hypothèses donc on va commencer par définir nous nos hypothèses celle qu'on souhaite tester c'est l'hypothèse selon laquelle 30 % + plus de 30% des ménages ont un accès internet donc c'est plus de 30% donc ce qu'on va faire c'est qu'on va définir notre hypothèse nul on va dire que notre hypothèse nul c'est le contraire de ça c'est à dire que - en fait là on nous dit plus de 30% donc on va prendre comme hypothèse nul que moins de 30% des ménages ont un accès internet donc on va l'écrire comme ça à zéro notre hypothèse nul c'est que la proportion des ménages qui possèdent internet est inférieur ou égal à 30% voilà ça c'est comme ça qu'on va définir notre hypothèse nul et puis du coup l'hypothèse alternative elle ça va être exactement celle qu'on souhaite tester un c'est à dire que la nôtre comme ça h 1 celle là elle le suppose que plus de 30% des ménages ont un accès internet donc si le lot toujours p la proportion des ménages quant à qui ont un accès internet et bien d'autres hypothèses alternatives ça va être que paix est supérieure à 30% supérieur strictement à soit 30% donc c'est vraiment ça l'hypothèse alternative c'est vraiment celle qu'on cherche à tester alors maintenant on va procéder comme d'habitude on va commencer par supposer que l'hypothèse nul everett donc on suppose que h 0 est vrai et on va calculer en danse est en faisant cette hypothèse là on va calculer une paix valeur c'est-à-dire une probabilité critique et puis ensuite on va regarder quelle est la probabilité de quand on prend un échantillon de taille 150 échantillons de 150 ménages on va regarder quelle est la probabilité que dans cet échantillon 57 personnes 57 ménages pardon possède un excellent accès internet et si cette probabilité est inférieure à 5% à notre seuil de signification ici de 5% eh bien on va en conclure que l'hypothèse nul fosses donc on va la rejeter en faveur de l'hypothèse alternative qui ici voilà alors ici ce qu'on peut faire c'est déjà calculé la proportion de notre échantillon de ménages qui ont qui ont un accès internet donc ça c'est celle là je la notte comme sap et barre pour dire que c'est la proportion sera notre échantillon c'est 57 sur 150 pour ça je fais le calcul est avec la calculatrice alors 57 / 150 ça fait 0.38 0,38 donc ça veut dire que dans notre échantillon il ya 38 % je peux l'écrire comme ça aussi il ya 38 % de ménages qui ont effectivement un accès internet alors maintenant quand on suppose que l'hypothèse nul est vrai la ici on est dans un cas un peu particulier parce que notre hypothèse nul c'est pas une égalité c'est pas l'égalité d'une moyenne ou d'une proportion a une valeur donnée mais c'est une inégalité donc là on a dit que l'hypothèse nul c'était que la proportion d'utilisateurs qui ont de ménage pardon qui ont un accès à internet était inférieure ou égale à 30% alors là évidemment ce qui c'est pas très pratique il va falloir qu'on choisisse une proportion a en fait ça on va choisir la proportion qui maximise la probabilité d'avoir un échantillon de ceux avec cette proportion moyenne d'ici là donc évidemment je pourrais choisir une proportion de 29% ou de 28 pour cent mais dans ce cas là je serai je m'éloigne de la proportion de mon échantillon donc en fait je vais prendre la proportion la plus élevée dans la limite de mon hypothèse nul donc je vais prendre fait la valeur 30% donc on va dire que quand on suppose que l'âge de 15 0 est vrai on suppose que la proportion de ménages qui ont effectivement un accès internet est égal à 30% jeu la nôtre comme ça p20 et c'est effectivement la proportion qui va maximiser la probabilité d'avoir un échantillon dans lequel la proportion sera 38% voilà maintenant on va regarder un petit peu ce qu'on a en fait on est dans une situation de bernoulli puisque on a une population totale de ménage à laquelle on va demander est-ce que vous avez internet ou est-ce que vous n'avez pas internet donc on peut représenter la situation comme ça on a un certain nombre de ménages qui vont avoir effectivement un accès internet et ses envies dire que c'est la valeur 1 est donc là si on est dans le cas où l'hypothèse nul est vrai avec cette proportion là qui est vérifiée eh bien il va y avoir 30 % 30 % ici de ménages qui ont effectivement un accès internet donc à qui on associe la valeur et puis l'autre possibilité la deuxième il n'y a que deux possibilités c'est qu'il n'ait pas accès internet et ça on va le codé par la valeur zéro mais dans ce cas là évidemment la proportion de gens qui n'ont pas d'accès internet basse et le complémentaire de ça donc c'est 70% voilà j'aurais pu le faire un peu plus haut voilà ça c'est une loi de bernoulli qu'on connaît bien on peut calculer on peut calculer la moyenne la moyenne on sait que c'est 30 % donc je la place est ici la moyenne je vais l'appeler comme ça mu 2 à 0 et qui est égal à 0,3 30% ensuite on peut même calculer l'écart type 1 les alors l'écart type canton on est dans l'hypothèse nul eh bien on sait que c'est l'écart type dunois binôme et d'une loi de bernoulli pardon donc ses racines carrées de la proportion de ceux qui ont un accès internet donc ici 30% à 0 3 x la proportion de ceux qui n'ont pas d'accès internet donc ici c'est zéro virus est donc certes 3 x 0,7 donc ça en fait 0,3 fois 0,7 ça fait 0 21 donc l'écart type de notre distribution de bernoulli ici ses racines carrées de 0.21 on verra combien ça fait exactement ça plus tard en calculant avec la calculatrice alors maintenant ce qu'on doit faire en supposant que l'hypothèse nul est vrai on doit calculer la probabilité d'avoir un échantillon pour lequel la proportion de ménages qui sont équipés d'internet et de 38% alors pour ça on va faire comme d'habitude comme on faisait avec les moyennes ici on est dans le cas on a des proportions pas des moyennes donc on va aller regarder non pas la distribution d'échantillonnage des moyennes mais la distribution d'échantillonnage des proportions tu peux te faire une idée de ça parce qu'il s'agit en fait simplement d'aller d'aller regarder toutes les manières possibles de faire des échantillons de 150 personnes dans notre population donc en fait c'est précisément c'est une loi binomiale donc on va avoir en fait je vais faire un dessin on devrait avoir des bâtons de différentes tailles l'agent fait quelques-uns que ça c'est à chaque fois c'est je prélève des échantillons de taille 550 et je regarde la proportion donc le place ici la proportion donc voilà je vais avoir une série de bâton comme ça un grand nombre de bâton parce que là je considère que je vais regarder tous les échantillons possible de taille 150 donc voilà j'obtiens une loi binomiale alors ce qu'on sait aussi c'est que une loi binomiale pour détails des chantiers ont suffisamment élevé on va pouvoir l'approcher par une loi normale alors en fait il un test ici pour décider quand est-ce qu'on peut approcher une loi binomiale parent par une loi normale je crois qu'on l'a encore jamais vu donc je vais le donner ici on va s'en servir ce test c'est que il faut que n x p donc le produit de la taille de l'échantillon par la probabilité de succès soit supérieure à 5 et aussi que n fois la probabilité d'un succès donc 1 - paix soit également inférieur supérieure à 5 par donc voilà donc si on est dans des sens dans ces conditions là on va considérer que l'échantillon est de taille suffisamment élevé pour pouvoir approcher la loi binomiale par une loi normale donc là c'est ce que je vais faire puisque n ici c'est 150 et pc 0,30 0,03 0,30 donc paix don kent fois pc largement supérieure à 5 et puis ici on a du coup le produit 150 x 07 qui est aussi supérieure à 5 donc on est bien dans des dents les conditions de ce test donc on peut considérer que la taille de l'échantillon est suffisamment grande et qu'on peut approcher notre loi binomiale par une loi normale donc c'est ce que je vais faire ici je vais le faire c'était donc on a une loi normale en cloche donc là c'était des bâtons comme ça et puis voilà alors cette loi normale c'est donc la loi de la distribution d'échantillonnage des proportions et il se passe ici exactement la même chose qu'avec la distribution d'échantillonnage de moyenne en fait cette distribution est là la même moyenne que la distribution sur la population totale donc là on est dans le cas toujours pas oublier ça on est dans le cas où on a supposé que h0 était vrai et donc on suppose que la proportion dans la population initiale c'est ça et on retrouve ici cette valeur là donc ici on va pouvoir dire que la moyenne de la distribution d'échantillonnage des proportions c'est également 0.3 voilà et puis on va pouvoir aussi calculer l'écart type de cette distribution d'échantillonnage avec exactement le même procédé que quand on avait des moyennes donc l'écart type ici de notre distribution d'échantillonnage des moyennes on va le calcul et de cette manière là c'est l'écart type sur la population réelle donc pour nous c'est l'écart type qu'on a calculé ici en sachant que il 0 est vrai donc c'est ça on va noter comme ça c'est sigma 2 h 0 / la racine de l'échantillon de la taille de l'échantillon ici donc racine 252 ce qu'on a des échantillons de 150 voilà alors on a toutes les valeurs pour calculer ça ici c'est sigma 2 0 ses racines de 0,21 donc on doit / racines 250 voilà ça je peux le calculer avec la calculatrice alors racines gelé calculé de la même manière exactement comme je l'écris racines de 0,21 / racines 250 voilà je ferme la parenthèse et j'obtiens cette valeur là 0,037 4 donc fait je vais redire ici à 0,037 en millièmes donc ça une valeur arrondi de sa c zéro virgule 0,37 ça c'est l'écart type de la distribution d'échantillonnage des moyennes alors maintenant bon il faut qu'on calcule la probabilité dans ce dans ce cadre-là d'avoir un échantillon qui possèdent cette proportion la 2 38% donc on va essayer de calculer cette probabilité la probabilité d'avoir un tel échantillon là et puis si cette probabilité est inférieure à 50% et bien on pourra rejeter l'hypothèse nul alors pour ça on va faire exactement comme ce qu'on a fait dans les vidéos précédentes en fait on va calculer on va mesurer de combien cette proportion c'est de combien d'écart type par d'onces proportion s'écarte de la moyenne de la distribution d'échantillonnage des proportions donc en fait on va calculer la statistique du test qui va être une statistique z puisqu'on est dans le cas d'une loi normale alors on va le faire l'un je vais calculer cette statistique z je suis monté un peu trop alors la statistique z on la calcule comme ça c'est l'écart par rapport à la moyenne calculée mesuré en terme d'écart type donc c'est la moyenne de mon échantillon paix bar - la moyenne de la discrète la distribution d'échantillonnage des proportions enfin la gdi moyenne c'est pas la moyenne c'est la proportion sur meinau mon échantillon voilà donc ça c'est l'écart entre ces deux valeurs la proportion de l'échantillon et la moyenne des proportions ici et puis je vais diviser sa part mon écart type qui est sigma 2 p barre voilà alors là je peux calculer cette valeur puisque j'ai ici toutes les valeurs sont connus donc des bars et 38 % c'est 0.38 ici 0,38 - la moyenne de l'échantillon sas et 0.3 / l'écart type qui est de 0,0 37 0,037 alors je vais le faire à la calculatrice mais bon déjà je vais calculé le numérateur 0 38 - 03 ça fait 0,08 0,08 que joe / 0,037 donc je vais faire ça avec la calculatrice 0,08 / 0,037 0,08 / 00 37 hockey ensuite alors ça me donne 2,16 2,16 21 donc ma statistique ici c'est 2,16 jeu arrondie au dixième au centième pardon alors ça ça veut dire que la proportion de notre échantillon elle est située à 2,16 écart type de la moyenne est en fait ici ce qui nous intéresse ce les valeurs supérieures à la moyenne puisque c'est dans ce cas là qu'on sera dans l'hypothèse alternative donc on est dans une situation unilatérale et donc notre proportion sur l'échantillon elle est située à 2016 et karti au dessus de la moyenne donc elle est située paris si quelque part par là voilà alors ce qu'on va faire maintenant c'est calculer la probabilité d'avoir une valeur supérieure à ça et si cette probabilité là est inférieure à 5% alors à ce moment là on pourra rejeter l'hypothèse nul donc on va se reporter comme d'habitude à une table de la loi normale qui est ici alors je vais faire un petit dessin pour se rappeler ce qu'on a dans cette table en fait nous on a donc je vais dessiner la table la cour de la loi normale ici ça va être la loi normale centrée réduite 1,2 moyenne 0 et d'écart type 1 donc ça c'est la moyenne qui est nul voila et l'écart type il est de 1 est ce que donne la table ici c'est la probabilité d'avoir une valeur inférieure à une certain nombre d'écarts type alors ici si je prends la valeur 1 par exemple je vais avoir la la probabilité d'avoir une valeur inférieure à un écart-type ça sera la probabilité d'avoir une valeur inférieure à 1 puisqu'on a un seul écart type mais quand on traduit ça en termes de la loi normale d'une autre loi normale c'est la probabilité que la valeur soit inférieure à un an et à un écart-type voilà alors ici on doit d'abord identifier une valeur limite pour nous qui va va représenter notre seuil de signification de 5% ici on a un seuil de signification de 5% et donc on doit matérialiser ce seuil la alors ça veut dire qu'on va chercher une valeur une statine valeur de la statistique z pour laquelle cette surface cela va représenter 5% ça ça c'est ce qu'on va chercher d'abord pour identifier pour délimiter notre notre seuil de signification est en fait du coût des limites et notre zone de rejet alors cette valeur là ici elle s'appelle la valeur critique la valeur critique ou bien aussi on dit limites de rejets et puis la zone que j'ai assuré ici c'est la zone de rejet c'est la zone pour laquelle en fait si on a une statistique z qui est dans cette zone là eh bien on va rejeter l'hypothèse les potaches 0 puisqu'en fait un tel résultat sera vraiment très peu probable voilà avec les provinces il aura une probabilité inférieur à 5% ce qui est peu voilà alors pour pouvoir utiliser la table de la loi normale en fait ce qu'on va regarder ce n'est pas cet air là mais c'est tout le reste puisqu'on a dit que dans la table été recensés les probabilités de de valeur inférieure à une valeur donnée donc je vais en fait on va aller rechercher de cette probabilité là et cette probabilité là nous on doit on sait qu'elle doit être de 95 % 1 puisque la totalité de la doit faire 100 % donc cette partie là fait 95% donc on doit chercher dans la table une valeur de la variable z1 de la variable centrée réduite pour laquelle cette probabilité qui figure dans la table de la loi normale et 2 95% donc on fait comme ça on cherche on scanne on regarde tous toute cette table et on cherche les valeurs les plus proches de 95% donc ici je suis alors 94 01 94 95 ça c'est fait 94 95 % donc ça sera un peu trop faible pour nous on va prendre celle là 0.95 05 ça c'est du coup un peu plus que 95 % 1 donc c'est ça sera un petit peu plus que ce que ce qu'on cherche mais tant mieux parce que du coup on aura encore plus de certitudes sur notre notre zone de rejet alors donc j'ai dit qu'on prenait cette valeur là alors pour trouver la valeur de la variable centrée réduite associée à cette probabilité là on cherche d'abord dans sa clinique si ça nous donne l'unité le nombre d'unités noms de dizaines et puis pour trouver le nombre de centièmes il faut se reporter à cette colonne l'a donc fait en fait c'est 1,65 1,65 voilà donc la valeur critique c'est 1,65 ce qui veut dire que la probabilité d'avoir une valeur supérieure à 1,65 elle est inférieure à 5% puisqu'on sera en fait dans cette que de distribution par ici donc exactement ce qui se passe pour nous là on a une statistique de tests qui vaut 2016 donc 2,16 c'est ici un à peu près voilà je le peux le placer ici ça c'est 2016 c'est notre statistiques du test et elle est largement supérieur à 1,65 donc effectivement si on suppose comme on a fait que l'hypothèse nul est vrai donc que la proportion est égal à 30% et bien c'est vraiment très très peu probable ya moins de cinq chances sur cent d'avoir un échantillon comme celui qu'on a eu donc comme on a eu effectivement un échantillon de ce genre là on va en déduire que il faut rejeter l'hypothèse nul voilà donc ça je vais l'écrire donc on rejette on rejette l'hypothèse nul et du coup on en déduit que l'hypothèse alternative est bonne donc que la proportion de ménages qui sont équipés d'internet est supérieure à 30% c'est ça qu'on va retenir voilà alors ça y est on a terminé on a répondu à la question je voudrais juste faire une petite une petite parenthèse ici on aurait pu très bien trouvée dans la table cette valeur la probabilité de cette valeur là la probabilité d'avoir une valeur inférieure à 2 16 on peut la trouver ici 2016 ce sera ici donc la probabilité d'avoir une valeur inférieure à 2,16 0.98 46 donc c'est à peu près 98 5% et du coup la probabilité d'avoir une d'avoir une valeur supérieure à 2 16 et bien c'est un peu moins d'un pour cent et demi donc c'est vraiment très très faible donc on serait arrivé à la même conclusion alors dans ce cas là ce qu'on aurait fait ses calculs et cette probabilité là ici calculer la probabilité que je hachures ici ça a c'est ce qu'on appelle la paix valeur et ici elle vaut 1,5 1,5 pour cent donc elle est largement inférieure à notre seuil de signification et donc on serait arrivé à la même conclusion de cette manière là