If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Variance d'échantillon

Réfléchir à la façon dont nous pouvons estimer la variance d'une population en regardant les données constituant l'échantillon. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans cette vidéo on va on va supposer qu'on mène une enquête sur le nombre d'heures passées devant la télévision lors par exemple dans un pays quelconque donc disons en france alors idéalement ce qu'on devrait faire c'est aller interroger chaque français et lui demander combien d'heures il a passé devant la télévision un jour donné qu'on choisirait un jour et puis on irait faire cette enquête ce jour-là auprès de tous les français donc voilà je vais représenter ici la population des français alors le problème c'est que ça serait le cas avec n'importe quel pays si on veut faire une enquête au niveau d'un pays pour un pays pour n'importe quel pays on aurait le même problème ici on devrait aller interroger environ environ 60 millions de français ça c'est le nombre de le nombre de français donc il faudrait aller interroger 60 millions de français et à ce moment là on pourrait calculer le nombre moyen d'heures passées devant la télé ce jour là donc ça nous donnerait à paramètre un paramètre réel qui serait le nombre d'heure moyen passé devant la télé ce paramètre comme c'est un paramètre sur la population on ne dénote par cette lettre grecque mais voilà donc ça c'est théoriquement le paramètre réel c'est une c'est une vérité ce paramètre là c'est le temps moyen passé par les français mais c'est un paramètre qui est théorique uniquement parce qu'en fait c'est pratiquement impossible d'aller vraiment calculé ce paramètre je veux dire même si on supposer qu'on pouvait faire cette enquête qu'on avait les moyens d'aller interroger les 60 millions de françaises à prendre est tellement de temps que entre le moment où on commence lankais théoule et le moment où elle aurait fini ben la population aurait changé par exemple j'en aurai certains qui seraient morts d'autres qui serait né donc le la population ne serait plus la même donc le paramètre qu'on aurait ne serait plus forcément représentatifs de la population à la fin de l' enquête voilà donc ça c'est un paramètre théorique tout à fait réelle mais impossible est pratiquement impossible à calculer donc est ce qu'on fait en général on l'a déjà vu dans d'autres vidéos c'est que on va pas aller interroger tous les français on va sélectionner un échantillon de français ou fait une prélèvements aléatoires d'un certain nombre de français donc c'est important de le fait d'avoir un prélèvements aléatoires pour pâques et de biais donc on va aller prélever un échantillon voilà je prélève un échantillon donc évidemment il faut essayer de prélever un échantillon assez large nous ici on va on va prélever ce simplement un échantillon de 6 personnes des calculs plus simple donc on a notre échantillon de 6 personnes et on va leur demander à chacun un abattoir combien tu as passé deux heures devant la télé aujourd'hui donc par exemple y en a un qui va répondre 20h30 un deuxième qui va répondre 2h30 un troisième quatre heures un quatrième deux heures et puis un autre une heure et un dernier une heure voilà ça c'est no 6 personnes et c'est le temps qu'ils ont passé devant la télé ce jour là alors à partir de cet échantillon on peut calculer la moyenne en calculer la moyenne de cet échantillon alors la moyenne d'âge d'un échantillon c'est une statistique ons la note par x barre c'est pas si tu te souviens de la distinction entre ce qu'on appelle un paramètre qui qui est une mesure effectuée sur toute la population et une statistique qui est une mesure effectuée sur un échantillon seulement donc ça c'est la moyenne sur un échantillon et en notes traditionnellement par x barre alors cette moyenne de l'échantillon c'est tout simplement la somme des données divisé par le nombre des données donc là on va additionner le nombre d'heures passées par tout toutes les personnes de notre échantillon et on va diviser par 6 qui est nombre des champs de personnes alors je vais le faire 1.5 +25 +4 +2 plus un plus un et on doit diviser tout ça par six puisque à six personnes alors je vais faire l'addition 1,5 +25 ça fait 4 +48 plus de 10 + 1 11 + 1 12 donc on a 12 sur 6 12 sur six ça fait deux donc voilà la moyenne de notre échantillon c2 qui veut dire que dans notre échantillon les gens ont en moyenne regarder la télé deux heures ce jour-là alors cette statistique à x barre cette moyenne de l'échantillon c'est une tentative de d'estimer le paramètre c'est à dire le nombre d'heure moyen passé devant la télé ce jour là en france alors évidemment bon c'est ce qu'on a ici on pourrait peut-être avoir quelque chose une meilleure estimation du paramètre mu si on avait par exemple un échantillon de taille plus grande de taille plus élevé mais bon là c'est ce qu'on a donc on va faire avec ça alors voilà bon ça c'est pour la moyenne maintenant quand on fait une étude statistique on a déjà vu que la moyenne ce n'était pas forcément suffisant et donc là ce qu'on a envie de faire c'est de calculer aussi là un autre paramètre un paramètre qui veut donner une idée de la dispersion c'est à dire on a envie de calculer la variance la variance rappelle-toi la variance on l'a noté par cette lettre sigma lettres sigma minuscule au carré voilà alors ça ben en général pour les mêmes raisons que pour le paramètre mu et bien c'est pratiquement impossible à calculer donc là aussi on va devoir faire autrement on va devoir finalement se contenter de notre échantillon est en fait ce qu'on va faire c'est calculé la variance de notre échantillon et puis espérer que ce soit un bon estimateur de notre variance sur la population alors comment est ce qu'on aurait fait pour calculer si est théoriquement c'est possible théoriquement de calculer la variance sur la population et bien pour calculer ce paramètre là ce qu'on aurait fait c'est calculé d'abord la moyenne muet évidemment ensuite on aurait pris chaque donnée on aurait mesurer son écart par rapport à la moyenne on aurait élevée au carré danse 8 en or et al additionnez tous ces carrés des écarts par rapport à la moyenne et / la population totale donc par 60 millions ici voilà c'est ce qu'on aurait fait alors comment est-ce qu'on peut calculer la variance sur notre échantillon ben on va on va faire la même manière donc en fait on va maintenant restreindre notre attention à notre échantillon est calculée faire comme si c'était notre population en fait un pour l'instant juste pour les calculs donc on va calculer les écarts par rapport à la moyenne de notre échantillon bien sûr puisqu'on se on se restreint notre échantillon l'élever au carré et puis faire la somme est divisé par le nombre de données alors je vais le faire je vais commencer on l'a d'abord cette première donné 1,5 donc jeu voire 1,5 - la moyenne de notre échantillon qui est deux j'élève ça au carré plus ensuite je vais faire la même chose avec la deuxième donnée qui est celle ci 4 donc c'est 4 - la moyenne de l'échantillon qe2 élevée au carré plus alors je vais prendre ce 1 + 1 - la moyenne de l'échantillon qui est 2 et le taux élevé au carré je continue à jouer exactement la même chose avec les autres données là je vais prendre ce verre par exemple +2 5 - 2 au carré plus l'âge et ce2 donc plus 2 - 2 élevée au carré plus je continue avec cette dernière donnée qui est là donc plus 1 - 2 élevée au carré et puis là je vais diviser sa part le nombre de données donc le nombre de données c'est si simple puisque c'est la taille de notre échantillon alors maintenant je vais faire ses calculs donc lui et prendre une couleur neutre 1,5 moins deux ça fait 0.5 ça fait moins 0.5 pardon j'élève au carré donc ça me donne 0,25 ça 4 - 2 ça fait deux élevée au carré ça fait 4 1 - 2 ça fait moins élevée au carré ça fait 1 donc là j'ai un 2.5 moins deux ça fait 0 5 élevée au carré ça fait 0,25 0,25 2 - 2 ça fait zéro donc 0 au quart et ça ça fait 0 puis la g1 moins de 2 c'est à dire moisins j'élève au carré ça fait voilà alors maintenant je vais calculé ça donc je vais commencer par additionner les nombres entiers ici j'ai quatre plus un plus un ça fait 6 et ensuite j'ajoute 0.25 plus 0.5 c'est à dire ça ça fait 0 5 donc finalement j'ai 6.5 est divisé par six alors bon ça on pourrait écrire de différentes manières je vais prendre la calcul triste pour le calcul et 6,5 / 6 ça fait 1 0833 3 3 donc je vais arrondir sa à 1,08 1,08 voilà ça c'est la variance de notre échantillon alors cette variance s'éteint c'est une ce qu'on appelle une statistique puisque c'est calculé uniquement sur un échantillon qu'on essaie donc pas un paramètre qui concerne toute la population alors pour différencier justement avec la variance de la population sigma au carré et bien cette variance de l'échantillon la note comme ça s au carré alors on va essayer de donner une formule d'écrire une formule pour cette variante de l'échantillon avec qui utilisent les symboles qu'on a utilisé déjà pour la moyenne et la variance d'une population alors ce qu'on fait ce qu'on a fait ici je répète c'est prendre chaque donnée mesurée son écart par rapport à la moyenne de l'échantillon élevée au carré ensuite on a additionné tous ces écarts au carré élevée au carré et on a divisé par le nombre de données donc si on veut écrire une formule générale en fait ce qu'on aurait c'est une somme deux des écarts des données par rapport à la moyenne donc ça serait x y ça c'est la donne et x6 - x bar élevée au carré alors pourri qui va de 1 jusqu'à alors ici ça serait x1 x2 x3 x4 x5 et x6 donc irait de 1 à 6 mais dans le cas général où on a un échantillon de taille n est bien la somme irait de vie égal 1 jusqu'à m et puis en fait après on a divisé par le nombre de données qui est n voilà donc ça c'est la variance de l'échantillon voilà alors il existe une autre manière de calculer la variance principalement quand on a des échantillons de petite taille comme c'est le cas ici parce que effectivement la question qu'on doit se poser de toute façon le but c'est vraiment ça c'est d'essayer de de savoir dans quelle mesure cette variance de l'échantillon est un bon estimateur de la variance de la population est en fait ce qui se passe c'est que cette variance qu'on a calculé de cette manière là bien c'est pas toujours la meilleure estimation de la variance sur la population en fait dans certains cas surtout quand les les échantillons sont de petite taille on a une possibilité pour avoir une meilleure estimation c'est ce qu'on appelle la variance corriger en la note comme ça est ce corps est en fait cette variante cela il va être défini exactement par un le même calcul qu'on a fait ici au numérateur mais au lieu de diviser par le nombre total de valeur dans de données dans l'échantillon par on va diminuer ce dénominateur de 1 donc au lieu de diviser cette somme paraît non vas / n - 1 donc la variance corriger c'est on l'écrit de cette manière là c'est la somme qui pourrit qui va de 1 à n d écart par rapport à la moyenne élevée au carré / non pas haine mais pas rennes - 1 ça c'est la variance corriger alors évidemment ça peut paraître un peu bizarre on peut se demander d'où ça vient j'essaierai de donner une explication un peu intuitive du fait de pourquoi cette variance corrigé dans certains cas est un meilleur estimateur de la variance de la population en fait si on regarde les choses telles qu'elles sont on a un échantillon calcul ça variance une se peut que ce soit un très bon estimateur mais si on fait ça sur plusieurs échantillons en fait on va se rendre compte que dans certains cas cette variance corrigé fournit une meilleure estimation de la variance sur la population voilà bon c'est un peu flou comme ça on essaiera de voir ça dans d'autres vidéos ce qu'il faut retenir c'est qu'on peut essayer d'estimer la variance de la population à partir d'un échantillon calculant la variance de l'échantillon de cette manière là mais que dans certains cas surtout quand le la taille de l'échantillon est faible cette variante calculé de cette manière là sera en général un peu plus faible que la variance de la population en fait en quelque sorte l sous-estiment la variance de la population et du coup dans ces cas là il sera préférable d'utiliser la variance corrigé qui sera le meilleur estimateur donc ça c'est la variance corrigé de l'échantillon bien sûr voilà donc bon on peut aussi essayer de faire des simulations par ordinateur peut-être que ça ça peut clarifier pas mal les choses enfin voila on creusera ça un peu dans d'autres vidéos vient bientôt