If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Écart type et écart type corrigé d'un échantillon

. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans cette vidéo on va imaginer qu'on est un des producteurs de pastèques et qu'on est en train d'essayer de sélectionner une variété de pastèque qui a kel moins possible de pépin alors donc on fait des croisements de pied de pastèques et puis on voudrait mesurer le succès de notre croisement donc il faudrait qu'on arrive à mesure et avoir une idée du nombre de pépins et le voir si vraiment ils diminuent alors évidemment le but c'est pas d'aller ouvrir toutes les pastèques pour compter pour regarder combien il ya de pépin dedans parce qu'évidemment notre but c'est de les vendre ses pastèques donc on va pas aller ouvrir toutes les pastèques ce qu'on va faire c'est prendre un échantillon seulement va simplement prélever un échantillon de nos pastèque et puis en fait ce qu'on va faire c'est pour chaque pastèque on va couper un petit cube dedans découpée en petits cubes comme ça comme celui ci et puis dans chaque petit cube on va compter le nombre de pépins alors par exemple on peut supposer qu'on a d'abord dans le premier cube on a quatre pépin bon on va prendre ici un échantillon de petite taille pour simplifier nos calculs donc dans le premier cube on a trouvé 4 pépin dans le deuxième on a trouvé trois pépin dans le deuxième cinq dans un autre et un set puis 2 10 ont ensuite dit donc neuf y avait neuf pépin dans un autre et puis 11 et puis cette voie là alors ça c'est un petit échantillon bon alors pour pour clarifier c'est juste un échantillon pour clarifier en fait je vais dessiner ici ça ce qui représente la pop à la population des petits cubes qu'on pourrait faire dans la totalité de production delà de notre production de pastèques donc disons par exemple ici on pourrait faire un million de petits cubes 1 millions de types de petits cubes et nous ce qu'on fait c'est prélever prélever uniquement un tout petit échantillon c'est vraiment un petit échantillon là il a une taille de 8 donc ici cet échantillon on va noter sa taille petite haine et ses 8 alors que la taille de la population voilà c'est grant n égale 1 million grant nc ceux traditionnellement c'est comme ça qu'on note l'effectif d'une population et petit nc l'effectif d'un échantillon évidemment ici là l échantillon est très petit ça serait mieux d'avoir un échantillon un peu plus grand pas mal plus grand même mais bon là ça sera ça va simplifier nos calculs donc on va garder ce petit échantillon alors quelles statistiques quel indicateur on peut essayer de calculer dans notre situation alors on avait vu plusieurs types la première chose c'était d'essayer de calculer une mesure qui est un indicateur de position c'est-à-dire une valeur un peu centrale et cette valeur centrale c'est ce qu'on avait appelé la moyenne alors ici évidemment on va pas calculer la moyenne de notre population la moyenne réelle sur la population ne doit pas calculer le nombre moyen réel de pépins dans toute la population mais on va le faire simplement sur l'échantillon alors sur l'échantillon qu'est ce que ça va nous donner pour calculer cette moyenne est on est on sait qu'il suffit d'additionner toutes les données et de diviser par le nombre de données donc on va alors la moyenne de l'échantillon c'est toujours en la note x barre donc je vais faire c'est donc ça je vais le faire directement 4 + 3 ça fait 7 7 + 5 12 12 + 7 19 plus de 21 +9 ça fait 30 + 11 41 41 et 7,48 donc donc la somme des données ses 48 et il faut diviser sa part le nombre de données qui est 8 ce que notre échantillon et contient huit donné alors 48 / 8 ça fait 6 donc là ce qu'on peut dire c'est que dans notre chez échantillons il ya en moyenne 6 pépin parcub alors cette moyenne de l'échantillon en fait on va on va s'en servir comme estimateur de la moyenne du nombre moyen de pépins dans toute la population mais bon comme d'habitude ça ça va pas tout à fait nous suffiront va est ce qu'on va faire c'est essayer de mesurer un petit peu la variation des deux des données autour de cette troyenne pour avoir une idée de la dispersion des données justement autour de cette valeur qu'on considère comme une valeur centrale et donc ça ça va nous conduire à calculer la variance alors évidemment on peut pas calculer la variance sur toute la population donc on va calculer la variance de l'échantillon et comme d'habitude on va s'en servir pour donner une estimation de la variance sur la population alors ici comme l'échantillon est de petite taille si on va calculer la variance corrigé de notre échantillon ça situe si tu sais pas très bien pourquoi eh bien tu peux aller regarder les vidéos précédentes là dessus c'est comme ça tu pourras te faire une idée alors comment est-ce qu'on va calculer cette variance donc la variance de l'échantillon corriger on va l'appeler s au carré corps corriger pour corriger alors sabah pour calculer une variance on commence par faire la part calculée les écarts par rapport à notre moyenne et puis on élève au carré ces écarts et on fait la somme est ensuite on divise par le nombre de données diminué de 1,1 puisqu'on est dans une variance corriger alors donc pour la première donnée ces 4 - la moyenne qui est 6 j'élève au carré plus trois mois la moyenne qui est qui et 6 élevée au carré + 5 - 6 élevée au carré +7 - 6 élevée au carré +2 -6 élevée au carré j'ai pu avoir de places plus 9.6 élevée au carré plus j'ai déplacé un petit peu ça voilà plus alors 11 - 6 élevée au carré +7 - 6 élevée au carré voilà et tout ça je dois le diviser par le nombre de données qui est 8 diminué de 1 donc ça fait 8 - 1 sept je dois diviser sa part 7 alors je vais commencer par calcul et les parenthèses ici dans 4 - 6 ça fait moins de élevée au carré ça fait 4 3 - 6 ça fait moins trois élevée au carré ça fait 9 5 mois ci s'est levé au carré sainte croix si ça fait moins élevée au carré ça fait 1 7 mois si ça fait 1 élevée au carré ça fait un aussi 2 - si ça fait moins quatre élevée au carré ça fait 16 9 - 6 ça fait 3 élevée au carré ça fait 9 11 - si ça fait 5 élevée au carré ça fait vingt-cinq et puis sept mois si ça fait 1 élevée au carré ça fait 1 donc maintenant je vais faire la somme de du déni des nombres qui sont dénominateur donc 4 + 9 ça fait treize +1 14 +1 15 +16 ça fait trente et un puce 9,40 +25 ça fait soixante cinq plus un 66 donc on a ici 66 / 7 alors ça par contre je vais faire avec la calculatrice alors 66 / 7 ça nous donne ce nombre là je vais arrondi au millième donc ça nous fait 9,4 129 donc une valeur approximative de notre variance et 9,4 129 alors on a vu dans la fpt dans la vidéo précédente que une fois qu'on avait calculé la variance d'une population on pouvait pour avoir une mesure de dispersion qui s'expriment dans des bonnes unités vous pouvez calculer l'écart type de la variance et l'écart type de la variance on l'avait défini comme ça alors là c'était la lettre grecque sigma et c'était la racine carrée de la variance voilà alors ça c'est ce sont les paramètres sur la population donc ici ce qui est ce qui serait assez logique c'est d'aller faire la même chose sur notre échantillon c'est à dire que nous on va définir l'écart type de notre échantillon comme étant la racine carrée de la variance ici ça va être de la variance corrigé alors en général la variance corriger c'est le meilleur estimateur delà de la variance sur toute la population donc c'est ce qu'on va faire ici on va définir tout simplement notre écart type de cette manière là l'air se mettre l'écart type corriger et on va le définir comme la racine carrée de la variance corriger voilà alors là je vais le faire avec la calculatrice évidemment donc je vais prendre la racine carrée de 9 429 qui était une valeur approximative de notre variance de l'échantillon donc 9,4 129 et je prends la racine attention parce que avec cette calculatrice on doit d'abord taper le nom mais ensuite utiliser la fonction racines dans les autres calculatrice plus évolué c'est plutôt le contraire on fait racines et ensuite en inde on tape le nombre voilà donc on obtient ce nombre-là 3,07 0666 et ainsi de suite bon là je vais arrondir au millième donc ça me donne 3 071 alors je vais l'écrire ici 3 071 donc ce nombre là c'est un nombre de pépins exactement comme les données initiales alors bon c'est pas égales c'est une valeur approché seulement voilà alors là je vais te dire quelque chose qui va peut-être te paraître un petit peu contre intuitif mais tu vas voir que c'est important quand même on avait si tu te rappelles dans les autres vidéos on avait introduit la variance et puis on l'avait corrigée en fait la variance on faisait cette somme là et ont divisé par le nombre total de données alors que la vaillance corrigé ont divisé par le nombre de données diminué de 1 common comment faisait ici on avait fait des simulations on avait vu que cette variante corriger ça fournissait un meilleur estimateur de la variance de la population donc du paramètre variance sur la population alors évidemment on peut se dire que c'était cet écart type corrigé qui est là bas ça va être aussi notre puisqu'on prend la racine carrée de notre variance corriger on peut penser que du coup notre écart type corrigé de cette manière là quand on calcule en faisant la racine carrée de la variance corriger ça va être le meilleur estimateur possible de l'écart type sur toute la population est en fait on se rend compte avec des simulations que c'est pas vrai c'est pas vrai en général cet écart type corrigé n'est pas le meilleur à estimateur de l'écart type sur toute la population et ça c'est parce que cette fonction racines carey qui est utilisé ici c'est une fonction qui n'est pas linéaire elle et non linéaire et en fait bon je vais pas rentrer dans les détails mais ce qui est important c'est que du coup on a un estimateur on a une variance corrigé qui est le meilleur un estimateur de la variance de la population mais l'écart type corrigé n'est pas le meilleur estimateur de l'écart type sur toute la population donc là évidemment on peut se dire bon bah on a fait tout un travail pour arriver à avoir une variance corrigé qui soit un bon estimateur de la variance de la population pourquoi est-ce qu'on fait pas la même chose avec l'écart type est en fête la situation est beaucoup beaucoup plus compliqué avec l'écart type à cause de cette non linéarité en fait on avait réussi à définir une variance corriger en simplement en divers en divisant par haine - au lieu de diviser par la taille de l'échantillon n donc c'était ça c'était quelque chose qui était valable pour toutes les distributions donc pour toutes les populations alors qu'en fait dans le cas de l'écart type avec cette racine cette racine car elle qu'on doit prendre est bien la correction va dépendre complètement de la distribution de la population donc c'est vraiment beaucoup plus compliqué c'est pour ça que finalement on s'en tient à cette définition la de l'écart type d'un échantillon donc ce qu'il faut retenir c'est que même si c'est pas le meilleur estimateur qu'on pourrait espérer pour l'écart type d'une population l'écart type d'un échantillon l'écart type d'un échantillon on va le définir comme ça exactement comme on l'a fait ici c'est à dire en prenant la racine carrée de la variance corrigé donc si je veut réécrire la formule complète ça va être la somme pourri qu'eva égale qui va de 1 jusqu'à haine des carrés des écarts par rapport à la moyenne donc x y - x bar élevée au carré le tout divisé non pas par haine mais pas rennes - 1 et puis il faut prendre la racine carrée de tout ça voilà donc finalement on se cantonne à cet écart type là pour l'échantillon c sachant que c'est pas toujours le meilleur estimateur possible