If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Pourquoi on divise par n-1 pour calculer la variance d'échantillon

Retour sur les définitions de la moyenne de la population, la moyenne de l'échantillon, la variance de la population, la variance de l'échantillon. Le pourquoi de la division par n-1 dans la formule de la variance sans biais de l'échantillon. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans cette vidéo on va revoir un petit peu tout ce qu'on avait vu en statistiques jusqu'à maintenant enfin tout ce qui concerne les indicateurs qu'on avait pu étudier dans les vidéos précédentes et en particulier on va essayer de comprendre pourquoi parfois il est plus intéressant d'utiliser la variance corrigé que la variance quand on a un échantillon pourquoi est ce que ça donne une meilleure estimation dans certains cas voilà alors on va commencer par prendre une population comme d'habitude donc on va dire que cette population elle est de taille grant n et puis on va prendre un échantillon qui va être de taille petite haine donc ici dans la population il ya n grant and honey et dans l'échantillon il ya petit and honey alors qu'elles étaient les indicateurs dont on avait parlé dans les dents les dans les vidéos précédentes il y avait d'abord la moyenne la moyenne qui était la moyenne arithmétique alors dans le cas d'une population est ce que cette moyenne va être un va s'appeler un paramètre ou bien une statistique alors ce qu'on avait vu c'était que dans quand on calcule et un indicateur sur toute la population on appelait ça un paramètre donc ça je vais l'écrire quand on parle quand on calcule un indicateur n'importe lequel sur toute la population on appelle ça un paramètre voilà et puis quand on quand on s'occupe quand on calcule cette semaine d'indicateurs sur un échantillon eh bien on appelle ça une statistique statistiques alors c'est une distinction importante parce que ce qui se passe c'est que on peut souvent pas calculer la moyenne sur la population entière donc on la calcule sur un échantillon et tout le jeu ça va être justement de se servir de cette statistique pourrait évaluer le paramètre 1 pour donner une estimation du paramètre alors bon la moyenne comment est-ce qu'on l'avait introduite dans le cas d'une population on avait dit que c'était alors d'être déjà on l'appelle mu on a des notes parce cette lettre grecque mu et puis on avait dit que c'était moi que pour la calculer il fallait faire la somme de toutes les données donc ça je vais l'écrire comme ça avec ce symbole là donc c'est la somme des données pourri qui va de 1 jusqu'à grant n donc dxy donc ça ça veut dire que je fais la première donne n'est plus la deuxième donner plus la troisième données et ainsi de suite jusqu'à la dernière donne donné alors la première on l'appelle x1 la deuxième 6 2 la troisième x3 et ainsi de suite jusqu'à la dernière qui s'appellera x grant n et puis ensuite pour avoir effectivement la moyenne il fallait diviser cette somme par le nombre de données qui du coup et grands thèmes donc ça c'était le paramètre moyenne sur la population et quand comment est ce qu'on fait pour calculer la moyenne sur l'échantillon donc une seule la statistique dans ce cas là eh bien on fait quelque chose de vraiment tout à fait analogue on va faire là aussi la somme de toutes les données en divise et divisé par le nombre de données donc par contre la différence c'est qu'ici on va l'appeler x barça c'est la notation traditionnelle et du coup on va faire la somme pourri qui va de 1 jusqu'à petit n puisque la ja petit and honey dxy voilà donc ces x6 sont les données de l'échantillon qu'on a appelée aussi x1 x2 x3 jusqu'à x petit n et puis ensuite il va falloir divisé par le nombre de données qui s'y est petit n puisque c'est la taille de notre échantillon donc il ya petit and honey donc là dans les deux cas un ce qu'on fait c'est faire la somme de toutes les données et divisé par le nombre des données que ce soit pour la population ou pour l'échantillon la différence c'est qu'ici aura beaucoup moins de données alors il y avait aussi un autre indicateur important qu'on avec on avait étudié qui donnait une idée de la dispersion des données autour de cette moyenne qui est une valeur centrale alors cet indicateur s'était ce qu'on avait appelé la variance variance alors quand on calcule cette variante sur la population c'est un paramètre est content la calcule sur un échantillon c'est une statistique exactement comme tout à l'heure pour la moyenne alors ce qu'on avait vu c'était que cette variance et bien on la calcule on l'a noté pour la population quand c'était un paramètre en la note sigma au carré donc c'est sigma en minuscule dans cette lettre grecque minuscule sas et sigma majuscule et ça c'est sigma minuscule donc sigma au carré et puis pour la calculer en fait ce qu'on faisait c'était en quelque sorte la ont calculé la moyenne des carrés des distances à la moyenne des écarts à la moyenne donc en fait on calculait une somme sur toute la population donc pourri qui va de 1 jusqu'à grand tu n es enquête alors on faisait en mesure est d'abord la distance de la donner par rapport à la moyenne donc c'était x/y - u qu'on élevée au carré ensuite on additionner tous ces termes là et finalement on divisait tout ça par le nombre de données c'est à dire ici grands thèmes alors évidemment pour calculer la variance à partir de cette formule il faut d'abord avoir calculé la moyenne et ensuite on peut calculer 7,7 variance on verra qu'il ya d'autres formules qui permettent de calculer la variance mais celle ci est probablement la plus intuitive parce qu'elle fait apparaître les écarts par rapport à la moyenne alors maintenant on va en venir à la partie qui est un peu plus le sujet de la vidéo c'est qu'on va essayer de calcul et maintenant la variance de l'échantillon alors là on m'avait déjà vu qu'ils avaient plusieurs façons de calculer cette variance la première c'est de faire exactement le même type de calcul que ce qu'on a fait pour la population pour la variance de la population et dans ce cas là on a on obtient ce qu'on a ce qu'on appelle une la variance tout simplement et on la note comme ça avec un s au carré et puis pour calculer cette variance ont fait le même type de calcul mais en procédant uniquement en ce en procédant uniquement sur l'échantillon donc en fait on va calculer là aussi la moyenne du carré des distances par rapport à la moyenne de l'échantillon donc on va faire une somme sur toutes les données là qui vont de vie égal 1 jusqu'à petites haines et puis alors je vais calculé pour chaque 2 je vais prendre son écart par rapport à la moyenne donc ça c'est xxi - x bas-rhin puisque c'est la moyenne de l'échantillon ici n'ai-je élèves ça au carré pour voir le carré de cette distance est ensuite donc j'additionne tous ces termes et je divise par le nombre de termes de l'échantillon par la taille de l'échantillon qui est petit n voilà alors ça c'est ce qu'on appelle la variance de l'échantillon mais on avait vu la dinde ans dans la vidéo précédente que certaines fois cette variante n'était pas un très bon estimateur de la variance de la population et on avait introduit une une variance corrigé qu'on avait appelé variance corrigé qui était en fait un estimateur un peu meilleure dans certains cas que cette variante 6 alors on avait vu que cette variance corriger on l'avait on l'a noté comme ça est-ce de corps corriger et puis on l'a calculé à peu près de la même manière donc en faisant en calculant aussi le carré des écarts par rapport à la moyenne la somme des carrés des écarts par rapport à la moyenne donc c'est la somme de illégal 1 jusqu'à n 2 x y - x bar au carré mais pour cette variante corriger en fait on ne va pas / n mais on va / and was a donc la taille de l'échantillon diminué de 1 alors déjà ce qu'on peut remarquer sur ces deux formules qui sont là c'est que dans la deuxième dans la variance corrigé qui est ici je vais noter ici c'est ça c'est la variance corriger est ce qu'on peut voir c'est que ici on a / n moins un qui est plus petit que end donc on divise par quelque chose qui est ici plus petit 1 c'est un dénominateur qui est plus petit donc ça veut dire que le résultat ici sera plus grand puisque quand on divise par quelque chose de plus petit on obtient quelque chose de plus grand donc cette variance corrigé ici elle est plus grande elle est plus grande et la variance corps et la variance non corrigée qui est ici la variance normal elle est plus petite ça c'est parce que je répète c'est parce que les délais numérateur sont les mêmes et là on divise par quelque chose de plus grand que qu'ici en cas de la variance corriger du coup forcément cette variante non corrigée est plus petite que la variance corrigé alors c'est pas toujours très claires dans les études statistiques et même dans les calculatrices de savoir de quelle de quel variance on parle d'un échantillon par exemple ça certaines calculatrice qui vont donner directement la variance corrigé alors que d'autres donneront la variance non corrigée voilà donc doit donc quand tu parles de la variance c'est pas mal c'est une bonne habitude de préciser de quelle variante tu parles alors maintenant ce qu'on va essayer de faire c'est de comprendre intuitivement un petit peu pourquoi cette variante corrigé qui est plus grande et parfois bien utile parfois meilleur estimateur de la variance sur la population de la variance réel sur la population alors ce que je vais faire c'est que je vais prendre un exemple de distribution sur une population donc je vais tracer une droite numérique et puis je vais placer sur cette droite numérique toutes les observations qu'on a fait sur la population donc je vais placer par exemple un premier point ici je vais avoir une donnée là une donnée là une donnée là bas je peux faire ça un peu comme je veux un donc voilà je vais rajouter ici ici ici je vais avoir peut-être quatre points là comme ça ensuite je vais on mettra la layan là donc voilà ça c'est la population toutes les données que j'ai observé sur la population entière alors j'ai 1 2 3 4 5 6 7 8 9 10 11 12 13 14 donne est donc ici la taille de notre population sait grand ten on appelle toujours grand peine ses grands aînés ces quatorze l'a14 donnait donc en à grand peine égale 14 alors ce que je peux faire déjà c'est essayer de placer un petit peu la moyenne à la moyenne c'était une mesure de position donc qui va donner une idée du milieu des données une valeur un peu central des données donc je peux évidemment pas la calculer puisque j'ai pas de valeur numérique mais je peux la place est à peu près je veux dire que ça va être en regardant la distribution qui est là je vais pouvoir la place est à peu près là cette moyenne donc ici on va dire que c'est la moyenne réelle sur la population alors maintenant ce qui se passe c'est que je vais prendre un échantillon je prendre là pour l'exemple un échantillon de taille petite n égale 3 donc je pourrais prendre autre tas d'échantillons serait exactement la même chose et là je vais l'apprendre de taille n égale 3 alors dans certains cas je vais cet échantillon va être bien c'est à dire qu'il va sa moyenne va être proche de la moyenne réelle sur la population par exemple si je prends ce point là ce point là et ce point là par exemple je vais à priori avoir une moyenne qui se rapproche de la moyenne mur est elle celle de la moyenne réelle mu sur la population je vais du coup avoir une moyenne de l'échantillon x bar qui sera là donc dans ce cas-là l'échantillon la lame de la moyenne sur l'échantillon est un bon estimateur de la moyenne réelle sur la population mais ça c'est un cas vraiment particulier il pourrait y avoir des tas d'autres cas alors je fais enlever tout ça voilà donc il pourrait très bien on pourrait très bien avoir prélevé un échantillon composé par exemple de ces trois points là voilà et dans ce cas là effectivement la situation est complètement différente puisque la moyenne elle va être quelque part par là la moyenne d'un échantillon est toujours dans l'échantillon c'est important à comprendre ici la moyenne va donc être dans l'échantillon x barbe être quelque part par là et payent par contre la moyenne réelle de la population est complètement à l'extérieur là donc dans ce cas là la moyenne réelle sur la population la moyenne muel est complètement en dehors de notes de notre échantillon donc c'est ça l'idée qui est important à retenir à combien bien comprendre c'est que quand on prend un échantillon la moyenne de l'échantillon elle est toujours à l'intérieur de cet échantillon alors que la moyenne réelle sur la population elle peut très bien être à l'extérieur de l'échantillon bon alors on va se concentrer sur ce cas le cas de cet échantillon qui est ici qui fait un bon exemple là si on voit calcul si on calcule la variance de sel chez chantillon donc on voit ce qu on va devoir faire ses calculs et les écarts par rapport à la moyenne les élevée au carré puis ensuite divisé par trois qui sera le nombre de données et en fait ici dans ce cas là on va avoir cette distance-là au carré plus cette distance-là au carré on va voir ses trois distances qui seront faibles puisque la l'échantillon il est très serré autour de sa moyenne de sa moyenne x barre donc finalement on va avoir une variance ici qui va être petit beaucoup plus petit en tout cas enfin ne sera peut-être pas petit ça dépends d'eads est démesuré si mais en tout cas elle sera beaucoup plus petite que la variance réels de la population puisque là on voit bien qu'il ya beaucoup de points qui sont beaucoup plus éloigné de la moyenne réelle de la population que quand on se cantonne à cet échantillon là ici donc finalement dans le cas de cet échantillon l'âme la variance de l'échantillon c'est sous-estiment très nettement la variance réels de la population alors évidemment répète c'est pas toujours le cas ça dépend complètement de l'échantillon la moyenne et parfois sera parfois la moyenne reste de la population sera parfois contenus dans l'échantillon donc ça sera un peu mieux mais globalement quand on prend un échantillon on a quand même plus de chances d'avoir une variance comme ça qui est sous-estimée par rapport à la variance réels de la population donc ça c'est important retenir en général en théorie en tout cas celle là il ya plus de chances qu'elle soit sous-estimé par rapport à la variance réels de la population alors ce qui se passe quand on fait quand on au lieu de diviser par n on divise par rennes - et bien on en vint une variance qui est un peu plus grande et c'est pour ça que cette variante corrigée est en général un meilleur estimateur de la variance normal voilà alors je vais faire une petite remarque avant de terminer si on regarde la relation entre la variance et la variance corriger je vais faire ici la variance corriger celle ci est de corriger c'est n / n - 1 x la variance normal en fait si je prends la variance normale et que je multiplie par n binger le dénominateur qui sans vagues qui se simplifient et ensuite si je divise pas rennes - je retrouve exactement la variance corriger alors ça c'est intéressant parce que ça montre bien que les deux variantes sont pas les mêmes mais que plus n est grand plus elles sont proches donc quand on a quand on a un échantillon de taille assez élevé finalement ces deux variance vont être vraiment très proches donc la distinction ne sera plus vraiment très importante enfin bon on va s'arrêter là je vais essayer on essaiera dans une prochaine vidéo de regarder un programme pour comprendre par l'expérience la différence entre ces deux entre ces deux variance