If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Pourquoi on divise par n - 1 pour calculer la variance

Une autre visualisation du fait que diviser par n-1 donne vraiment une estimation non biaisée de la variance de la population. Simulation disponible sur : http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors là on va utiliser cette simulation qui a été fait par un utilisateur de la khan academy par justine helps merci à lui et puis on va voir que cette simulation va nous aider à comprendre pourquoi la variance corrigé qu'on avait introduites dont on a beaucoup parlé dans les vidéos précédentes pourquoi c'est une bonne estimation enfin la meilleure estimation de la variance de la population alors 7 cette simulation elle a été faite avec une distribution uniforme c'est ce qu'ils nous disent ils bougeaient pas traduit tout le code mais bon c'est pas très important ce qui est important c'est ce qui va se passer ici donc la distribution qui a été utilisée c'est un type particulier c'est une distribution uniforme on verra plus tard ce que c'est pas très important ici est en fait ce que ce qui va se passer c'est qu'on va prendre des échantillons de taille 50 dans cette semaine dans cette distribution donc là par exemple si j'ai pu ici je prends un échantillon de taille 50 si j'appuie encore je prends un autre échantillon de taille 50 est en fait à chaque fois qu'on prend un échantillon on calcule la variance de trois manières différentes d'abord la variance normal qu'on obtient en divisant par n ensuite ici c'est la variance corriger celle qu'on avait appelé variance corrigé qui s'obtient en divisant par haine - 1 et puis une autre variance qu'on obtient en divisant par rennes -2 donc celle ci va être encore plus élevée que la variance corriger et alors donc là dans chaque graphique on à la variance réel qui est représenté par là la droite horizontale ici en gris et donc je peux continuer à ajouter des échantillons donc j'ajoute des échantillons est en fait les points qui s'affiche en couleurs la rouge bleu et vert et bien c'est la moyenne des variances de tous les échantillons qu'on obtient de ses trois manières en faisant de en calculant les variances de ces trois manières là alors je peux à le continuer à ajouter des échantillons si j'appuie ici j'ai petit j'ajoute des échantillons de manière continue comme ça et là on voit donc lui ajouter beaucoup beaucoup d'échantillons et et là on voit quelque chose sur les trois graphiques qui est vraiment intéressante c'est que déjà quand on se concentre sur le premier graphique qui est donc obtenue en calculant la variance normal de chaque échantillon prenant la moyenne et bien finalement en moyenne on est largement sous steam et on est largement sous la valeur de la variance réel c'est ce qui se passe ici la courbe rouge elle est sous la variance réel et plus on prend d'échantillons la plus on est dessous est par contre quand on prend la variance corriger on voit qu'on n'est vraiment on converge vraiment vers la variance réel donc cette variante corrigé va être a priori un très bon estimateur de la variance réel et puis c'est très intéressant de regarder le 3ème graphique la courbe verte ici qui est donc la moyenne des variances calculé en divisant n - pas rennes -2 et bien là on obtient une variance qui est surestimée en général par rapport à fin la moyenne des variances qu'on a fait tout le tous les échantillons de cette manière là est largement au dessus de la variance réel donc ces trois graphiques là sont vraiment très intéressant et montre bien que la meilleure le meilleur estimateur pour l'instant c'est c7 variance corrigé ici alors c'est les graphiques qui sont ici vont nous donner une autre manière de voir ça qui est assez intéressante aussi en fait quand on regarde chaque chaque point ici c'est la moyenne c'est un échantillon donc quand on regarde horizontalement on va avoir les quart de la moyenne de l'échantillon par rapport à la moyenne réelle qui va être notée par sa part la droite verticale ici l'acce verticale donc par exemple ce point si c'est un échantillon ou qui a une moyenne très très élevé par rapport à la moyenne réelle de la population cet échantillon qui est là où contraire il a et moyennes très faible par rapport à beaucoup plus petite que la population que la moyenne de la population réelle voilà alors ce point qui est ici par exemple il a une moyenne un peu plus élevé que la moyenne réelle de la population est celui qui est là il est moyenne un peu plus petit que la moyenne réelle de la population donc ça c'est intéressant alors ici verticalement on a quelque chose d'autre qui est intéressant en fait pour chaque échantillon là on a calculé bon la moyenne on va parler de moyenne des variances mais on la calcule est d'abord due de deux manières différentes d'abord en calculant avec la moyenne de l'échantillon et puis une autre manière en calculant avec remplaçant la moyenne de l'échantillon par la moyenne réelle de la population est en fait ici on représente la différence entre ces deux variantes calculé à partir d'une part de la moyenne de l'échantillon et d'autre art de la moyenne réelle de la population alors ce qu'on voit ici c'est par exemple ce point-là bon ça ça représente un échantillon et quand on fait cette différence entre ces deux types de variance des on obtient quelque chose de négatif puisqu'on est saoul à soulac si si eh bien ça veut dire que finalement la variance calculé avec l'échantillon elle est sous elle est en dessous de la variance qu'on calcule si on est si on utilise la moyenne de la population et alors ce qui est très intéressant ici c'est que d'abord on obtient une forme assez particulière dans les trois cas c'est pareil c'est intéressant ce serait intéressant d'aller voir pourquoi pourquoi on obtient cette forme là qu est bien connu d'ailleurs non c'est pas bon c'est parce qu'on va traiter ici est en tout cas ce qu on peut remarquer ici c'est que dans tous les cas la courbe qui est ici elle est saoul axe lé soulac ce qui veut dire que on a toujours une variance quand on la calcule à partir de la moyenne de l'échantillon on a toujours une variance qui est inférieur à la variance qu'on aurait en calculant en utilisant la moyenne réelle de la population voilà alors on peut regarder ce graphique là c'est exactement la même chose mais sauf que on divise pas par haine comme ici même si ici on divise par l -1 et en fait on voit que la le graphique n'est pas toujours saoul axes la courbe a obtenu n'est pas toujours soulac ce qui veut dire que on est patron ne sous-estiment pas toujours la variance de la population réelle la variance réels de la population pardon et si on regarde le 3ème graphique qui est obtenu en prenant cette masse est en divisant par est de -2 et bien là on est en général on est on surestime 7 variance de la population alors bon ça c'est peut-être un petit peu flou donc ce que je vais faire c'est que je vais faire une capture d'écran de ces graphiques là et puis on va les étudier sur le sur le calepin alors pour clarifier ce que je disais tout à l'heure on va regarder ça d'un peu plus près donc ici on est dans le cas où on calcule la variance en divisant par haine inférieures aux normales alors ici si je prends par exemple ce point là c'est un échantillon et cette distance là en fait ça va représenter la l'écart entre la variance qu'on obtient en utilisant la moyenne de l'échantillon c'est à dire cette somme là sommes des x y - x bar élevée au carré et puis / n puisqu'ici on est dans la variance normale moins ce qu alors ça c'est quelque chose qu'on utilise très rarement en statistiques on va appeler ça une peut-être une pseudo variance en fait on fait le même calcul mais on utilise ici la variance la moyenne par dans de la moyenne réelle de la population donc en fait on va calculer ça la somme des xxi - mu qui est la moyenne réelle de la population au carré et on divise tout ça paraît donc ça peut appeler ça une pseudo variance bon c'est pas une variance qu'on utilise souvent puisque effectivement en général on connaît pas ce paramètre réels de la population est bon comme c'est le cas ici ce qu'on peut voir c'est que quand on fait cette différence là cette distance là en fait là on obtient toujours une distance négatif donc cette quantité là et toujours plus petite que celle là ce qui veut dire que la variance calculé de cette manière là elle sous-estiment toujours la variance de la population de la variance réels de la population alors quand on fait ce même calcul ici on fait exactement la même chose mais en divisant par haine - 1 donc c'est la variance corriger et puis ici c'est la pseudo variance corriger on va dire et donc de temps en temps on voit que cette quantité là est négative donc que la variance corriger et parfois sous-estimé la comme ça mais parfois les surestimer donc en fait ce qui se passe c'est que en moyenne ça c'est ce qu'on voit avec l'autre graphique de qu'on a regardé tout à l'heure quand on fait la moyenne en fait cette différence tend vers 1 0 donc la variance corrigé convergent vers la variance réels de la population et puis là quand on regarde le 3ème graphique dont on voit bien que dans la plupart des cas cette différence est positive donc que la variance calculé avec en divisant par el mundo refait le même calcul mais ici en divisant par rennes -2 et bien ça va être on va obtenir quelque chose qui va surestimé la variance réel