If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Variance de la population

La variance permet d'évaluer de combien, en moyenne, les données sont distantes de la moyenne de la population. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

  • aqualine ultimate style l'avatar de l’utilisateur Shinji 7800
    Bonjour,

    d'après ce que je comprends on utilise le carré de la distance pour obtenir une valeur positive. Pourquoi ne pas utiliser la norme de la distance ? je suppose qu'il y a une bonne raison mais elle ne me semble pas évidente.

    par avance merci
    (5 votes)
    Default Khan Academy avatar l'avatar de l’utilisateur
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans cette vidéo on va supposer qu'on mène une enquête sur le niveau d'expérience professionnelle les années d'expérience professionnelle de tous les gens qui travaillent à la khan academy alors pour simplifier on valls va pas prendre la khan academy aujourd'hui on va prendre la khan academy à ses débuts où il y avait un peu moins de monde et on va donc enquêter sur le nombre d'années d'expérience professionnelle années d'expérience professionnelle donc ce que je vais faire pour ça c'est allé interroger toutes les personnes qui sont à la khan academy et je vais leur demander depuis combien de temps elle travaille donc par exemple je vais avoir une première personne qui veut qui à peine sorti de l'université qu'il ya un an d'expérience professionnelle et puis une deuxième qui a 3 ans d'expérience professionnelle ensuite une troisième qui a disons 5 en 5 années d'expérience professionnelle et puis une autre 7 et puis enfin une dernière qui a on va dire 14 ans d'expérience professionnelle donc qui travaille depuis longtemps déjà alors ce qu'on va faire déjà avec cette série de données un sas et c'est donc la population on va supposer que c'est ça que c'est la population totale des gens qui travaillent à la khan academy donc cinq personnes seulement maintenant il y en a un peu plus mais enfin c'est pas grave la ont simplifié un petit peu les choses alors donc ça c'est notre population et on va calculer la moyenne de cette population donc comme celle là comme on parle de la population on va noter cette moyenne par la lettre grecque mua je te rappelle dans d'autres vidéos on a vu ce vocabulaire et cette notation là c'est la moyenne c'est un paramètre et c'est la moyenne d'une population entière donc pour faire sa ba on va là je vais utiliser les notations qu'on a déjà vu dans d'autres vidéos on va à faire la somme de toutes les données qui constituent notre notre série ici donc on fait la somme de toutes les données donc qui vont de la première donnée ici x qu'on peut appeler x1 jusqu'à la dernière donnée qui si on peut appeler x5 il ya cinq donné 1 2 3 4 5 donc on va faire la somme pourri qui va de 1 à 5 de nos données x y voilà et ensuite on va diviser tout ça par le nombre de données au total donc c'est ici 5 voilà alors ça c'est vraiment rien d'autre que x1 +62 +63 je devrais dire x 1 10-1 plus x un 10-2 +61 10,3 +61 10,4 plus x 1 10 5 bon la plupart du temps on dit pas x 1 10-1 on dit directement x1 et ensuite je dois diviser tout ça par 5 qui est le nombre de données voilà alors je vais le faire un ici ici ça me donne un x1 c'est la première donnée donc c'est un plus x2 la deuxième donnée donc ses trois plus la troisième c'est cinq puces la quatrième c'est cette plus la dernière qui est 14 bon je pourrais avoir noté différemment dans un ordre différent là l'important c'est qu'on fait la somme de toutes les données parce que c'est ce que j'ai fait ici ensuite le divise par 5 de faire ce calcul un +3 ça fait 4 + 59 plus 7,16 +14 donc 16 + cats à feyzin de plus 10 30 ans donc on a ici 30 sur cinq donc 30 sur cinq ça fait 6 voilà donc la moyenne de notre population donc le nombre moyen d'années d'expérience c'est 6 alors voilà ça c'est déjà pas mal donc je connais le nombre moyen d'années d'expérience professionnelle si j'ai envie de donner des indications sur ce sur ses années d'expérience je peux déjà donné ce paramètre bon ici effectivement comme on a cinq donné je pourrais aussi donné les cinq donné on pourrait facilement faire une idée mais bon dans le cas où on a plus de donner ce serait beaucoup plus compliqué et donc envoyer l'ensemble de ces données ce serait un petit peu indigeste pour la personne qui reçoit donc on pourrait donner ces paramètres mais c'est pas forcément suffisant parce que ce qui peut être intéressant c'est de donner un paramètre qui va mesurer un peu qui va donner une idée de comment les données sont dispersés autour de cette moyenne c'est à dire comment est ce qu elle varie autour de cette moyenne là alors justement là j'ai dit un mot important varient et ce paramètre là je vais justement la plaie la variance enfin c'est pas moi qui l'appelle comme ça on l'appelle comme ça c'est la variance ici ça va être la variance de la population je vais de noter ici ces deux paramètres ces deux paramètres la moyenne mu et la variance que je vais calcul et là ce sont des paramètres sur la population alors cette variant son la note par la lettre grecque sigma ça c'est une la lettre grecque sigma minuscule ça c'est la lettre grecque sigma en majuscules donc ça c'est la lettre sigma minuscule et la notation pour la variance et sigma au carré voilà alors pour calculer cette variance je vais ce que je vais faire c'est en quelque sorte calculer la moyenne des distances par rapport à la moyenne de la distribution élevée au carré alors on fait pour faire ça je vais calculer l'écart de chaque donnée par rapport à la moyenne je vais l'élever au carré et ensuite je vais additionner tous ces nombreux l'a donc tous les écarts tous les cars et des écarts par rapport à la moyenne toutes les distances élevée au carré des données par la moins par rapport à la moyenne et puis je vais divisé par le nombre de données donc c'est vraiment ça c'est une sorte de moyenne des carrés des distances par rapport à la moyenne cette moyenne là alors je vais le faire bon ça a l'air très compliqué comme ça mais là on va le faire donc je vais commencer par prendre ma première donnée la première donnée ici qu'est un je vais faire l'écart de cette donnée par rapport à la moyenne donc 1 - la moyenne ça c'est l'écart par rapport à l'écart de cette première donnée par rapport à la moyenne je vais élever sa au carré donc ça finalement c'est le carré de la distance de cette donnée-là par rapport à la moyenne lui alors ensuite je vais faire je vais additionner la même chose mais avec la donne et numéro 2 celle ci le 3 donc plus alors 3 - donc l'écart la distance entre cette donnée la moyenne ces trois moins six que j'élève au carré pour avoir un nom de positif donc ça c'est le carré de la distance de cette donnée-là par rapport à la moyenne mais ensuite je continue je fais la même chose avec la troisième donnait donc plus ici c'est 5 - 6 que j'élève au carré ensuite je continue avec la 4e donné 7 donc plus sept mois ci que j'élève au carré plus enfin la dernière donnée je vais faire envers la dernière donnée c'est ce 14 +14 moins 6 le tout est élevée au carré donc ça c'est la somme des carrés des distances par rapport à la moyenne donc pour avoir la moyenne de ces carrés des distances par rapport à la moyenne c'est un peu compliqué à dire mais c'est c'est ça je vais devoir divisé par le nombre de données c'est à dire 5 alors je vais / 5 / le nombre de données c'est à dire 5 bon alors maintenant on va faire ce calcul alors quand je fais un -6 à moi si ça fait moins 5 - 5 au carré c'est comme 5 au carré donc ça fait 25 ans 8 g + 3 - 6 3 - 6 a fait -3 donc moins trois au carré ça fait neuf donc plus neuf ans 8,5 mois si ça fait moins un mois aux caresses a fait un don plus sains et puis là sept mois 6 au carré alors sept mois ci se fait 1-1 au carré ça fait 1 donc plus un encore une fois et puis enfin le dernier ces quatorze mois 6 14 mois si ça fait 8 donc 8 au carré c'est une fois 8,64 voilà et donc ça je dois divisé par cinq voilà alors là je peux faire pour aller un petit peu vite peut faire 9 puis ça ça fait dix donc la g25 +10 ça fait trente-cinq 35 + 1 ça fait 36 +64 alors j'ai je peux déjà additionner les quatre ça fait quarante 40 +6 ça fait quarante +60 pardon ça fait sens donc je vais avoir cent sur cinq c'est à dire fin donc ce vin assez là c'est la variance ce qu'on a dit tout à l'heure mais ça représente en fait la moyenne des distances par rapport à la moyenne mu élevée au carré alors ce que j'ai alors je répète ce que j'ai fait j'ai pris les distances par rapport à la moyenne à chaque fois je les ai levé au carré comme ça ça m'a donné quelque chose de positif j'ai additionner j'ai fait ça pour toutes les données et puis j'ai fait la somme de toutes ses distances au carré par rapport à la moyenne ensuite j'ai divisé par le nombre de termes pour avoir du coup là le ladite la moyenne des carrés des distances par rapport à la moelle à nu ce paramètre mu voilà alors on verra plus tard dans d'autres vidéos que cette somme ici des carrés des distances elle a d'autres propriétés bien utile ça ça sera le sujet d'autres vidéos alors ce que je voudrais faire maintenant c'est essayer de de trouver une expression une formule un peu comme celle qu'on a ici la de l'âme de la moyenne de la population pour exprimer la variance alors je vais faire un petit peu de place et on va essayer d'utiliser une notation de ce genre là bon alors si on y réfléchit un petit peu ce qu'on fait ici c'est ici c'est la donnée x1 - la moyenne au carré plus la donne et x2 - la moyenne au carré plus la donne et x3 - la moyenne au carré plus s'adonner x 4 mois la moyenne au carré plus la donne et x5 mois la moyenne le taux au carré à chaque fois c'est le tout au carré donc finalement si on veut donner une formule de la mouette de la variance pardon eh bien on peut utiliser cette formule là en prenant la somme qui va de i égal à 1 jusqu'à la dernière donnée ici c'est 5 et bien alors qu'est ce qu'on va on va faire la somme de de ces termes là alors ces termes là comment est ce que je vais pouvoir les exprimer on a dit que c'était ici x1 - la moyenne la cx deux mois la fin x un mois la moyenne le taux élevé au carré x 2 - la moyenne le taux élevé au carré et ainsi de suite donc en fait c'est x y - la moyenne la moyenne c'est mu le tout élevée au carré et puis ça il faut diviser par le nombre de données qui est ici 5 donc voilà là on a une expression de la moyenne de la variance pardon avec cette notation de sommes ici avec ce sigma donc ça se lit comme ça la somme de illégal à 1d x y - mule tout au carré divisé par cinq alors dans le cas général du canton à une population de taille grant n on va écrire ça comme ça je vais décrire notre couleur pour différencier ça c'est le cas général ça va être l'un sommes pourris qui va de 2 1 jusqu'à grand erg antenne c'est la taille de la population des termes x y - la moyenne au carré le tout divisé par la taille de la population c'est-à-dire quand m alors il faut pas se laisser intimider par ça c'est vraiment simplement une notation alors est ce qu'elle dit vraiment cette formule c'est que d'abord on calcule la moyenne ici la moyenne de la population de la population ensuite on calcule la différence de chaque donnée enfin la différence de chaque donnée - la moyenne on l'élève au carré on additionne tous ces éléments et puis on divise par le nombre total de données qu'il y a voilà et de cette manière on obtient la variance de la population