If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

ANOVA 1: Calcul de la SCT (somme des carrés totale)

Analyse de Variance 1 - Calcul de la SCT (somme des carrés totale). Créé par Sal Khan.

Transcription de la vidéo

dans cette vidéo on va faire des calculs sur cette série de données en fait ces trois séries de données que j'ai fait ici par couleur est ce que j'espère c'est que ça va te donner une intuition un petit peu de ce que c'est que l'analyse de la variance alors je vais calcul est quelque chose que j'appelle la somme des carrés total je vais là je l'appelle comme ça c'est la somme des carrés total et je la note sct sommes des cars est totale alors en fait tu vas voir que ça ça correspond en gros à calculer le numérateur de la quantité qu'on trouve au numérateur de ce qu'on fait quand on calcule la variance c'est à dire qu'on va calculer l'écart du de chaque donnée par rapport à la moyenne de la série en fait je vais considérer ces trois séries comme une seule et je vais commencer par calcul et du coup la moyenne de cette série-là calculé ensuite l'écart de chaque valeur par rapport à la moyenne élevée au carré et ensuite additionnés tous ces écarts par rapport à la moyenne élevée au carré pour trouver cette somme des carrés total donc c'est exactement le numérateur du 2 qui donne la variance là ici on va pas diviser sa part l'effectif diminué de 1 pas par le degré de liberté puisqu'on va s'occuper ce uniquement du numérateur alors je vais commencer par calculer la moyenne alors comme ici j'ai trois séries de données que je vais considérer comme une seule je vais appeler ça la moyenne générale donc je vais là noté comme ça la moyenne générale cx barbare alors là je vais tout simplement additionner toutes les données donc je vais respecter le code couleur donc lieu d'abord toutes les données verte 3 plus de plus un ensuite les données rose donc plus 5 + 3 + 4 ensuite les données bleus plus cinq bus 6 +7 et je vais diviser sa part le nombre de données ici j'ai neuf donnait donc je veux diviser sa part neuf voilà alors là je vais pas besoin de la calculatrice 3 + 2 plus un sas ça ici ça fait 6 6 + 5 11 + 3 14 plus qu'à 18 18 + 5 ça fait 23 + 7 30 donc ça c'est 36 / 9 c'est à dire 4 donc la moyenne générale c4 voilà donc on pourrait satisfaire de ça je vais quand même te montrer que finalement ça revient à calculer la moyenne des moyennes de nos trois séries ici la moyenne de cette série la série qui est en verre bon je vais le faire envers cx un bar donc ça c'est 3 + 2 + 1 c'est à dire 6 / 3 ça fait deux ensuite la moyenne de cette série-là 5 + 3 ça fait 8 jusqu'à 2 ça fait douze 12 / 3 ça fait 4 donc ici la moyenne x2 barre ces quatre ans 8 lames pour la série 3 la série en bleu les cinq plus si ça fait 11 puisse être 18 18 / 3 ça fait 6 donc là j'ai la moyenne de x3 la moyenne x3 bas pardon qui est égale à 18 / 3 c'est-à-dire à 6 on a dit non maintenant je peux calculer la moyenne de ces trois moyenne de + 4 ça fait 6 + 6 ça fait 12 / 3 je retrouve exactement 4 1 donc voilà cette moyenne générale que j'ai calculé ici en supposant que j'avais une seule grande série constituée de neuf données et bien ça correspond à calculer la moyenne des 3 moyenne de nos trois séries voilà donc on peut voir ça comme la moyenne de toutes les données des trois groupes ou bien comme la moyenne des moyennes des trois groupes voilà enfin de toute façon ça ça nous permettra de calculer la somme cas d'écart est totale donc c'est ce que je vais faire alors je vais commencer par les données verte alors somme des carrés totale égale à donc j'ai cette première valeur 3 - 4 qui est la moyenne élevée au carré plus la deuxième valeur ces deux - la moyenne qui est quatre élevée au carré plus la troisième valeur qui est un moins quatre élevée au carré plus maintenant je passe au deuxième groupe plus alors c'est 5 - 4 élevée au carré 5 sa première valeur - 4 qui est la moyenne plus ensuite ces 3 - la moyenne 4 élevée au carré je descends je vais continuer en bas plus la dernière valeur du groupe c 4 - la moyenne qui est 4 aussi élevée au carré ensuite je passe à la dernière série donc plus la première valeur ses 5 - 4 qui est la moyenne toujours élevée au carré plus 6 - 4 élevée au carré +7 - 4 élevée au carré voilà alors maintenant je vais faire ses calculs un jeu simplifié un petit peu ici j'ai un -4 3 - 4 pardon ça fait moins élevée au carré ça fait un plus donc un ici + 2 - 4 ha c'est à dire moins de élevée au carré ça fait 4 + 1 - 4 ça fait moins trois élevée au carré ça fait neuf dont +9 ensuite j'ai cinq mois 4 ça fait 1 élevée au carré ça fait un donc un ici aussi plus 3 - 4 ça fait moins élevée au carré ça fait 1 + 4 - 4 ça ça fait zéro donc plus 0 ensuite je passe au troisième groupe donc cinq mois 4 ça fait 1 donc élevée au carré ça fait 1 + 6 - 4 ça fait deux élevée au carré ça fait 4 +7 - 4 c'est à dire 3 élevée au carré ça fait neuf voilà donc là je peux calculer finalement cette somme là un puisque quatre ça fait 5 + 9 14 du ca 1,15 +1 16 + 1 17 plus 4,21 +9 30 donc la somme des carrés total ici c'est 30 je vais leur écrire comme ça somme des carrés totale est égale à 30 alors à partir de ça on pourrait calculer la variance tout simplement en divisant par le degré de liberté alors là on va regarder un petit peu ce que ça veut dire qu'est ce que c'est que ce degré de liberté mais je vais pas donner une preuve rigoureuse de cette forme de la formule si je vais juste donner une intuition un peu d'où ça vient alors en fait ici on a on a trois groupes de données et chad dans chaque groupe il ya 3 donnait donc le cas général ça serait d'avoir m groupe de donner ici m groupe de données et dans chaque groupe de données il y aurait un n donné 1 donc on aurait en fait combien de données en tout 20 ème fois m donc on serait tenté de dire que le degré de liberté c'est le nombre de données cm x n puisque c'est effectivement il ya eu 6 ème fois and honey mais à partir du moment où on connaît la moyenne ici la grande moyens la moyenne générale c'est ce qu'on fait on suppose ici sinon calcule pas la variance un pur calcul la variance il faut connaître la moyenne générale donc à partir du moment où on connaît cette moyenne générale et bien en fait les aime fois and honey qui sont dans ce tableau là ne sont pas toutes utiles en fait elles sont pas toutes indépendantes c'est à dire que si on suppose qu'on connaît par exemple les haines fois n - une première donnée donc toutes celles là par exemple si on connaît toutes les données sauf celle ci est bien on va pouvoir utiliser la moyenne utilisée ce calcul là pour déterminer la valeur de cette dernière donnait un ca sera très important on l'a déjà vu dans d'autres vidéos aussi sur la loi du chi 2 par exemple ce que ça veut dire que en fait ici il ya finalement la haine la m x n yem donner la dernière donnée n'apporte rien on l'a on peut le déduire des autres données et donc enfin ça serait exact là j'ai pris le cas de cette dernière donnée mais je pourrais prendre n'importe quelle autre en fait il suffit qu'on connaisse une fois n - une donnée pour pouvoir déterminer aussi la données restantes donc ça ça veut dire que ici en fait on a mm x n -1 degré de liberté en général c'est ça on may 1 2 le degré de liberté c'est quand on a -m groupe de données qu'ils contiennent chacun and honey est bien le degré de liberté cn fois n - 1 voilà donc ici pour nous ça serait 3 on a tous trois groupes de données avec chacun trois données donc on aurait trois fois trois données c'est-à-dire neufs donnés en tout c'est ce qu'on a utilisées pour calculer la moyenne mais le degré de liberté ici ça sera m 3 x 3 - 1 donc ici ici le degré de liberté qui on l'écrit comme ça des dlc 8 voilà donc ici pour calculer la variance de ceux de ces trois groupes de données oui on pourrait calculer d'abord la somme des cars est totale et diviser cette valeur par le degré de liberté donc ça serait 30 / 8 alors on va s'arrêter là pour cette vidéo de ce qu'on va faire dans les prochaines vidéos c'est regarder de quelle comment est composé cette somme des cars est totale et en fait on va regarder si la variance en gros c'est ça on va regarder si la variance de 7,2 tout 16 cet ensemble de données quelle part de cette variance provient de la variation au sein d'un groupe donc la variation à l'intérieur de chacun de ces groupes et quelle part de cette variante provient non pas de la variation au sein d'un groupe mais de la variation entre les groupes voilà c'est ça qui va être importante donc on va décomposé en fait cette somme des carrés total en variations à l'intérieur d'un groupe et en variation entre les différents groupes voilà ça c'est le programme des prochaines vidéos à bientôt