If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

ANOVA 2 : calculer les SCEinter-groupes et SCEintra-groupes (somme des carrés inter et intra groupes)

. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors on va continuer le travail qu'on avait commencé dans la vidéo précédente alors on avait des données qui étaient répartis en trois classes ici la classe train la classe ii et la classe 3 et puis on avait réussi à calculer la somme des carrés total de ces données là voilà alors juste une petite parenthèse ici on avait pris 9 donnait donc répartis en trois classes qui contenaient chacune 3 donnait effectivement on avait remarqué que on pouvait généraliser sa très facilement un ensemble de données répartiront ème classe et qui contiennent chacune and honey voilà alors là ce qu'on va faire c'est est ce que j'avais annoncé dans la vidéo précédente on va essayer de décomposer cette somme des cars est totale en somme des carrés qui proviennent de variations dans la cas l'intérieur des classes est en somme des carrés qui proviennent des variations entre les classes voilà alors je vais commencer par calculer la somme des carrés intra classe c'est à dire la variation mousse puisque c'est ça la somme des carrés total je le rappelle c'est en fait le numérateur de la variance et puis ensuite on obtient la variance en divisant par le degré de liberté donc là je vais aller regarder la variance la variation intra classe donc en fait je vais calculer les écarts par rapport à la moyenne dans chaque classe par rapport à la moyenne non pas à la moyenne générale mais à la moyenne de chaque classe 1 alors je vais faire ça alors je vais l'appeler comme ça c'est la somme des carrés intra intra et donc ça c'est alors je vais commencer par les données de la de la classe 1 donc j'ai 3 - la moyenne de la classe donc ces deux élevée au carré plus la deuxième donné ces 2 - la moyenne qui est toujours 2 plus et donc j'élève au carré un pardon plus la dernière donnée qui est un - la moyenne qui est 2 et j'élève ça au carré ensuite je vais ajouter les carrés des erreurs des écarts par rapport à la moyenne de la seconde classe donc ça je vais reprendre la couleur donc j'ai 5 - la moyenne de la deuxième classe qui est quatre élevée au carré donc ça je fais j'ajoute ça un plus il faut voir ça comme une sur une seule ligne plus la deuxième donnée c'est 3 - la moyenne qui est quatre élevée au carré plus la dernière donnée qui est 4 - la moyenne qui est 4,6 élevée au carré voilà et puis je vais continuer avec la dernière donnée la dernière classe pardon donc plus ici g5 - la moyenne qui est 6 j'élève au carré plus 6 - la moyenne qui est 6 j'élève au carré plus la dernière donnait ses 7 - la moyenne qui est sis et j'élève au carré voilà alors maintenant je vais faire ce calcul est donc là pour la première classe ici j'ai 3 - 2 ça fait 1 élevée au carré ça fait un donc un la sas à ces 2 - 2 ça fait zéro et ici j'ai 1 - 2 ce qui fait moins un camp gérer vos carrés ça fait 1 donc pour la première classe la variation la somme des carrés des écarts par rapport à la moyenne ces deux voilà ensuite je vais faire le même calcul avec la donner avec les données de la deuxième classe donc j'ai alors cinq mois 4 ça fait 1 élevée au carré ça fait 1 3 - 4 ça fait moins élevée au carré ça fait un don qui si j'ai un +12 plus ce dernier terme qui est nul donc là j'ai 2 aussi ensuite je continue avec la troisième place cinq mois si ça fait moins élevée au carré ça fait 1 6 mois si ça fait zéro élevée au carré ça fait 0 et 7 mois si ça fait 1 élevée au carré ça fait donc là j'ai aussi un plus un c'est à dire 2 voilà donc ça c'est la somme des carrés intra classe 1 et donc ça me donne 6 donc la somme des carrés intra classe est égal à 6 alors on peut voir ça en disant qu' on avait calculé cette somme des carrés total qui était égal à 30 donc ça veut dire que la variation par rapport à la moyenne s'était 30 et bien de cette variation la de ces trente la six proviennent des variations intra classe voilà c'est comme ça qu'on peut voir les choses alors il ya une autre question que qui est intéressante à se poser c'est combien de degré de liberté on a ici dans ce calcul en fait combien de données indépendantes on a là dedans alors pour faire ça on va on a déjà réfléchi un peu de la même manière la dernière fois dans la vidéo précédente ici un si on se place dans cette danse est 1re classe par exemple on a trois données et si on suppose qu'on connaît la moyenne en fait il n'ya que deux données indépendantes là dedans parce que si on connaît les deux surnoms connaît d'eux eh bien on pourra se servir de la moyenne pour calculer la troisième donnait donc en fait dans cette classe là il n'y a pas trois données indépendantes mais deux seulement et c'est pareil dans les deux autres classes et dans le cas général quand on a une classe qui contient and honey et si on connaît la moyenne et bien finalement il y à peine moins une donnée indépendante je vais l'écrire ici le degré de liberté dans dance donc le nombre de variables indépendantes de données indépendantes dans ce calcul là et bien c'est alors le nombre de place est donc ici c'est 3 mais dans le cas général cm x le nombre de données indépendantes dans chaque classe est ici si on a and honey indécis on a and honey dans chaque classe en fait ce que je viens de dire c'est qu'il ya une moins une donnée indépendante donc le degré de liberté là dedans c'est n x n - 1 donc ici pour nous ce sera je vais l'écrire ici ici le degré de liberté c'est m c'est égal à 3 et n c'est égal à 3 donc ces trois fois 2 3 - 1 c'est à dire 6 ici il ya six degrés de liberté alors on fera peut-être une discussion un peu plus théorique un peu plus précise sur ce que veut dire le dégré liberté et comment est-ce que mathématiquement on peut l'obtenir mais là intuitivement ça c'est vraiment ça hein c'est vraiment essayer de déterminer combien de données indépendantes on va dans dans notre calcul et du coup bas effectivement si on connaît dans un groupe dans une classe si on connaît la mesure de tendance centrale donc la moyenne ici et n - une autre donnée et bien on pourra déterminer là ne donnez donc effectivement le degré de liberté cn - un autre au sein de ce groupe là voilà donc fois que c'est ça c'est la manière la plus simple à plus d'un titre intuitif de voir ça on verra peut-être plus tard une manière un peu plus précise voilà donc ça c'était là la variation la part de la variation totale qui est dû à une variation à l'intérieur de chaque classe alors maintenant ce qu'on va faire ses calculs et la part de cette variation totale qui est dû à une variation entre les classes donc entre finalement entre les moyennes de nos trois classes donc pour commencer on va se concentrer sur la première la première classe ici sur la place 1 et on va aller regarder on va essayer de calculer la variation pour chaque donnée la variation qui est expliquée par la variation de noeuds de la moyenne de la classe par rapport à la moyenne générale alors je vais l'écrire leur jeu ça cette somme que je vais calculé c'est la somme des carrés inter interclasses donc le nôtre comme ça alors je vais commencer donc par ce que je viens de dire par le premier groupe donc pour la première la première donnée qui est ici 3 en fait je vais pas considérer la variation de 3 par rapport à la moyenne générale mais je vais considérer uniquement la variation de cette moyenne deux par rapport à la moyenne générale donc li 6 et 2 - 4 et ça je l'élève au carré de ces la moyenne de ma première classe et 4 c'est la moyenne générale ça assez la part de la variation de cette donnée-là expliqué par du pardon à l'écart de cette moyenne là par rapport à la moyenne générale et puis alors je fais la même chose pour la deuxième valeur et en fait je l'obtiens exactement le même nombre puisque c'est toujours la moyenne de la classe qui est 2 - 4 qui est la moyenne générale au carré puce la même chose pour la troisième donnait de la classe donc deux moins quatre au carré est en fait tu vois j'aurais pu écrire directement que c'est j'obtiens trois fois la même chose en fait 1 3 fois la même quantité donc j'aurais pu écrire directement trois fois deux mois quatre élevée au carré 1 je vais faire un prêt ici pour séparer voilà alors ça c'est ce qui se passe pour le premier groupe maintenant je vais faire là chose pour le deuxième donc là pour le deuxième groupe la moyenne c'est 4 donc la contribution de cette donnée là en terme d'écarts de cette moyenne par rapport à la moyenne générale c'est alors j'ajoute ça c'est 4 - 4 au carré plus la même chose pour la 2eme donné 1 4 - 4 au carré + 4 - 4 au carré ça c'est la contribution de la dernière donnée et puis je fais la même chose avec la les données de la troisième classe donc ici la moyenne de la classe c 6 donc j'ai 6 - 4 élevée au carré plus 6 - 4 élevée au carré encore une fois et puis encore une fois 6 - 4 élevée au carré voilà donc maintenant je vais pouvoir faire ce calcul alors dans le cas de la première classe 2 - 4 ça fait moins deux élevée au carré ça fait 4 est sage et 80 et ce quatre je le retrouve trois fois de suite donc finalement la contribution de la première classe à cette variation cette somme des carrés ces douze plus pour la deuxième la deuxième classe g à chaque fois 4 - 4 ce qui fait zéro élevée au carré donc ça fait zéro en fait la contribution ici et nulle donc plus 0 et enfin pour le dernier la dernière classe six mois quatre ça fait deux élevée au carré ça fait quatre ans que je multiplie par 3 puisque j'obtiens trois fois le même nombre j'obtiens encore une fois 12 voilà donc finalement j'ai ma somme des carrés interclasses et bien c'est alors je vais l'écrire ici en rouge la somme des carrés interclasses et bien c'est 24-12 +12 ça fait vingt-quatre voilà alors avant de continuer on peut se poser exactement la même question que tout à l'heure c'est à dire combien ce qu'on a deux degrés de libertés ici un donc combien finalement interviennent deux variables indépendantes quand je ce calcul l'a donc pour ça on peut raisonner comme on l'a fait déjà on se demandant si je connais cette moyenne la la moyenne générale qui est quatre si je la connais comme de combien de moyenne de mes classes j'ai besoin pour connaître les 3a moyenne des classes 1 en faites pas comme tout à l'heure on voit ici là on voit que si je connais par exemple ces deux premières là enfin si j'en connais deux parmi ces trois là et je connais aussi la moyenne générale je pourrais très facilement déterminer la troisième donnait 1 1 3e moyenne la moyenne de la troisième classe voilà donc finalement ici j'ai pas à trois degrés de liberté mais je n'y en ait que deux et si on se met dans le cas plus générale où on am classe eh bien on va avoir m moyenne donc la moyenne de chaque classe donc on aura m moyennant tout et si je connais la moyenne générale il suffira que je connaisse m - une moyenne pour connaître effectivement aussi la haine dernière la dernière moyenne l'a donc la mpm - moyenne voilà donc ici finalement le degré de liberté ici le degré de liberté ici c'est m - m - 1 donc ici c'est 2 ici le degré de liberté c'est 3 - ça c'est à dire 2 voilà alors maintenant je vais revenir un petit peu à noah nous sommes des cars est qu on a calculé on avait vu que la somme des carrés total donc ça c'était la variation totale de toutes les données par rapport à la moyenne générale c'est comme ça qu'on a calculé on a vu que ça faisait 30 jeux et je vais leur écrire ici pour que ce soit plus clair la somme des carrés total ces 30 ensuite on avait calculé que la somme des carrés intra classe donc ça c'était la somme la variation pardon des de chaque donnée par rapport à la moyenne de sa classe et on avait vu que ça ça nous donnait 6 je vais l'écrire ici la somme des carrés intra on avait dit que c'était 6 voilà alors ensuite on avait calculé la somme des carrés interclasses donc c'est la variation qui est expliqué park est due à la variation entre les classes c'est ce qu'on a calculé on provient de calculer tout à l'heure eh bien ça on a vu que ça faisait quand je le nôtre comme ça inter classes elle somme des carrés interclasses et bien c'est 24 donc là ce qu'on peut voir tout de suite ça c'est que en général et c'est un résultat tout à fait général la somme des carrés total la somme des carrés total donc la variation totale des données par rapport à leur moyenne générale est bien on peut la décomposer en disant que c'est la variation intra classe donc à l'intérieur de chaque classe la somme c'est ce que j'ai appelé la somme des carrés intra classe plus la variation qui est dû à la fa a osé car entre les classes donc ça c'est la somme des carrés interclasses voilà ça c'est le point fondamental de l'analyse de la variance donc c'est ça qu'il faut retenir plus important et sérieux tube bon là c'est peut-être un petit peu ça paraît un peu abstrait comme ça mais on fera on verra dans la vidéo précédente comment est ce qu'on peut faire des tests d'hypothèses en utilisant ce type d'analysé voilà alors je vais avant de terminer je voudrais faire une petite remarque sur aussi sur les degrés de liberté parce qu'on avait vu que la somme des carrés total est la vn fois n -1 degré de liberté donc ça je vais l'écrire ici hein je vais mettre dans une ligne ici les degrés de liberté donc ça donc les degrés de liberté pour la somme des carrés total on avait vu que c'était n x n - 1 donc ici ça faisait huit 1 3 x 3 - 1 ça fait 8 donc ici c'est 8 et on avait vu que la somme des carrés intra c'est le degré de liberté c'était mme x n - 1 et chez nous ça faisait 6 dans notre exemple et puis tout à l'heure on vient de voir que la le degré de liberté de la somme des carrés interclasses eh bien c'était m - m - m - et pour nous c'était 2 voilà et on voit qu'en fait de la même manière qu'eux on peut décomposer la somme des carrés total en somme de la variation intra classe plus la variation interclasses eh bien les degrés de liberté s'ajoute aussi puisque si je fais m donc je vais faire le calcul ici si je fais m x n - un plus m - 1 donc la somme de ces deux degrés de liberté qui sont ici eh bien je vais je vais développer en fait ça me fait m x n ça assez se produit ici - m là j'ai juste développer la preuve le premier terme plus m - 1 donc j'ai ce - m est ce m qui se simplifient et j'obtiens effectivement m x n moins inquiets le degré de liberté de la somme des carrés total voilà on va s'arrêter là je voudrais juste faire une petite conclusion en disant que voilà le point essentiel de tous les calculs qu'on a fait dans la vidéo précédente et dans celle ci c'était de montrer que quand on a des données qui sont répartis en classes et bien la somme la variation totale par rapport à la moyenne générale c'est peut s'expliquer par on peut être décomposée en la variation qui existe à l'inter au sein des classes donc la variation intra classe et en variation qui existe entre les classes donc variations interclasses voilà et puis il faut pas perdre de vue aussi cette petite discussion convient de faire sur les degrés de liberté voilà j'espère que ça aurait été utile et puis on va se servir de ça dans la prochaine vidéo pour faire un test d'hypothèses