Si vous voyez ce message, cela signifie que nous avons des problèmes de chargement de données externes.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

ANOVA 3 : Tester une hypothèse avec le test de Fisher

Analyse de Variance 3 - Tester une hypothèse avec le test de Fisher. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans les vidéos précédentes on avait utilisé cette série de données donc là on a neuf données réparties en trois classes différentes la classe 1 la classe ii et la classe 3 et donc on avait travaillé sur ces données pour calculer la variant la variation totale par rapport à la moyenne générale qui étaient quatre ici donc c'est ce qu'on avait fait ici en calculant la somme des cars est totale donc c'est les écarts par rapport à la moyenne et élevée au carré la somme des écarts par rapport à la moyenne élevée au carré on avait trouvé que cette somme des carrés total elle valait 30 et ensuite ce qu'on s'était demandé c'était quelle est la part de cette variation totale qui provient d'une variation à l'intérieur des classes donc de la variation des données par rapport à la moyenne de leur classe donc c'est ce qu'on avait calculé ici la somme des carrés intra classe qu'on avait appeler ça comme ça et on avait trouvé que cette part de variation intra classe c'était 6 voilà donc deux c30 ici il n'y a pas d'unité maison de cette variation totale de 30 il y en a six qui provient d'une variation intra classe et le reste provient de ce qu'on appelle la variation interclasses donc de la variation entre les entre les classes ici entre les classes de données donc on avait calculé aussi cette somme des carrés donc cette variation un trait interclasses cesser ce calcul qui est ici on avait trouvé que la somme des carrés interclasses était égal à 24 et on avait vu qu effectivement si on additionne la somme des carrés un trac la 6 6 2 6 et la somme des carrés un père classe et bien on retrouve la somme des carrés total alors ce que je voudrais faire ce dans cette vidéo c'est utiliser ce qu'on vient de faire utiliser ces résultats-là donc en fait on a calculé des statistiques sur notre sueur nous donner je voudrais utiliser ces statistiques pour tester en fait quelque chose pour arriver à tirer des conclusions d'un certain type 1 alors pour faire ça je vais quand même essayer de contextualiser un petit peu ce qu'on a ici donc on va supposer que par exemple âgées j'ai eu j'ai pris 3 3 groupes de patients et je leur est administré à chacun pour soi une pilule enfin un médicament bien on va dire plutôt un aliment donc là ce groupe là il a ingéré l'aliment 1 celui ci il a ingéré l'aliment de et celui ci il a ingéré l'aliment 3 et là on a les résultats de ce test important sur chacun des trois groupes alors maintenant la question que je vais me pose est évidemment naturellement c'est qu'est-ce qu'on peut tirer comme conclusion sur l'impact des aliments est ce que est ce que véritablement le fait d'un gérer tels aliments sains ou l'aliment de houle alimente 3 a un impact sur les résultats des mesures qui sont faites ici donc évidemment si je regarde simplement les moyennes de ces trois classes donc de ces trois échantillons pourraient dire bien je ferai tout de suite en conclure que les l'impact est plus fort ici parce que la mieux les mesures sont plus la moyenne est plus élevé quand on ingère l'aliment 3 que quand on ingère l'aliment de houle aliments sains mais là ce que je peux me demander c'est est ce que cette différence de moyenne et simplement dû au hasard ou bien est ce qu'elle est elle reflète vraiment une différence sur la population totale donc en fait la question ma question ici ça va être est ce que les moyennes mais moyenne ici et les populaires et les moyennes réelles sur les populations sont identiques alors une autre manière de formuler sa c est ce que je place je peux supposer j'ai un échantillon donc évidemment c'est un échantillon seulement pas interrogé toute la population des gens qui ont mangé 7 aliments sains par exemple mais je vais pouvoir quand même considérer la lame en théorie la moyenne réelle sur la population celle là je vais l'appeler mu 1 et puis je peux faire la même chose sur la population de 1 qui a mangé l'aliment 2 donc ça sera une moyenne réelle mu 2 et puis la moyenne réelle pour la population qui a mangé l'aliment 3 donc la question c'est ça est-ce que les moyennes réel de nos trois populations vont être égalé ce que on va avoir le mieux égale à mu de est égalament eu 3 alors effectivement si cette égalité n'est pas vérifiée donc s'il ya une différence entre ces trois mois en moyenne réelle eh bien je vais pouvoir en conclure qu effectivement les aliments le type d'aliments qu'on ingère a un impact sur cette étude alors donc je vais faire un test d'hypothèses donc je vais commencer par définir les hypothèses je descends un petit peu donc je vais définir d'abord l'hypothèse nul alors je vais la définir comme ça l'hypothèse nul c'est l'hypothèse à 0 c'est l'hypothèse selon laquelle l'aliment n'a pas d'impact l'aliment n'a pas d'impact n'a pas d'impact voilà alors l'hypothèse alternative évidemment c'est l'hypothèse h 1 je l'appelle comme ça selon laquelle l'aliment a un impact l'aliment a un impact voilà alors dans le premier cas dans le cas de l'hypothèse nul si l'aliment n'a pas d'impact ça veut dire que les moyennes réelles sur les populations dans le groupe 1 dans le groupe 2 et dans le groupe 3 seront toutes les trois identique donc ça ça veut dire que on va avoir mu est égal à mu 2 égal à mu 3 et populaires les moyennes sur les populaires et moyennes réel sur toutes les populations sur les trois populations seront égales par contre si l'hypothèse alternative est vérifiée eh bien ça voudra dire que l'aliment a un impacte donc que les c3 moyenne ne seront pas toutes les trois égal alors comment est ce que je vais faire ce test d'hypothèses bien comme d'habitude je vais commencer par supposer que l'hypothèse nul est vrai donc ça c'est ce qu'on fait à chaque fois dans les tests d'hypothèses on suppose que h 0 et vrai que h 0 est vrai et ensuite on va calculer une statistique du test et puis on va voir la probabilité d'avoir une valeur aussi extrêmes que celles qu'on a même que la valeur de la statistique qu'on a calculé alors là je parle un petit peu dans le flou parce que j'ai pas encore défini ce que c'est que cette statistique du test alors la statistique du test ici qui va nous être utile c'est ce qu'on appelle une statistique f statistiques f statistiques le du mal aujourd'hui f et en fait cette statistique fl va suivre une loi de fisher loi de fischer lors je vais pas faire une discussion théorique sur cette loi de fisher ce qu'on peut se dire tout simplement c'est que là pour pour nos pour nous ça suffira on va tout simplement se dire que cette statistique est en fait c'est une un quotient de 2-2-2 variable qui suivent une loi du chi 2 alors une loi du chi 2 avec un pas nécessairement le même degré de liberté 1 donc voilà là un quotient de deux variables qui suivent une loi du titre du chi 2 ça va ça va donner une variable qui suit une loi de fischer on dit aussi loi de fisher ce les décors ce sont les deux mathématiciens qu'ils ont introduites alors ici la statistique m je l'avais je vais la définir à partir des quantités qu'on a calculé dans les vidéos précédentes pour donc à partir de ces somme des carrés en fait je vais la définir comme ça alors je vais respecter le code couleur notre valeur de la statistique f ça va être la somme des carrés inter interclasses donc c'était ce que j'avais noté comme ça sc inter / son degré de liberté lors de son degré de liberté on avait dû vu que c'était m - 1 m - 1 donc ça en fait on pourrait voir ça comme la moyenne des carrés interclasses puisque c'est une sorte de moyenne / là je vais utiliser la variation intra classe donc je vais l'écrire comme ça / la somme des carrés intra intra classe que je divise également par son degré de liberté qu'était m x n moins 1m x n - st voilà c'est comme ça que je vais définir cette statistique f alors cette définition l'a déjà on peut en tirer quelque chose c'est que si le numérateur est beaucoup plus grand que le dénominateur bien ça voudra dire que je reproche peut revenir à mes données ici ça voudra dire que le lavage de la part de la variation qui est dû à des variations interclasses est beaucoup plus importante que la variation qui est dû à des variations intra classe donc au sein des classes donc la part des variations entre les moyennes des classes sera beaucoup plus importante que la part de la variation qui est dû à l'intérieur des classes l'intérieur des classes elle même et ça c'est important parce que ça voudra dire que si effectivement ce nombre est très grande roxy le numérateur est beaucoup plus grand que le dénominateur eh bien on va on va avoir une forte part de la variation qui est dû aux variations interclasses et donc on aura l'impression qu effectivement l'aliment va avoir eu un impact sur les résultats du test est autrement dit si ce nombre est très grand et bien on aura une très faible probabilité que l'hypothèse nuls soit vrai donc que l'aliment n'ait pas d'impact alors al'inverse si si au contraire le numérateur est beaucoup plus petit que dénominateur donc si cette quantité là est beaucoup plus grande ça voudra dire que effectivement la part la plus importante le plus gros pourcentage des variations est observée en fait à l'intérieur des échantillons et donc on va pouvoir se dire que les différences qu'on a observés dans au fait ce sont tout simplement des différences aléatoire du à l'échantillonnage et dans ce cas là effectivement ça deviendra un peu plus difficile d'aller rejeté l'hypothèse nul voila alors je reviens ici bon là on va calculer la valeur de notre f i see donc dans notre cas la somme des carrés inter on avait vu que c'était 24 ans à noter ici donc c'est 24 / le degré de liberté le degré de liberté on avait dit que c'était deux ici donc 24 / 2 et puis je dois diviser tout ça par la somme des carrés inter et intra classe pardon qui étaient six et que je divise encore une fois par son degré de liberté qui s'était 6 aussi donc finalement la statistique f la valeur de la statistique f ici c'est alors le dénominateur ici 6 / si ça fait 1 donc il nous reste à calculer ce numérateur 24 / 2 ça fait douze donc notre statistique est fille si elle vaut 12 voilà alors ça on va voir que c'est une valeur assez élevé 1 mais bon j'ai il ya quelque chose que j'ai oublié de faire et qui est vraiment très important quand on fait un test statistique un test d'hypothèses c'est de fixer le seuil de signification ça c'est très important donc ici on va se dire par exemple ou à fixer un seuil de signification de 10% donc de 0,1 0,1 ça ça veut dire quoi ça veut dire que je vais et calculer ma statistique du test ici et puis cette si j'ai une probabilité inférieure à 10% d'avoir obtenu une telle valeur de la statistique f eh bien je vais pouvoir rejeter l'hypothèse nul si au contraire la probabilité d'une telle valeur de la statistique f est supérieure à 10% et bien je ne pourrais pas jeter rejeté l'hypothèse nul voilà donc celle là c'est ce que je vais faire je vais en fait essayé de calculer la statistique la valeur de la statistique f la valeur critique de la statistique f qui correspond à ce seuil de signification et puis je le voir comment elles se situent par rapport à notre valeur ici de 12 de la statistique f on a calculé statistiques de notre test alors avant d'aller regarder dans la table de la loi de fisher avec notre seuil de signification de 10% de 0,1 break 1 de faire une petite remarque ici on a notre statistique est fonds l'a introduite comme étant un quotient de deux variables de deux valeurs qui vont suivre toutes les deux des lois du kit 2 alors le numérateur il va suivre une loi du kit 2 avec m -1 degré de liberté donc dans notre cas deux degrés de liberté et puis le dénominateur va suivre une loi du kit de aussi avec 6 degrés de liberté donc ça c'est important je vais pas rentrer dans des détails de la loi de fisher mais dans notre cas c'est une autre vague notre statistiques de thé du test rhinois de fisher puisque c'est une un quotient de deux variables qui suivent la loi du chi 2 avec 2 degrés de liberté pour numérateur et 6 degrés de liberté pour le dénominateur alors je vais prendre maintenant une table de la loi de fisher juste une chose à dire importante c'est que il ya plusieurs tables de la loi de fisher puisque en fait y en a une par seuil de signification donc là j'ai pris la table de la loi de fisher et des corps correspondant au seuil de signification de 10% donc c'est à dire à la valeur alpha égale 0,1 voilà donc ici on avait bien vu que c'était une une table qui allait dépendre de deux paramètres le degré de liberté du numérateur pour nous ces deux alors je vais entouré cette valeur là 2 et le degré de liberté du dénominateur qui pour nous était 6e si je me souviens bien voilà c'est ça le nez le degré de liberté du dénommé du numérateur c2 et le degré de liberté du dénominateur c6 donc je vais chercher maintenant la ligne 6 qui est ici donc finalement la valeur que je cherche c'est celle là c'est 3,46 3,46 ça veut dire que ma est ma valeur critique de la statistique f je vais l'appeler comme ça f critique et bien ses 2,46 2,46 alors nous la valeur de la statistique f qu'on a est bien bien supérieure celle ci puisque nouvelle neige pour nous elle vaut 12 et la valeur critique vaut de 2,46 donc effectivement notre valeur à nous et bien bien supérieur à la valeur critique donc il ya commencé que il ya une probabilité inférieure à 10% d'avoir une valeur supérieure à 2,46 à celle là leurs critiques ban ou en fait là on va on a une valeur nettement supérieure à sa non qu'on a une probabilité nettement inférieure à 10% d'avoir eu une valeur aussi extrêmes que celles ci 12 dans notre cas rhin donc ça veut dire que on va être conduit à rejeter notre hypothèse nul dans ce cas là voilà donc ça c'est la conclusion on rejette on rejette h 0 or j'ai tâche 0 parce que 12 la valeur de notre statistiques f est très nettement supérieur à la valeur de la statistique à la valeur critique de la statistique f voilà donc on va pouvoir conclure que finalement il ya probablement l'alimentation a probablement un impact sur cette étude est bon quand on fait cette conclusion c'est que comprend risque d'erreur de première espèce de 10%