If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

R-carré ou le coefficient de détermination

R-carré ou le coefficient de détermination. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

  • blobby green style l'avatar de l’utilisateur Romain Riviere
    Bonjour, votre vidéo est très claire et très bien faite! Je vous remercie.
    Par contre, il n'y une chose que je n'ai pas saisie. A minutes de la vidéo lorsque vous expliquez les différentes situations (si SCEd était très petit ou très grand), vous ne parlez par de SCEy. En effet, je conçois bien le fait que si ma droite d'ajustement passe très loin de mon nuage de point, SCEd sera très grand mais qu'advient-il de SCEy? Lui aussi ne devient pas plus élevée? Mais à quelle proportion? Est ce que l'augmentation de SCEy est moins sensible que SCEd? Car si SCEd et SCEy changent des les mêmes proportions alors l'impact sur le R2 est nul. La question est: à quel point SCEy est-il influencé par l'ajout d'un point très éloigné, sachant que l'ajout d'un point influence la moyenne des positions en Y, qui à son tour va influencer le calcul de SCEy.
    D'autre part, si je rajoute un point très éloigné de mon nuage mais qu'il est très aligné avec la droite de régression alors SCEd ne changera pas et SCEy augmentera, n'est ce pas? Dans ce cas, le R2 augmente (au vue du rapport SCEd/SCEy). Donc le calcul du R2 est très sensible à la dispersion de mes valeurs, non pas seulement en y, mais également en x?
    Je vous remercie d'avance.
    Merci encore pour ces vidéos! C'est vraiment super!!
    (1 vote)
    Default Khan Academy avatar l'avatar de l’utilisateur
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans toutes les vidéos précédentes ce qu'on avait fait ses études y ait des nuages de points alors des nuages de points c'est tout simplement des points dans un plan là je vais le faire je fais un dessin mais uniquement dans le premier cadre ans a aucune importance les points pour être disséminées partout ailleurs donc c'est ces points ce sont juste des points qui sont disposés n'importe comment enfin ils peuvent être disposés dans de bonnes dispositions et on leur donne des noms alors ils ont une coordonnée celui là par exemple s'approche en abscisses et x1 et sont ordonnés c'est y 1 on a par exemple un deuxième point ici qui serait x 2 y 2 et 5 2 un troisième point quatrième point cinquième point sixième point et ainsi de suite jusqu'à pourrait avoir elles pointent donc celui ci ça serait le énième point on noterait x n y n voilà donc un nuage de points c'est vraiment ça c'est des points disséminés dans le plan avec évidemment leurs coordonnées qu'est ce qu'on avait fait dans toutes les vidéos précédentes s'étaient essayés de d'ajuster ce ces nuages de points par une droite qui pouvait à décrire le nuage de points donc essayé de modéliser ce nuage de points par une droite donc au juge et je vais là je vais tracer une droite ici et qui va essayer de passer par le plus le plus de points possible enfin passé le plus près de lui plus de points possible voilà et donc on avait trouvé une manière de déterminer la droite qui passait le plus près possible de tous les points au sens des moindres carrés ça c'était ce qui était important donc si je suppose que c'est cette droite là que j'ai tracée ici ce qui est pas évident mais bon on va supposer que c'est cette droite là à cette droite là là c'est la droite ce qu'on appelle la droite des moindres est moindre car et voilà on va l'appeler d alors cette droite là comme toutes les droites elle a une équation qui est de la forme y égale m x + b et puis ce qu'on avait fait dans les vidéos précédentes c'était travailler pour essayer de calculer cette de donner une formule pour trouver cette pente de la droite des moindres carrés et l'orée de leur donner à l'origine donc c'est effectivement ce qu'on avait fait on avait finalement établi des formules pour trouver ces deux paramètres là la pente et leur donner à l'origine de la droite des mains des moindres carrés donc ça ce sont des données des choses qu'on sait calculer maintenant une fois qu'on a un nuage de données alors très rapidement je voudrais reprendre un petit peu raisonnement qu'on avait fait on avait en fait tracer une droite remplacer chaque point donc ici ces points d'apsys x1 par son ne sont sont équivalents enfin le point de même apsys qui est située sur la droite donc ici là c'est y un et là on pourrait appeler ça y est chapeau donc c'est le point qui est sur la droite qui a la même absiskey x1 et cette distance là en fait c'est l'erreur qu'on fait donc je vais l'appeler ici le 1 c'est l'erreur qu'on fait quand on remplace ce point de coordonnées x ou y un par le point de coordonnées x 1 y un chapeau et en fait on fait ça pour chaque point donc ici pour le point 2 on aurait cette erreur là ici ça ça c'est l'erreur 2 c'est l'erreur qu'on fait quand on place le point d'abc 6-2 et de cordes et d'ordonner pardon y deux par lepoint d'abc 6-2 et d'ordonner y de chapeau qui est située sur la droite c'est celui qui dit si ça c'est y deux chapeaux voilà et puis on fait ça pour chaque point donc ici on aurait une erreur aussi là on aurait une erreur aussi là on aurait une erreur aussi là on aurait une erreur aussi et puis finalement jusqu'à la dernière erreur qui est celle là ici qu'on aurait appelé e n l'erreur n voilà et puisqu'on avait fait c'est que au lieu d'essayer de calculer la somme des erreurs parce que comme il peut y avoir des questions de sign on avait calculé la somme des carrés des erreurs ce qu'on avait appelé comme ça la somme des carrés des erreurs par rapport à la droite des c'était alors le 1 au carré plus 2 au carré plus ainsi de suite jusqu'à eux n au carré et on avait même donné une expression un peu plus précise de cette aide de cette somme des carrés des erreurs par rapport à la droite des en fait l'erreur 1c y 1 - y un chapeau mais y un chapeau cm x x 1 + b 1 donc cette erreur un on peut l'écrire comme ça c'est y 1 - mx1 plus b donc ça c'est l'erreur un que je dois élever au carré plus pour les rares 2 c'est pareil c'est y 2 - mx2 plus b le tout est élevée au carré plus ainsi de suite jusqu'à la dernière erreur je vais écrire un peu en dessous c'est y n - mxn plus b le tout est élevée au carré voilà donc cette somme des carrés des erreurs je vais leur écrire ici par rapport à la droite b on avait calculé on l'avait minimiser on avait vu que pour des valeurs qu'on avait réussi à calculer 2ème et b cette somme des carrés des erreurs était la plus petite possible donc là j'insiste cette somme des carrés des erreurs une fois qu'on a la droite des moindres carrés on peut parfaitement la calculer puisqu'on connaît m et b on avait nos formules pour ça qu'on a démontré nous mêmes et puis on sait que c'est la plus petite de ses valeurs alors il ya eu autre chose qu'on a beaucoup utilisé avant de quand on l'a fait des statistiques descriptives c'est que ce qui est intéressant de regarder c'est la dispersion des données par rapport à leur moyenne donc par exemple ici si je regarde la moyenne des y alors je peux peut-être là m ici disons que ça sera aussi bon le graphique va devenir un peu compliqué mais si ici en à y barre donc ça c'est la moyenne de désordonné de nos points donc là on peut tracer une droite qui va passer comme ça et on avait utilisé très souvent un indicateur qu'on avait appelé la variance est en fait qui mesurait la moyenne des carrés des écarts par rapport à la par rapport à la moyenne heure là on va pas faire ça on va regarder quelle est la somme des carrés des écarts par rapport à la moyenne y barre de la donne et y donc ça c'était y 1 - y bar au carré plus y un grec de pardon - y part élevée au carré plus ainsi de suite plus y n - y bar au carré donc ça c'est la somme des carrés des écarts par rapport à la moyenne pour la donne et y carré des écarts par rapport à la moyenne y barre voilà alors bon on connaissait cette expression là il suffit qu'on dit quand on divise par l on obtient la moyenne des carrés des écarts par rapport à la moyenne donc en fait on obtient la variance d y voilà alors pour l'instant on va s'occuper de ça est en fait la question qu'on va se poser c'est quel pourcentage quelle proportion de 7,2 cette somme là est expliquée par la droite alors je précise un petit peu ici en fait quand je calcule cette somme des carrés des écarts par rapport à la moyenne en fait chaque écart par rapport à la moyenne ici je je suis en y donc l'écart par rapport à la moyenne de ce point je vais je prendre une autre couleur alors l'écart par rapport à la moyenne de ce point qui est ici du point y 1 c'est toute cette distance là voilà l'écart par rapport à la moyenne de ce point là c'est cette distance là pour ce point si ça sera cette distance là un ici là on aura cette distance là ici on va avoir celle là ici on aura celle ci est ici on va avoir la distance toute cette distance là voilà donc ça c'est je représente ici les écarts un skate dans les parenthèses donc nous nous ce qu'on fait quand on fait la somme des carrés des écarts par rapport à la moyenne on additionne le carré de tout ses distances que j'ai tracée en jaune voilà c'est la somme des carrés des écarts par rapport à la moyenne j'ai sommes par rapport à la moyenne y barre et on va essayer de voir quelles proportions ça c'est la question qu'on va se poser quelle proportion des de ces écarts donc de la somme des écarts par rapport à y bar est expliquée par la droite s'est expliquée par la droite alors ça veut dire en quelque sorte comme quelle proportion de la somme des carrés des erreurs par rapport à la moyenne explique est expliquée par des variations de la variable par l'écart de la variable x par rapport à sa moyenne x barre c'est la même question alors ça a pas l'air très simples comme question parce que calculer la proportion de cette somme des carrés des erreurs par rapport à la moyenne ikb a et greg barre expliqué par la droite c'est pas très facile si on le prend dans ce sens a par contre ce qu'on peut voir ici que c'est qu'en fait cette somme des carrés des écarts par rapport à la droite qu'on a calculé un donc c'est ce qu'on a dessiné en bleu cette partie là cette partie là ici cette partie là qui reste et bien ça c'est la partie qui n'est pas expliquée par la droite donc si j'écris ça somme des carrés des écarts et bien c'est là par la partie de la somme des carrés des écarts par rapport à la moyenne de y qui n'est pas qui n'est pas expliquée qui n'est pas expliqué par la droite dès par la droite des moindres carrés d'accord partait donc en fait c'est exactement ça puisque c'est cette partie là qui est en bleu donc c'est effectivement l'erreur qu'on fait quand on remplace le point par le point qui le point mais ma psy ce qui est su pied qui est située sur la droite donc là je vais faire un peu d espaces parce que là on a quand même pas mal avancé du coup quand on calcule le rapport s ed / s e y ait ce y barre et bien ça c'est quoi et bien c'est tout simplement la proportion de la somme des carrés des écarts par rapport à la moyenne y bar qui n'est pas expliquée qui n'est pas expliquée par des voilà effectivement c'est bien ça puisque cette somme des écarts par rapport à la droite c'est la partie que comme c'est l'erreur qu'on fait quand on remplace le nuage de points par la droite et donc quand on rapporte ça à la somme des carrés total des écarts par rapport à y bar on obtient effectivement la proportion qui n'est pas expliquée par rapport à la droite alors en fait là on a pratiquement terminé parce que finalement la proportion des écarts qui est expliquée par la droite bat c c'est 100% c'est 100% brrr si on exprime sa pourcentage ça sera 100% - cette proportion l'a donc en fait si si ça par exemple si cette rapport là c'est 30% par exemple et bien la proportion des de cette somme des écarts par rapport à y bar qui sera expliquée par la droite et bien ça sera 100% -30% donc 70 % donc en fait ça veut dire que la proportion je vais le faire en rouge la proportion 2 de la variation de y par rapport à sa moyenne qui est expliquée par des et bien c'est un moins ce rapport quand on a calculé tout à l'heure alors là pas calculer mais on a défini donc un moins la somme des carrés des écarts parle des écarts par rapport à la droite divisée par la somme des actes des carets des erreurs par rapport à la moyenne voilà alors cette quantité là on appelle ça est le coefficient de détermination c'est le nom qu'on a donné à cette quantité coefficient de détermination et de manière classique on le note rdr au carré voilà r2 donc ça c'est le coefficient de détermination tu vas voir un petit peu pourquoi on l'appelle comme ça en fait il permet de déterminer si un ajustement est bon ou pas alors on va voir pourquoi par exemple si on a une somme des carrés des erreurs par rapport à la droite petit alors ça veut dire que on a je reviens tout en haut ça veut dire que les erreurs ici le 1 2 3 élevée au carré cette somme là est très faible donc ça veut dire que la droite est un bon ajustement linéaire parce qu'elle va passer vraiment très près de tous les points donc ça si la somme des écarts par rapport à la droite est petit évidemment ça veut dire que dès est un bon ajustement est un bon ajustement du nuage voilà donc on a tout intérêt à remplacer le nuage de poids par cette droite d et puis là ce qu'on peut voir aussi c'est que si la somme des carrés des erreurs est petit alors ce rapport si la somme des carrés des erreurs par rapport à la droite divisée par la somme des carrés des erreurs par rapport à la moyenne ça va être quelque chose de très petit aussi est donc finalement le coefficient r2 coefficient de détermination il va être proche de 1 donc ça veut dire que si on calcule notre coefficient de détermination et qu'on voit qu'il est proche de 1 notre droite sera un bon ajustement du nuage de points voilà alors peut continuer un peu l'investigation si au contraire on a une somme d écart par rapport à la droite qui est grande là je reviens un petit peu là haut ça veut dire que ces écarts là vont être grande donc en fait l'erreur a va être assez grande quand on va remplacer le nuage de points par la droite donc la droite des ne sera pas un bon ajustement line r&d n'est pas n'est pas un bon ajustement voilà est ce qu'on peut voir aussi c'est que si la somme des carrés des erreurs par rapport à la droite est grande ce rapport là va être grand aussi va être proche de 1 et du coup le coefficient de détermination va être proche de zéro donc si la somme des carrés des erreurs par rapport à la droite est grande le coefficient date de détermination il va être proche de zéro donc là aussi si on calcule notre coefficient de détermination et qu'on voit qu'il est proche de zéro ça veut dire que notre droite des moindres carrés ne sera pas un bon ajustement du nuage voilà pour la on a parlé de tout ça de manière très abstraite dans les autres vidéos on fera des applications de tout ça pour que ce soit un peu plus pratique