If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Approche intuitive du coefficient de détermination R²

Dans la leçon sur le coefficient de corrélation linéaire r, nous avons mis l'accent sur sa signification et sur son interprétation et non sur son calcul. D'une part, son calcul est assez complexe et long, d'autre part, tous les logiciels de statistiques donnent sa valeur.
Nous allons faire de même ici avec le coefficient de détermination r2.
Dans un sens, r2 mesure la diminution de l'erreur de prédiction lorsqu'on utilise la variable x pour expliquer la variable y dans le modèle de régression linéaire.

Modèle de régression linéaire y=a

On définit le modèle de régression qui n'utilise pas la variable x pour estimer les valeurs de y, c'est-à-dire le modèle composé uniquement de la constante : y=a
Dans ce cas, l'estimateur des MCO de la constante a est la moyenne arithmétique de y.
Par exemple, soit le nuage de points (xi;yi) et la droite des MCO où les valeurs prédites de y sont toutes égales à la moyenne arithmétique de y :
On remarque que cette droite n'ajuste pas au mieux le nuage de points. Pour mesurer la qualité d'un ajustement, on calcule la somme des carrés des résidus (écarts entre les valeurs observées de y et les valeurs prédites par le modèle linéaire). Elle indique la variabilité non-expliquée (résiduelle) par le modèle soit l'erreur de prédiction du modèle.
Avec le modèle de régression composé uniquement de la constante, la somme des carrés des résidus est égale à 41,1879
Si maintenant, on utilise la variable x pour prédire les valeurs de y, les variations de y vont-elles être expliquées par celles de x ? En d'autres termes, l'erreur de prédiction va-t-elle être réduite ? Si oui, de combien ?

Modèle de régression linéaire y=bx+a

On a représenté le même nuage de points et la droite de régression des MCO :
Équationrr2
y^=0,5x+30,8160,6659
La droite ajuste mieux le nuage de points. On calcule à nouveau la somme des carrés des résidus pour mesurer la qualité de l'ajustement :
En utilisant la variable x pour expliquer la variable y, la somme des carrés des résidus diminue de 41,1879 à 13,7627.
Lorsqu'on utilise la régression linéaire de y en x par la méthode des MCO, l'erreur de prédiction diminue considérablement. Voyons de combien.

R² mesure la diminution de l'erreur de prédiction

Dans le modèle réduit à la constante, la somme des carrés des résidus est égale à 41,1879. Dans le modèle incluant la variable x, elle n'est plus que 13,7627.
La diminution de la somme des carrés des résidus est de : 41,187913,7627=27,4252.
En terme de pourcentage de la valeur initiale de l'erreur de prévision, cette diminution représente :
41,187913,762741,1879=27,425241,187966,59%
Dans le tableau résumant la régression, on avait obtenu r2=0,6659.
R² confronte la prédiction du modèle s'appuyant sur x avec le modèle qui n'utilise pas l'information procurée par x c'est-à-dire basée uniquement sur y. Il Indique le pourcentage de l'erreur de prédiction de y en moins lorsqu'on utilise x, soit dans quelle mesure la variable x permet d'améliorer nos connaissances sur la variable y .
La quantité r2 est appelée coefficient détermination.
On définit souvent r2 comme étant la proportion de la variance de y expliquée par le modèle de régression de y en x.
Le carré du coefficient de corrélation linéaire r entre y et x est égal dans le cas de la régression simple au coefficient de détermination. La preuve de la relation entre r et r2 est assez complexe et dépasse le cadre d'un cours d'introduction à la statistique.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.