If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Calcul du coefficient de corrélation r

Aujourd'hui, les outils technologiques permettent de calculer facilement un coefficient de corrélation (r). Mais faisons l'exercice d'utiliser la formule, pour comprendre comment r décrit le degré d'alignement des points dans un nuage de points. Sa valeur nous renseigne sur le type de corrélation entre deux variables, et sur la validité de cette corrélation linéaire.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

ce qu'on va faire dans cette vidéo c'est calculé à la main le coefficient de corrélation linéaire d'une série statistique a deux variables ici on a donc une série statistique a deux variables x et y et on m'a placé les points de coordonnées x y ici pour obtenir ce nuage de points donc on abscisse c'est la variable x et en ordonnée c'est la variable y voilà donc on a le point de coordonnées 1 1 qui est ici le point de coordonner 2-2 le point de coordonnées 2,3 et le prend de coordonnées 3,6 alors maintenant les indicateurs qui sont donnés ici le premier x barcella moyenne de la variable x1 donc c'est ce qu'on obtient si on calcule un + 2 plus de +3 divisé par le nombre total de valeur c'est à dire 4 effectivement un + 2 ça fait 3 plus de ça fait 5 + 3 ça fait 8 / 4 ça fait deux donc effectivement ça ça c'est cohérent c'est bien notre moyenne ici sigma x égale 0,7 107 ça c'est l'écart type de notre variable x donc je te rappelle rapidement l'écart type c'est donc la racine carrée de la somme des carrés des écarts à la moyenne donc ici on doit calculer la racine carrée de chaque écart par rapport à la moyenne élevée au carré donc si je prends la première valeur c1 et son écart par rapport à la moyenne c'est 1 - 2 que j'élève au carré et je fais la même chose pour toutes les valeurs de x donc la deuxième ça va être de moins 2 élevée au carré la troisième c'est 2 - 2 élevée au carré aussi et enfin pour la dernière valeur de xc donc 3 - 2 élevée au carré et je doit diviser tout ça par le nombre total de valeur qui ici et 4 voilà donc ça c'est le calcul c'est la racine carrée de la variance et la variance c'est la moyenne des carrés des écarts par rapport à la valeur moyenne de la variable alors on va faire quelques simplifications ici ce terme là 2 - 2 ça fait zéro celui-là 2 mois de ça fait zéro ici 1 - 2 ça fait moins élevée au carré ça fait donc un est ici j'obtiens 3 - 2 ça fait 1 élevée au carré ça fait un aussi donc finalement j'ai racine carrée de 2 sur 4 c'est-à-dire racine carrée de 1/2 racine carrée de 1/2 c 1 sur racine carrée de deux ça fait donc racine carrée de 2 sur 2 bon ça c'est une valeur assez célèbre ça fait effectivement 0.7 107 si tu veux on peut le vérifier alors racine carrée de 2 / 2 que ça fait effectivement à peu près 0 1 707 voilà donc ça c'est ces indicateurs la qui concerne la variable x maintenant je vais regarder à quoi correspondent ces indicateurs la y barre c'est la moyenne de la variable y on peut le vérifier alors un + 2 + 3 + 6 / le nombre total de valeur qui est 4-1 plus de ça fait trois plus trois ça fait 6 plus si ça fait douze 12 i visé par quatre ça fait bien trois donc ça c'est cohérent et comme tout à l'heure sigma et grecs c'est l'écart type de la variable y alors c'est la racine carrée de la moyenne des carrés des écarts par rapport à la moyenne comme tout à l'heure je vais le calcul est donc ses racines carrées de 1 - 3 au carré + 2 - 3 au carré plus troyes - troyes au carré plus la dernière valeur 6 - 3 o car est divisé par le nombre total de valeur qui est 4 est donc ici j'ai 1 - 3 qui est égal à -2 élevée au carré ça fait 4 ici j'ai moins élevée au carré ça fait 1 et ici j'ai zéro ce terme là 3 - 3 élevée au carré est ici j'ai 6 - 3 qui est égal à 3 élevée au carré ça fait neuf et donc finalement l'écart type ses racines carrées de alors j'ai quatre plus un +9 ça fait 5 + 9 ça fait quatorze racine carrée de 14 sur quatre alors je vais le calculer avec la calculatrice racine carrée de 14 / 4 et ça donne voilà 1,8 171 à peu près c'est ce qui est donné ici avec une petit peu d'arrondi alors maintenant on a tout ce qu'il faut pour calculer le coefficient de corrélation linéaire qui existe entre x et y évidemment il faut se souvenir des formules qui permettent de calculer alors il y en a plusieurs ici je t'en rappelles une qui est tout à fait utile dans notre cas puisque elle fait intervenir les écarts des valeurs de x et de y par rapport à leur moyenne et puis les écarts types de x et de y donc on a tout ce qu'il faut et je vais me lancer dans ce calcul donc rct gala je l'écris ici parce que ça va être un petit peu long donc n ici petit mc nombre de valeurs j'en ai quatre donc c'est un quart fois alors ici je vais mettre entre crochets pour la première valeur de x l'écart par rapport à la moyenne donc c'est 1 - 2 qui est la moyenne des x et la même chose pour la première valeur d y qui est un - la moyenne d y 3 voilà ensuite j'additionne ce l'équivalent de ce terme là pour le deuxième point 2-2 donc ça va me donner 2 - 2 facteurs de 2 - 3 ici c'est l'écart de la deuxième valeur dx par rapport à sa moyenne est là c'est l'écart de la deuxième valeur des grecs par rapport à la moyenne des grecs plus ensuite pour le troisième point donc j'ai 2 - 2 facteurs de troyes - troyes pour ce troisième point et enfin le dernier point g iii - deux facteurs de 6 - 3 voilà je ferme le crochet et je doit diviser tout ça par le produit de mes écarts types donc par 0.7 107 x 1 871 alors je vais faire quelques simplifications puisqu'il ya des choses assez facile à calculer ici 1 - 2 ici ça fait moins un l'ag -2 donc ici en fait c'est moins 1 fois moins deux ça fait deux ce terme la c2 ici 2 - 2 ça fait zéro donc ça ça s'en va ici ça s'en va aussi de moins de 7 03 - 3 aussi hélas g13 moins de ça fait un x 6 - 3 x 3 donc un x 3 ici ça fait 3 donc mot numérateur c'est 5/4 alors je vais prendre la calculatrice maintenant donc au numérateur g5 car cinq car c'est 1,25 que je dois / le produit de mes écarts types donc par 0,7 107 x 1,8 171 voix là et ça me donne environ 0,94 donc ici je trouve que air air est égale environ 0,94 voilà ce coefficient de corrélation linéaire entre la variable xla variables y en fait c'est une mesure de la de la possibilité d'exprimer la relation entre y est x comme une relation affine donc finalement ça donne une idée de savoir si on peut remplacer notre nuage de points par une droite alors quoi qu'il arrive le coefficient de corrélation binaire est plus grand qu'eux - un des plus grands qu'eux - et il est plus petit que 1 et si air est égal à 1 et bien ça veut dire que notre relation entre y est x est une relation affine croissante c'est à dire qu'on a une droite qui montrent une droite de pente positive les poissons parfaitement alignés ça c'est le cas où coefficient de corrélation linéaire est égal à 1 s'il est égal à -1 et bien on a une relation affine aussi entre la variable x est la variable des grecs mais de pente négative alors par contre si air est égal zéro ça veut dire qu'on peut absolument pas modéliser la relation qui existe entre x et y par une fonction affine autrement dit dans notre nuage de points on est très très loin d'une situation où les points sont alignés voilà donc l'idée c'est celle là notre coefficient de corrélation il mesure en fait le degré d'alignement des points de mon nuage de points alors ici notre valeur de r est très proche de 1 ça veut dire que finalement notre nuage de points il est d'une forme assez allongée à ses proches d'une droite donc on va le faire hein je vais essayer de tracer une droite qui passe le plus près possible de tous ces points alors il ya une une règle qu'on verra plus tard dans d'autres vidéos c'est que cette droite de régression linéaire on appelle ça comme ça elle passe toujours par le point moyen donc le point de coordonnées x bach y baril si c'est celui là donc il faut que j'arrive à tracer une droite qui passe par ce point là et qui passent aussi le plus près possible de mes points alors je vais le faire comme ça je vais la faire passer ici et puis je vais déplacés voilà je vais faire quelque chose comme ça je vais tracé cette droite ici tu vois là j'ai tracé une droite qui passe pas partout les points évidemment mais plus près possible de mes points là c'est à dire que si je remplace mais valeur réelle de x et y parlait valeur théorique donnée par cette droite là et bien je serai pas très loin du compte alors évidemment la droite ne passe pas par tous ces points là si elle passait par tous ces points là ça veut dire que mes points seraient tous à nier donc j'aurai un coefficient de corrélation linéaire égal à 1 1 parce que ici la pente est positive voilà donc ça ça donne quand même une idée de la signification de ce coefficient de corrélation linéaire et en fait sans rentrer trop dans les détails on peut essayer de comprendre un petit peu cette formule là en terme de contribution à notre coefficient de ré de corrélation linéaire ici je vais tracer les droites qui correspondent à mes voyages mes moyenne donc la droite x égal 2 qui est celle là qui correspond à la moyenne de la variable x et puis ici la droite y égal 3 qui correspond à la moyenne des y et en fait ce que je vais faire c'est regarder ces termes là je m'occupe pas trop bon il faudrait parler en termes de variables centrée réduite pour s'occuper aussi des écarts type mais simplement en regardant ce qui se passe ici si je regarde déjà se produit ici pour le premier point eh bien j'ai un écart ici qu'est négatif de la valeur par rapport à la valeur moyenne des x donc on pourrait penser que ça ça va enlever un peu de notre coefficient r mais en fait ce qui se passe c'est que cette partie là est négative aussi puisque ici je suis en dessous aussi de la valeur moyenne des y donc finalement j'ai quelque chose de négatif aux quelque chose de négatif ce qui fait que ce terme là en fait à une contribution positive un autre coefficient r donc il va plutôt contribué à faire que notre coefficient sera proche de 1 si je regarde maintenant ce deuxième point qui est ici et bien en fait pour la variable ix ce terme là n'a aucune contribution puisque cette valeur-là est égal à sa moyenne donc ce terme là ça nul et on pourrait penser que du coup il n'y a aucune contribution au coefficient de corrélation mais en fait c'est pas vrai puisque on a effectivement une valeur qui est nul mais on divise toujours par le même nombre de valeurs donc finalement cette valeur-là ici elle contribue plutôt à diminuer notre coefficient de corrélation linéaire voilà alors rapidement si je prenais un point ici par exemple ce point là eh bien il est au dessus de la moyenne des x et il est en dessous de la moyenne d y donc ce point là aurait une contribution négative à notre coefficient de corrélation puisque le produit serait négatif donc on enlèverait de la valeur à r et si on avait par exemple un point là ribes sûrs et a diminué encore plus le coefficient de corrélation puisque ici on a une valeur un écart positif par rapport à la moyenne en terme de x mais un écart négatif par rapport à la moyenne en terme de y donc ici on aurait de nouveau une valeur négative qui donc contribuer à diminuer le coefficient de corrélation