If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Covariance et droite de régression

Covariance, Variance et coefficient directeur de la droite de régression. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

alors dans une autre vidéo sur la droite des moindres carrés on avait déterminé la pente de la droite damon des moindres carrés quand on avait un nuage de points et puis on avait rapidement j'a avait rapidement donné une formule qui faisait intervenir un nouvel indicateur avait appelé la colonne la covariance donc j'avais donné cette formule sans la justifier et là on va essayer de la retrouver justement donc ce que je vais faire c'est parler de manière un petit peu différente parce que je trouve ça intéressant aussi de d'arriver à faire des liens entre des choses qui peuvent avoir l'air différentes donc là on va prendre deux variables aléatoires alors je vais prendre des couleurs on a une variable aléatoire x est une variable aléatoire y donc ça c'est des variables aléatoires alors je parle en termes de variables aléatoires parce que en fait c'est le cas le plus fréquent c'est qu'on a une population dont on ne peut pas mesurer les paramètres et on va du coup s'occuper de mesurer ces paramètres là ces indicateurs la sur des échantillons pour avoir des statistiques mesurées sur des échantillons alors dans ce cadre là ce qu'on appelle la covariance je vais la définir de cette manière là la covariance 2x et 2 des deux variables x et y je vais garder le code couleur la covariance 2x et de y eh bien ça va être l'espérance mathématique alors je vais faire décrocher en fait ça va être l'espérance mathématique d'une nouvelle variable qui va être le produit des écarts de x et de y par rapport à leur moyenne alors je vais le faire je vais l'écrire ici donc c'est l'espérance mathématique 2x moins son espérance donc moins sa moyenne x y - sa moyenne donc y moins son espérance voilà ça c'est la définition de la covariance 2x et de y alors sa mesure d'une certaine manière un petit peu le sait pas si intimement tu arrives à te faire une idée de ce à sa mesure un peu la manière dont les deux variables varie ensemble on va peut-être faire un petit exemple donc si par exemple on a pris un échantillon de nos variable aléatoire de taille 1 donc on a obtenu une variable d'une valeur de x qui est par exemple x égal 1 et puis une valeur de y disons 3 et puis on sait suppose donc on sait que l'espérance de x c'est zéro et l'espérance de y c'est 4 alors voilà x dans notre échantillon à la valeur de x a été un peu supérieur à la moyenne alors que la valeur d y a été un peu inférieur à sa moyenne alors dans ce cas là ce qu'on peut voir on va pas calculer la covariance 2x et de y en a qu'un échantillon donc c'est pas on pourra pas calculer cette covariance par contre ce qu'on peut voir c'est que dans ce cade dans ce cas là ce qui est à l'intérieur de la parenthèse quand on a à x - eu 2 x x y - euh de y dans notre cas qui est ici eh bien ça fait alors j'ai oublié la parenthèse ici ça fait la valeur de l'icsc on a calculé c'est un combat déterminé par le pari championnat c1 - 0 donc ça va faire un donc j'écris 1 - 0 fois ici 3 - 4 donc fois moins 1 donc ce qui est dans la parenthèse c'est ça va donner moins 1 donc ça va être négatif alors en fait c'est ça la clé c'est ça qu'on peut essayer de comprendre c'est que si effectivement ça se passe comme ça s'il y en a un qui est en dessous de sa moyenne et l'autre au dessus de sa moyenne et si c'est toujours comme ça on va avoir une covariance qui va être négative si au contraire ils sont tous les deux au dessus de leurs moyennes ont tous les deux en dessous on va avoir une expo une co variance positif et puis évidemment la valeur de cette confiance ça va donner une indication de l'intensité avec laquelle les deux variables variant semble bon enfin voilà maintenant on va essayer de déterminer une autre formule de cette variance l'a donc ce que je vais commencer par faire c'est développer seule chose que je peux faire pour l'instant c'est développer ce qu'il ya dans les crochets ici donc je vais leur écrire comme ça la covariance 2x et de y ça va être égal à alors je vais garder jaune c'est en jaune alors je fais un grand crochet et puis là je vais faire le produit donc j'ai d'abord ce produit laïque suez en fait je vais distribuer deux fois 7 se produit donc je vais faire x x y alors x x y ensuite j'ai x x l'opposé de l'espérance de y donc par moins eu de y donc ça va me donner - alors je vais faire x anvers et eu de y ensuite j'ai ce produit là - l'espérance de x x x x y donc ça va me donner moins - l'espérance de x x y j'écris comme ça et ensuite j'ai ce produit là - l'espérance de x x - l'espérance de vie y savent ça ça va me donner plus l'espérance de x x d'espérance de y voilà là j'ai tout simplement développer ce qu'il y avait dans la pâte dans la parenthèse donc en fait j'ai développé la variable de cette nouvelle grande variable qui était le produit de ces deux termes alors maintenant ce que je peux utiliser c'est la ligne la linéarité de l'espérance mathématique en fait quand je calcule l'espérance d'une somme ou d'une différence de deux variables et bien ça sera la somme des espérances ou bien la différence des espérances des variables alors là je vais pouvoir du coup linéarité ça donc ça va me donner alors j'écris ici espérances de je garde les crochets 7 ce produit-là x x y ensuite - l'espérance là je vais ouvrir les crochets fermer les crochets donc c'est ce terme là un espérances de xx x l'espérance de y alors j'ai pas pris la bonne couleur fois l'espérance de y voilà ensuite je continue avec cet autre terme qui est là donc c'est moins l'espérance faire pareil donc c - l'espérance de la variable ici c'est eux l'espérance de x x y et puis il me reste ce terme-là plus je gardais le jaune plus l'espérance de ce produit espérances de x x espérances de y voilà et je ferme le crochet alors là il ya plusieurs choses qui sont intéressantes un bon je vais commencer par ce terme là là je vois pas très bien ce que je peux faire donc je vais le réécrire et comme je vois pas ce que je peux faire je vais figé les couleurs je vais écrire directement comme ça donc c'est l'espérance du produit 2 x et de y ensuite la je peux faire quelque chose d'intéressant parce que ce nombre-là eu de y c'est un nombre c'est plus du tout une variable donc en fait il faut penser à 7 quand je fais l'espérance de x x e de y c'est comme si par exemple je sais pas on aurait pu calculer l'espérance de y ai trouvé que ça vaut par exemple 3 donc on aurait ici l'espérance de 3 x 1 ce sera peut-être pas trois mais en tout cas ça sera un nombre qui sera pas variable donc en fait à ce moment là on peut se rappeler que l'espérance en fait c'est une manière de calculer la moyenne donc si on a une variable aléatoire discrète et fini ça sera une somme de termes divisé par le nombre de termes donc on pourra mettre ce 3 cette espérance de y en facteur mais ça sera la même chose si on a d'autres types de variables un peu sinon si on a une variable aléatoire continue par exemple on pourra voir ça comme la somme des valeurs de la variable pondérée par sa probabilité donc dans tous les cas on pourra mettre en facteurs se e de y donc ça va me donner ça ça va me donner - alors eu de y l'espérance de y qui est un nombre que je peux donc factoriser en quelque sorte x l'espérance de la variable x voilà et puis ici ce terme là bas c'est exactement la même chose espérance de x c'est un nombre donc je vais pouvoir le faire sortir le factoriser comme tout à l'heure donc ça me donnait moins eu de x factor 2e 2 y 2 y 2 écrire en respectant les couleurs j'espère que le code couleur est assez clair ici alors maintenant on en vient aux derniers termes c'est l'espérance de ce produit l'espérance de x fois l'espérance de y en fait ce produit c'est tout simplement un nombre c'est l'espérance de x ça va être un nombre l'espérance de y ça va être un nombre le produit des deux expériences est un nombre et donc quand on calcule par exemple l'espérance 2e 2 x en fait on va faire une moyenne pour simplifier un je vais dans le cas d'une pour donner une image dans le cas d'une variable discrète et finit en fait on va calculer la moyenne de cette variable 2 x qui n'est pas du tout une variable qu'en fait on va avoir une somme de haine fois ce terme là / n donc en fait on va avoir exactement d'espérance de x c'est à dire que en fait si je calcule ici j'ai disons que ces 5 par exemple si cette espérance c5 je vais avoir la moyenne de 5 la moyenne de 5 c'est tout simplement 5 lui-même donc c'est exactement ce qui est écrit ici et c'est ce dont on va se servir pour ça en fait du coup cette ce terme là bas c'est tout simplement alors je vais l'écrire comme ça ce2 x x e de y l'espérance de xx x l'espérance de vie y alors bon là on a quand même pas mal à changer pas mal avancé parce que ce qui nous restait alors ici je vais réécrire sa avec les codes couleurs de tout à l'heure donc c'est l'espérance de x fois l'espérance de les grecs sache peut rien y changer pour l'instant fin je pourrais je peux rien y changer du tout est là en fait je vois que j'ai ici - ce terme là c'est l'espérance des grecs fois l'espérance de x ce terme là c'est l'espérance de x fois l'espérance de y en fait c'est exactement le même terme c'est commutative tout ça donc c'est un produit de deux nombres écrit dans dans des ordres différents mais c'est deux fois le même nombre et puis là j'ai plus eu de x x e de y donc en fait je peux voir ça aussi comme ça je pourrais ce terme-là s'annulent avec celui ci et il me reste uniquement celui là donc je vais pouvoir l'écrire comme ça ça va donner donc moins eu 2 x x e de y ait eu de y donc finalement j'ai exprimé ma covariance 2x et de y comme l'espérance de la variable produits xy - l'espérance de x fois l'espérance de y alors à ce stade là ce qu'on peut faire c'est prendre un échantillon de notre variable puisque là on est dans un cas très générale où la variable et quelconque c'est à dire qu'elle peut être très bien continus infinis enfin bon alors maintenant ce que je vais faire je vais prendre un échantillon de mais variable x et y donc je vais prendre un échantillon alors je vais le faire comme ça ça va je vais je veux dire que c'est un échantillon donc je vais avoir ici des valeurs x 1 x n 2 mar ayan x et puis ici d une valeur y un y n demain variables y alors dans 7 cas dans ce cas là je peux calculer la pente de la droite des moindres carrés de ce nuage de points qui va être constituée par les points x1 y 1 x 2 y 2 et ainsi de suite jusqu'à x n y n est donc dans ce cas là on avait dit que la pente on pouvait la calculer comme ça c'était la moyenne des xy - la moyenne des x fois la moyenne d y / x de la moyenne des carrés des xe - la moyenne des x élevée au carré ça c'était la formule qu'on avait déterminé alors effectivement là je calcule la droite la pente de ma droite des moindres carrés pour cet échantillon l'aérien aux fesses je vais me servir de cette télé de cette formule là pour trouver une estimation de la pente de la droite des moindres carrés sur toute ma population donc ça en fait je vais pouvoir dire que c'est m je vais pouvoir avoir une estimation que je vais noter comme ça m bar el chapo pardon c'est une notation assez classique et donc je vais pouvoir dire que m chapeau c'est je vais le noter comme ça c'est la moyenne des xy - la moyenne des x fois la moyenne d y divisé par la moyenne des carrés des xe - la moyenne des x élevée au carré hélas qu'on peut reconnaître c'est que le numérateur qui est ici eh ben c'est tout simplement la covariance 2x et de y ça c'est la covariance 2x et de y et puisqu'on ados dénominateur 7 cette partie là eh bien ça aussi on l'avait calculé on avait dit que c'était en fait la variance la variance 2x variance 2x qu'on avait noté comme ça sigma au carré bon comme là il ya deux variables on va là noté comme ça c'est la variance 2x sigma au carré de x voilà est donc finalement on obtient un autre formule qu'on avait déjà donné la dernière fois qui dit que sur notre population là la pente de la droite des moindres carrés c'est la covariance 2 x y / la variance dx voilà ça c'est la formule qu'on avait donné on avait calculé nous sur un échantillon donc on avait calculé ça en fait mais la formule est valable si on la calcule sur la population entière donc effectivement sur la calcule sur la population entière on n'aura pas un m chapeau mais on aura vraiment on n'a pas une estimation de la panthère noire a vraiment la pente elle même voilà donc là on a fait le lien entre ce qu'on a fait dans les vidéos précédentes sur la régression linéaire et puis cette covariance est donc aussi le langage des variables aléatoires et effectivement je pense que les problèmes de régression linéaire ce sont les situations dans lesquelles la covariance et la plus utile la plus utilisée parmi toutes les situations voilà