If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Introduction à la droite d'ajustement

On remet en cause le lien de causalité entre la prise du petit-déjeuner et le risque d'obésité. Créé par Sal Khan.

Vous souhaitez rejoindre la discussion ?

Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.

Transcription de la vidéo

dans cette vidéo je vais t'expliquer ce qu'il se passe quand on fait ce qu'on appelle une régression linéaire alors je ne vais pas rentrer dans l'explication mathématiques qui lie à derrière la notion de régression linéaire mais plutôt aider à visualiser ce concept et pour ça je vais utiliser excel comme ça tu auras une petite idée de comment et pourquoi t'en servir si tu veux t'amuser avec ou avec n'importe quel autre tableur alors on nous dit ici le tableau ci dessous montre le revenu médian annuel des familles en californie de 1995 à 2002 alors la médiane c'est la valeur qui permet de partager l'ensemble des données en deux parties égales donc le revenu médian c'est le revenu tels que la moitié de la population ici on parle de famille californienne donc la moitié de la population a un revenu supérieur au revenu médian et l'autre moitié un revenu inférieur et on nous demande de dessiner un nuage de points et de déterminer l'équation de la droite de régression linéaire quelle est la signification du coefficient directeur et de leur donner à l'origine quel sera le revenu médian annuel d'une famille californienne en 2010 la première chose à faire c'est de réécrire ses données de façon à ce qu'elle puisse être utilisée par le tableur ainsi elles font partie de l'énoncé donc je vais construire un tableau avec dans cette colonne je vais mettre les années depuis 1995 à l'orge a grandi un peu cette colonne et puis ici je vais mettre le revenu médian alors la première donnée qu'on a c'est pour 1995 donc on commence à 0 année après 1995 ensuite on à 1996 1997 et c'est jusqu'à 2002 et au lieu de rentrer 2 3 à 4 etc je vais laisser la magie d'excel opérer si je sélectionne ses deux premières cellules et si je tire vers le bas et bien excellent continue ce que j'avais commencé à savoir passer de 1 alors peut-être que je pourrais rajouter ici une colonne indicative avec juste les années comme ça on voit où on en est donc la première année c'est 1995 ensuite 1996 est pareil je sélectionne mes deux premières cellules et je tire vers le bas et voilà comme ça ça inscrit toutes les années jusqu'à 2002 dans cette colonne par contre je vais devoir recopier moi-même toutes les données puisque tu vois bien que le revenu d'ailleurs le revenu doit être en dollar ne varie pas de façon constante d'année en année autrement dit le taux de variation du revenu par rapport à l'année n'est pas constant alors la première année ses cinquante 3807 ensuite 55 1217 55 1415 63100 63200 6,63 1761 et enfin 65 1766 et maintenant tu vas voir que quand tu sais où cliquer il est très facile de créer un nuage de points avec excel tout ce que tu dois faire c'est sélectionner les données ensuite tu vas dans menu insertion en othe choisi nuages de points et tu vois ici que tu as le choix entre différents types de nuages de points nous on veut juste place et les points donc je choisis le premier et voilà excellent à placer tous les points pour moi alors sur l'axé des ordonnées c'est le revenu en dollars et puis sur l'axé des abscisses ce sont les années à partir de 1995 ici on est en 1995 puisqu'on est zéro année après 1995 le revenu médian ses 53 1807 ensuite c'est l'année 1996 le revenu médian ses 55 1217 etc etc et tu remarques que tous ces points ne sont pas alignés mais ils suivent une tendance donc on pourrait imaginer une droite qui représente cette tendance c'est l'idée de la régression linéaire quand un nuage de points montre comme ici que les points s'organise autour d'une tendance linéaire on cherche à déterminer la droite qui décrira au mieux cette relation linéaire ici entre les années le revenu médian est bien sûr excellent peut faire ça très facilement ici j'ai des options pour améliorer mon graphique et puis sur celle là alors je sais pas si tu vois très bien on nous montre une droite avec f de x ça veut dire que j'aurai une équation en plus de la droite de régression donc si je clique et voilà non seulement la régression linéaire mais aussi l'équation de cette droite alors je vais la déplacer un petit peu pour que tu vois mieux et puis je veux aussi agrandir mon graphique donc l'équation de cette droite c'est y égale 1882 3x plus 50 de 1847 tu reconnais le coefficient directeur 1880 2,3 et leur donner à l'origine 52 1847 leur donner à l'origine c'est ce point là la droite me dis que 0 année après 1995 donc en 1995 le revenu médian c'est 50 de 1847 et c'est juste un peu moins que le vrai revenu médian tu vois bien qu'on est juste en dessous du point ici en effet en 1995 le revenu médian ces 53 1807 donc les points ne sont pas sur la droite mais la droite passe au plus près de tous les points de notre nuage et c'est le principe de la régression linéaire c'est de minimiser la distance entre les points et la droite en fait c'est plutôt de minimiser le carré de la distance mais j'ai dit ici que je ne rentrerai pas dans les détails mathématiques qu'il ya derrière tout ça et le coefficient directeur nous dit que chaque année sur la droite y augmente de 1880 2,3 alors l'avantagent de la régression linéaire c'est qu'on peut utiliser cette équation pour prédire ce qu'il va se passer au delà de notre période d'observation puisque excellent a dessiné la relation linéaire la plus proche de la relation qu'il existe entre tous les points de notre nuage on imagine que si on utilise l'équation de cette droite pour déterminer le revenu médian de 10 ou du moins une prédiction du revenu médian de 2010 comme ces demandes est ici dans l'énoncé alors on sera assez proche de la réalité dans mon tableau je vais continuer jusqu'à 2010 alors même chose je vais tirer mes cellules jusqu'à 2010 voilà 2010 et même chose ici je tire jusqu'à 2010 mais c'est un fait ça c'est facile en fait en 2002 on était cette année après 1995 et en 2010 eh ben on sera quinze années après 1995 et maintenant on a plus qu'à résoudre cette équation pour x égale 15 donc y égale 1880 2,3 fois 15 et là je peux sélectionner directement la cellule ici 15 c'est pas long à taper mais parfois ça peut éviter les erreurs de frappe plus 50 de 1847 j'avise sur entrée et ça me donne la prédiction du revenu médian pour 2010 à savoir 80 milles 81,50 donc en 2010 si l'évolution du revenu médian suit la tendance de cette droite et bien le revenu médian d'une famille californienne sera de 81000 81,50 dollars et voilà j'espère que tu auras trouvé ça intéressant de comprendre à quoi servent les modèles linéaires à quoi servent les droites et comment utiliser ces outils pour interpréter des données et même faire des prédictions