If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal
Heure actuelle :0:00Durée totale :12:34

Caractéristiques de dispersion : étendue, variance et écart-type

Transcription de la vidéo

dans les vidéos précédentes on va on a essayé de trouver des paramètres qui donnait une idée de la position des données en fait on a essayé de trouver des valeurs centrales qui donnait une idée de se situer à peu près le centre des données 1 alors là on va essayer d'aller un peu plus loin en essayant de donner des trouver des paramètres qui vont mesurer un petit peu la dispersion des données autour de cette valeur centrale alors pour ça ce qu'on va faire c'est déjà à prendre des exemples donc on va prendre une première série de données qui est par exemple ces deux hommes nombreux laddh moins 10 0 10 20 et puis 30 voilà ça c'est une première série de données et on va en prendre une deuxième pour pouvoir faire des comparaisons un petit peu donc ça va être 8 9 10 11 et 12 voilà et pour ces deux séries de données on va calculer la moyenne la moyenne arithmétique qu'on connaît puisqu'on l'a vu dans les vidéos précédentes alors bon tu vas voir que plus tu vas faire des statistiques plus tu sera amené à faire la différence entre la moyenne d'une population et la moyenne d'un échantillon enfin tu vas être amené à faire la différence entre population totale et échantillons ce qu'on va pas faire ici un ici on va supposer que ça c'est pas un échantillon cetc la population totale est de même là c'est la population totale donc pour l'instant on ne s'occupe pas de sa distinction là mais tu vas tu vas voir que plus tu va avancer plus tu vas être obligé de te familiariser avec cette différence entre population et échantillons donc là ce qu'on va faire ses calculs et la moyenne de la population dans les deux cas dans l'es4 ces deux séries là est ce qu'on va faire c'est essayer de trouver des paramètres qui vont mesurer la dispersion dans cette population et dans celle ci aussi mais bon j insiste un là on s'occupe de la population entière parce que c'est possible mais dans la plupart des cas on va trouver ces paramètres pour un échantillon est le problème ça va être de savoir si à partir de démesure faite sur cet échantillon on peut estimer les paramètres les mêmes paramètres sur la population bon enfin là on va simplement s'occuper de ses deux séries en considérant que ce sont nos populations alors la moyenne sur la population de cette série c'est la moyenne arithmétique donc ça on peut le calculer c'est la somme des données / de données donc on va faire ça moins 10 plus la deuxième donnée c zéro + 10 + 20 + 30 et puis il ya un deux trois quatre cinq donnait donc il faut diviser par 5 voix là alors je vais faire le calcul donc moins 10 ce -10 fasse annuler avec celui avec ce disque est là donc il va rester 20 + 30 c'est à dire 50 sur cinq est donc finalement la moyenne de cette série là c'est 50 / 5 c'est à dire 10 voilà et puis on va faire la même chose avec l'autre série qui est ici donc on fait la somme des 2 la somme des données on divise par le nombre de données donc ça fait 8 + 9 + 10 + 11 + 12 / 1 2 3 4 5 5 donne est donc divisé par cinq alors là pour faire ça bon on peut aller un peu vite en disant par exemple ça c'est 8 +12 ça fait vingt donc on a vingt neuf +11 ça fait vingt aussi donc ça fait 40 ans tout et puis il reste dix là dans 40 +10 a fait 50 et on trouve que c'est 50 / 5 donc finalement là aussi la moyenne et bien c'est 10 voilà alors là ce qui est intéressant à remarquer c'est que on a deux séries différentes saisons dit les données sont pas les mêmes mais ces deux séries ont la même moyenne alors que effectivement c'est pas du tout la même série relais les données sont pas réparties de la même manière donc si on si je te dis ben la moyenne ces dix si je te donne uniquement cette information rien ne te permettra de distinguer ces deux séries alors qu'en fait elles sont différentes donc ça c'est important à comprendre on peut avoir des séries très différentes qui ont même moyenne donc c'est vraiment important d'arriver à trouver un autre paramètre qui va nous aider à différencier à comparer ces deux séries alors il ya une chose qu'on a déjà vu c'est ce qu'on a appelé l'étendue qui va nous aider un petit peu donc on va le faire on va voir un peu ici ce que c'est donc l'étendue d'une heure d'une série c'est la différence entre la plus grande valeur et la plus petite valeur donc en fait c'est l'amplitude de l'intervalle dans lequel se situe les données 1 alors on va calculer l'étendue de cette première série donc la plus belle la plus grande valeur c30 est la plus petite c'est moins 10 donc la l'étendue ses 30 - moins 10 c'est à dire 30 + 10 ça fait quarante 40 donc l'étendue de cette série c'est 40 on va calculer l'étendue de la deuxième la plus grande valeur ses 12 et la plus petite c'est 8 donc l'étendue ses 12 - 8 et ça fait 12 - 8 ça fait 4 alors ça c'est quand même une indication supplémentaire qui va nous permettre de comparer les deux séries et de comparer un peu la dispersion des données par exemple ici on a une étendue de 40 alors qu'ici on a une étendue de 4 ce qui veut dire qu'effectivement dans cette série si les données sont beaucoup plus regroupé elles sont beaucoup moins dispersé donc ça je vais le noter ici les données de cette série sont plus dispersées plus dispersé voilà effectivement c'est ce qu'on voit ici un la la moyenne ces dix mais la donnée la plus éloignée de 10 ces huit et douze sont ces deux données là elles sont éloignées de deux de la moyenne alors que dans le cas de cette série ici la moyenne ces dix aussi et les données les plus éloignés à loreley hamodia ceux - disque est donc éloigné de 20 de la moyenne et puis à ce 30 qui est aussi éloignée de 20 de la moyenne donc effectivement cette mesure de l'étendue elle donne déjà une indication sur cette dispersion des données qu'on peut voir ici bon donc l'étendue c'est déjà pas mal mais c'est pas toujours suffisant parce qu'en fait il peut très bien y avoir des données deux séries de données qui auront la même moyenne la même étendue et qui malgré tout seront très différentes à l'intérêt à l'intérieur donc les données seront répartis de manière très différente dans un intervalle de même amplitude alors l'autre paramètre de dispersion dont tu vas le plus souvent entendre parler c'est celui qu'on appelle la variance en fait on voit dans cette vidéo on va voir aussi ce qu'on appelle l'écart type qui est le paramètre encore plus souvent utilisés que la variance mais tu vas voir qu'ils sont ces deux paramètres là sont vraiment très liées à l'or celui-ci la variance on le note par la lettre grecque sigma au carré voilà et en fait on va voir un peu plus tard que cette lettre grecque sigma elle représente l'écart type est donc tu comprendras pourquoi on note la variance de cette manière là alors l'idée pour définir cette variance est d'aller essayer de mesurer un petit peu l'écart des données par rapport à la moyenne alors pour faire ça on va faire en fait on va prendre chaque donnée on va faire l'on va essayer de mesurer sa distance par rapport à la moyenne et donc pour avoir un nombre positif on va élever tout ça au carré dans un premier temps bon alors là dit comme ça ça peut paraître très compliqué mais on va le faire hein tu vas voir que c'est pas si c'est pas si terrible que ça alors je vais le faire dans le cas de cette première série alors la première donnée c'est moins 10 donc je vais faire moins 10 - la moyenne ce à sa mesure l'écart par rapport à la moyenne et puis je veux élever sa au carré 1 ensuite je vais additionner la même quantité la même chose mais avec la deuxième donnée donc c'est zéro - 10 c'est à dire l'écart de la deuxième donnée par rapport à la moyenne j'élève au carré plus la troisième je fais la même chose donc plus 10 - 10 au carré plus je fais la même chose pour la 4ème plus 20 - 10 au carré plus 30 - 10 au carré voilà donc là dans cette somme chaque terme c'est l'écart à la moyenne l'écart par rapport à la moyenne élevée au carré donc si je divise tout ça par le nombre de données je vais obtenir en quelque sorte la moyenne du dkr et des distances par rapport à la moyenne donc je vais faire ça là je vais divisé par le nombre de données c'est-à-dire il ya cinq donner ici donc je vais divisé par cinq alors maintenant je vais calculer alors moins 10 - 10 ça fait moins 20 mois va au carré ça fait bien au carré ça fait 4 cents donc j'ai ici quatre cents +0 moins 10 a fait moins dix mots disent aux caresses a fait 10 au carré ça fait sans plus 10 - 10 ça fait zéro donc zéro car et ça fait zéro + 20 - 10 ça fait 10 10 au carré s'affaissant plus 30 - 10 ça fait vingt 20 au carré ça fait 400 donc plus 400 et là je divise tout ça par cinq alors bon 400 plus sens a fait 500 et là j'ai encore 500 dons ont touché de 1000 milles / 5000 c'est le numérateur et donc bah finalement je peux calculer la variance dans ce cas là dans le cas de cette série bien c'est 1000 / 5 c'est à dire 200 voilà ça c'est la variance dans le cas de la première série je vais faire le calcul de cette variance pour la deuxième série donc je vais calculé comme tout à l'heure les écarts à la mois par rapport à la moyenne élevée au carré donc je vais faire ici c'est le premier la première donnée ces 8 - la moyenne qui est dit ce dont 8 - 10 j'élève au carré plus la deuxième donnée - la moyenne eelv et au carré plus 10 - 10 je vais au carré plus ensuite g11 -10 élevée au carré et puis enfin la dernière donnée c'est à dire 12 - 10 élevée au carré et là je vais comme tout à l'heure divisée par le nombre de données qui est 5 aussi donc divisé par cinq alors je vais faire les calculs ici je vais faire un trait pour que ce soit plus clair là ça c'est deux choses différentes alors 8 - 10 ça fait deux ça fait pas ça fait moins deux pardon donc moins de au carré ça fait 2 au carré ça fait 4 la g9 moins 10 a fait moins un mois au carré ça fait 1 donc 4 +1 10 mots disent ça fait 0 0 car et ça fait zéro et ensuite j'ai un moins 10 par dont 11 - 10 a fait un écart et ça fait 1 et ensuite plus 12 - 10 qui fait 2-2 au carré ça fait 4 voilà donc je divise tout ça par cinq et là du coup j'ai quatre +15 nous +16 + 4 10 donc je dise divisé par cinq et la voilà je ne trouve pas du tout de même résultat que tout à l'heure je trouve une variance de deux donc c'est 100 fois moins que la variance de l'autre série donc que tu vois là ça c'est intéressant parce qu'on a une moyenne qui est égal il est temps duke d'état très différentes et puis à l'intérieur l'élection fait ce calcul la de la variance on trouve une variance deux fois cent fois plus petit dans le cas de la deuxième série alors je répète un tout ce que j'ai fait ici c'est regarder les écarts par rapport à la moyenne la se disent c'est la moyenne partout ici tout ce que je souligne au vert c'est la moyenne dans la deuxième série c'est pareil j'ai fait j'ai calculé les écarts par rapport à la moyenne j'ai les élevée au carré ensuite j'ai fait la somme et puis j'ai finalement divisé par 5 pour avoir une espèce de moyenne des cars et des écarts à la moyenne donc là effectivement cette variance nous monde c'est cette différence entre les variances nous confirme l'idée que la deuxième série ici en rose est beaucoup plus et beaucoup moins dispersé que la série bat en bleu voilà alors le problème avec cette variance c'est quand même que on a ici en fait mon pour fixer l'idée on peut dire que c'est une série de distance qui sont qui est donnée là et puis ici aussi ce sont deux séries de distance alors quand on calcule la variance on a une distance au carré plus une distance au carré plus une distance au carré en fait donc six cd m par exemple en fait la variance ça sera des mètres carrés alors effectivement c'est pas une unité très pratique quand on veut enfin c'est pas évident de la rapporter à nos données qui sont elles en maître donc ce qu'on va faire en fait c'est prendre la racine carrée de cette variante et ça ça va nous permettre d'avoir une mesure de dispersion qui sera exprimée dans la même unité que les données elles mêmes alors ça ça nous donne en fait la notion de des quartiers très importante qu'on retrouvera que non tu vas entendre parler très souvent l'écart type et l'écart type en fait c'est tout simplement la racine carrée de la variance la racine carrée de la variance donc c'est la racine carrée de ce qu'on a noté par set cette notation la sigma au carré donc finalement 7 cet écart type on le note tout simplement avec la lettre grecque sigma alors une fois qu'on a calculé la variance et du coup c'est très simple de calculer l'écart type ou à le faire ici alors dans le cas de la première série l'écart type ça sera la racine de la variance c'est par définition donc ses racines de 200 racines de 200 alors deux sens et 100 x 2 donc là ses racines 200 x 2 mais sans ces dix au carré donc finalement on a dix racines de deux ça c'est l'écart type de notre première série alors pour la deuxième on peut le faire aussi donc là racid l'écart type pardon de cette série là c'est la racine carrée de la variance qui est ici de donc l'écart type ici ses racines de deux simplement voilà alors là on voit que l'écart type de cette série en rose il est dix fois plus petit que l'écart type de cette série bleue donc ici un ici la relation entre les deux écarts types de nos deux distributions en fait c'est cet écart type là il est divisé par 10 il est dix fois plus petit alors si tu te rappelles bien si tu as bien compris comment on avait défini la variance ça ça prend tout son sens parce que j'aurai je répète la variance c'est là en fait on calcule l'écart de chaque donnée par rapport à la moyenne on l'élève au carré et on fait on on calcule la moyenne de ces de ces écarts au carré 1 donc en quelque sorte on calcule la moyenne des carrés des distances par rapport à la moyenne et ensuite pour que les unités correspondent on prend la racine carrée donc effectivement là ça veut dire que les données sont dix fois plus resserré un autour de la moyenne dans le cas de cette série rose que dans le cas de cette série bleue ou alors on va regarder nos séries effectivement et là ici si on regarde la première la première série la moyenne ces dix et la première donnée elle est écartée de 0 0 donc elle est écartée de 10,1 dans ce cas ci les cartes et de 10 de la moyenne alors que dans ce cas là la première donnée l'a1 à une distance de 1 de la moyenne donc c'est dix fois moins et puis si on regarde la deuxième donnée balle écartés de ces -10 donc l écarter de vin delà de la moyenne alors qu'ici c'est 8 qui écarte et de deux de la moyenne donc là aussi c'est dix fois moins si je regarde de l'autre côté maintenant ce cette donnée la 20è l'écarter de 10 de la moyenne alors que ici elle est que cette donnée juste après la moyenne à l'écarter de 1 donc aussi là elle est dix fois moins loin de la moyenne que dans ce cas là et dans le cas de cette dernière donnée ici 30 qui est écarté de 20 de la moyenne alors que la dernière donnée ici ces 12es l'écarter de deux de la moyenne donc là aussi on a un écart qui est dix fois plus petit que dans le cas de la série bleue voilà en moyenne on a un écart par rapport à la moyenne de la population qui est deux fois dix fois plus petit pardon dans le cas de cette série là que dans cette série là donc c'est vraiment l'écart type c'est vraiment une la variance c'est vraiment des paramètres qui vont être très très utile pour comparer la dispersion des données autour de la valeur centrale qui est la moyenne voilà on va s'arrêter là j'espère que ça aura été utile