If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal
Heure actuelle :0:00Durée totale :12:34

Transcription de la vidéo

dans les vidéos précédentes en main on a essayé de de trouver des paramètres qui donne une idée de la position des données en fait on a essayé de trouver des valeurs à 800 tralala qui donnait une idée de douces situe à peu près le centre des données alors là on va essayer d'aller un peu plus loin en essayant de bain de données de trouver des paramètres qui vont mesurer un petit peu là à la dispersion des données autour de cette valeur centrale bon ça ce qu'on va faire c'est déjà à prendre des exemples donc on va prendre une première série de données qui est par exemple cessé de s'aimer ou de nombreux grains de -17 0 10 30 voilà ça c'est une première série de données et on va en prendre une deuxième point faire des comparaisons de type donc ça va être long uite 10 11 et douce voilà et pour ces deux séries de donner aux femmes calculer la moyenne la moyenne arithmétique qu'on connaît ce qu'on a vu dans dans les vidéos précédentes tu vas voir que plus tu vas faire des statistiques qui sera amené à faire la différence entre là la moyenne d'une population et la moyenne d'un échantillon tu vas être amené à faire la différence entre eux population totale et échantillons ce qu'on va pas faire ici un ici on va supposer que ça c'est pas un échantillon ses effets sur la population totale et de même la seule population totale donc pour l'instant on ne s'occupe pas cette distinction la méthylation avoir que peu plus tu va avancer plus tu vas être obligé de te familiariser avec elle cette différence entre population et échantillons donc là ce qu'on va faire ses calculs et la moyenne de la population dans les deux cas dans les cas de ces deux séries là est-ce qu'on va faire c'est essayer de trouver des paramètres qui vont mesurer la dispersion dans cette population et dans celle-ci au site mais bon j'ai assisté à l'audience occupe de la population entière parce que c'est possible mais dans la plupart des cas on va trouver ces paramètres pour un échantillon est le problème serait de savoir si à partir de 2010 auront faite sur cet échantillon on peut hein estimer les paramètres a les mêmes paramètres sur la population bon enfin là on va simplement s'occuper de ses deux séries en considérant que ce sont nos populations alors la moyenne sur la population de cette année série 7 c'est la moyenne arithmétique donc sans plus calculer c'est la somme des données divisé par le nombre de données dans le combat phare 5-10 plus la deuxième données saisies héros +10 plus trente ans et puis il ya un deux trois quatre cinq donné donc il faut que divisé par alors je vais faire le calcul donc - 10 16 - 10 à 5 nuls a excellé avec ce disque est là donc il a cité 20 + 30 c'est-à-dire 50 sur cinq tirs et donc sciemment la moyenne de cette série lasser cinq ans divisé par 5 c'est-à-dire 10 voilà et puis on va faire la même chose avec elle l'autre série qui est ici donc on fait la somme de 2 de la somme des données on divise par le manque de données et donc sa fuite +9 +10 plus fonceur +12 divisés par de 3 4 5 5 degrés est donc divisé par cinq alors là pour faire sa bombe peut aller un peu vite en disant par exemple ça c'est lui que plus douce a fait 20 donc on a besoin de neuf plus rond ça fait vingt ans aussi donc ça fait 40 ans tous et puis reste dix là dans 40 +10 ça fait cinquante et on trouve que c'est que 50 divisé par cinq donc finalement là aussi la moyenne et bien c'est 10 là ce qui est intéressant remarquer c'est que on a deux séries différentes en souhaitant que les données sont pas les mêmes mais ces deux séries ont la même moyenne alors que elle est effectivement c'est pas du tout la même série 1 et les données sont pas réparties de la même manière donc être si on joue si je te dis père la moyenne ces dix et je te donne uniquement cette information a créé un peu permettra de distinguer ces deux séries alors qu'en fait elles sont différentes donc ça c'est important car à comprendre on peut avoir des séries très différentes qui ont même moyenne donc c'est vraiment important d'arriver à trouver un autre paramètre qui va nous aider à différencier à comparer ces deux séries alors est une chose qu'on a déjà vu on sait ce qu'on a appelé l' étendue qui va nous aider un petit peu donc le faire on va voir un peu ici ce que c est donc le temps d'une heure d'une série c'est la différence entre la plus grande valeur et la plus petite valeur donc en fait c'est l'amplitude de l'intervalle dans lequel se situe les données ante alors on va calculer l'étendue de cette première série et donc le plus que la plus grande valeur ses 30 ans et la plus petite et moins dix donc l'armée l'étendue c'est 30 - - 10 c'est-à-dire 30 + 10 ça fait quarante donc l'étendue de cette série c'est 40 on va calculer l'étendue de la deuxième la plus grande valeur ses 12 et la plus petite si vite donc l'étendue c'est 12-8 et ça fait 12-8 ça fait quatre alors ça c'est quand même m une indication supplémentaire qui va nous permettre de de comparer les deux séries et de comparer un peu la dispersion des données par exemple ici on a une étendue de 40 e alors que ici on est détendu de quatre ce qui veut dire qu'effectivement dans cette série 6 les données sont beaucoup plus regroupés ils sont beaucoup moins dispersé donc ça fait noter ici les données de cette série ils sont de plus il espère c dispersés effectivement c'est ce qu'on voit ici à là les la moyenne ces dix se mêler la donnée la plus éloignée de de 10cc 8 e et 12 e sources de données là elles sont éloignées de 2 de la moyenne alors que dans le cas de cette série ici la moyenne se dissocie et les données les plus éloignés dans les modestes - disque est donc éloigné de vin de la moyenne des pièces 30 qui est aussi éloignée de 20 ans de la moyenne donc effectivement cette telle mesure de l'étendue m elle donne déjà une indication sur cette dispersion des données congo peut voir ici bon donc l'étendue c'est déjà pas mal mais c'est pas toujours suffisant parce qu'en fait il peut très bien avoir des données de série de données qu'ils auront la même moyenne la même étendue et qui malgré tout seront très différentes à l'intérieur à l'intérieur un donc de plus les données seront répartis de manière très différente dans un intervalle de même amplitude alors l'autre paramètre de dispersion qui va le plus souvent temps de parler c'est celui qu'on appelle là en fait dans cette vidéo va voir aussi ce qu'on appelle l'écart-type le paramètre encore plus souvent utilisés que la variance menés avec la voir qui sont menacés de paramètres la sonde sont vraiment très liées alors que celui-ci la variance on le note par la lettre grecque sigma au carré et en fait on va voir un peu plus tard que cette lettre grecque sicma elle représente l'écart type et donc le muc du comprendra pourquoi alors on note la variance de cette manière alors l'idée pour définir cette vaillance et d'aller essayer de mesurer un petit peu l'écart des données par rapport à la moyenne alors pour faire ça on va faire en fête on va apprendre chaque donnée on va faire l'euro va essayer de mesurer sa distance par rapport à la à la moyenne pour avoir un nom positif on va analyser tout ça au carré dans un premier temps bon alors là je dis comme ça ça peut pas très compliqué mais on va le faire tu vas voir que c'est pas si c'est pas si terrible que ça alors je vais faire dans le cas de cette première série alors la première donnée c - 10 heures donc le faire - 10 - la moyenne ça ça mesure l'écart par rapport à la moyenne et puis je vais élever sa au carré ensuite je vais additionnés la même quantité la même chose mais avec la deuxième donnée donc c zéro 10 c'est-à-dire des cas de la deuxième donnée par rapport à la moyenne genève au carré + 5 la troisième je fais la même chose dont +10 - 10 au carré + 5 je fais la même chose pour la quatrième plus forte - 10 au carré + 5 30 - 10 donc là dans cette somme chaque terme c l'écart à la moyenne l'écart par rapport à la moyenne élevée au carré donc si je disais tout sa parole le nombre de données via aussi obtenir un an quelque sorte la moyenne dubai des cars et des distances par rapport à la moyenne donc les fers salage de diviser par deux le nombre de données c'est-à-dire il ya cinq donner ici donc divisé par cinq permanences les calculer alors moins 10 6-10 ça fait moins 20 ans - 20 au carré ça fait dans carré ça fait quatre cents donc les 6 400 plus seul 0-10 ça fait moins de 17 ans mody sow carré ça fait 10 au carré ça fait sens + 5 10-10 ça fait zéro donc 0470 plus fort - 17 10 tissot carré ça fait sens plus seul 30-17 les vingt 20 ans caresse a fait 400 donc plus que 400 hélas jeudi vis tout ça parent 5 alors que mons katz en puissance a fait 500 et là j'ai encore 500 d'antan tous les milles mille divisés par cinq mille c'est le libérateur et donc à barges finalement je peux calculer la variance dans ce cas-là dans le cas de cette série b à ses muses divisé par 5 c'est-à-dire 200 ça c'est la variance dans le cas de la première série je vais faire le calcul de cette variante pour la deuxième série donc je vais calculé comme tout à l'heure les écarts à la moindre par rapport à la moyenne élevée au carré angle fermé ici c'est le premier première donnée ces 8 - la moyenne qui est distante 8-10 chez les veaux carré plus la deuxième donnée mon à moyenne élevée au carré plus 10 heures -10 5 le vieux carré plus ensuite j'ai prolongé - 10 heures élevée au carré et puis enfin la dernière données c'est-à-dire toulouse - 10 élevée au carré hélas je vais comme tout à l'heure divisée par le nombre de données qui les cinq ou six donc divisé par cinq alors je vais faire des calculs ici pour faire entrer un peu ce soit plus clair ces deux choses différentes alors que 8 -10 ça fait deux e ce fut le cas ça fait moins deux pardon donc le moins d'occasions fait d'aucun respect 4 l'agé 9-10 a fait -11 1-0 carey ça fait quand même quatre plus fin 10 - 17 00 kardex 0 et ensuite j'ai -10 7% auparavant 11-17 alors qu'il arrête et ensuite plus seule 12-17 qui fait de deux carats et ça fait quatre donc je lis tout ça 5 et là du coup j'ai 4 puis 5 5e plus d'1 6 + 4 10 donc je 10 divisé par cinq et la voilà je le trouve pas du tout le même résultat tout à l'heure je trouve une variance de 2 donc c cent fois moins que la variance de l'autre série dont que tu vois là ça c'est intéressant parce qu'on a pour 100 m une moyenne qui est égal l'étendue des dégâts très différentes et puis à l'intérieur les l'exil ont fait ce calcul a de la variance en trouve une variance deux fois même sans fois plus petite dans le cas de la deuxième série alors je le répète à un tout ce que j'ai fait ici c regarder les écarts par rapport à la moyenne basse 17 la moyenne partout ici tout ce que souligne reverser la moyenne 1 dans la deuxième série c'est pareil j'ai fait j'ai calculé le les écarts à par rapport à la moyenne chez les élevée au carré ensuite j'ai fait la somme et puis j'ai finalement divisé par 5 pour avoir une espèce de moyenne des carrés des écarts à la moyenne donc là effectivement cette variance monde c'est cette différence entre les valeurs somme confirme l'idée que la deuxième série elle est ici en rose et beaucoup plus m mais beaucoup moins dispersé que la série d'exemples alors le problème avec cette vaillance et quand même que pour 100 euros on a ici en fait mouche pour fixer les idées on peut dire que mais aussi une série de distance 1 qui sont qui est donnée là et puis ici aussi ce sont deux séries de distance alors quand on calcule la variance on n'a la socar est plus une distance focale plus une distance car est en fête donc si c'est des maîtres par exemple en fête la variance ça sera des mètres carrés alors effectivement c'est pas unité très pratique quand on veut enfin et c'est pas évident de la rapporter à un moment nous donner qui sont de tels écarts étant mettre un bon que ce qu'on va faire en fait c prendre la racine carrée de cette variante simple et ça ça va nous permettre d'avoir une mesure de dispersion qui sera expérimenté dans la même unité que les données elles-mêmes alors ça ça nous donne en fait la notion de des quartiers ce qui est très importante qu'on retrouvera donc ils entendent parler très souvent l'écart et l'écart type en fait c'est tout simplement la racine carrée de la variance la racine carrée de la variance donc c est la racine carrée ce qu'on a noté par cette cette notation la sigma au carré donc finalement cette année cet écart type on le note tout simplement avec la lettre grec cite là alors une fois qu'on a calculé la variance s'est du coup c'est très sain de calculer l'écart type on va le faire ici et ailleurs dans le cas de la première série l'écart type ça sera la racine de la variance c'est par définition donc ses racines de 200 racine de 200 à l'heure de sens et 100 fois à 2 donc là ses racines de sang foix 2 mais sans ces dix au carré donc cela le mandat dix sept racine de 2 ça c'est les quartiers de notre première série alors pour la deuxième on peut le faire aussi donc l'acide l'écart-type pardon de cette série à c'est la racine carrée de la variance qui est ici de donc l'écart tipi si ses racines de de simplement alors là on voit que les quartiers de cette série en rose il est dix fois plus petit que l'écart type de cette série donc ici un an ici la relation entre les deux faits car type de note de distribution en fait c de cet écart type là il est divisé par dix il est dix fois plus petite alors si tu te rappelles dacia bien compris comment on allait dessiner la variance ça ça prend tout son sens en kiosque je répète la vaillance et elle l'a en fait c'est trop calculer car de chaque donnée par rapport à la moyenne on élève au carré et au fait elle ne put en août et en calcul de la moyenne de c'est une de ces écarts en carrière donc en quelque sorte un nombre incalculable la moyenne des carrés des distances par rapport à la moyenne et ensuite pour que les unités correspondantes on prend la racine carrée donc être effectivement là ça veut dire que l'ailier données sont dix fois plus resserré un peu autour de la moyenne dans le cas de cette série rose que dans le cas de cette série blanc alors on va regarder le mot série effectivement être laïciste regard de la première à la première série la moyenne ces 17 et la première donnée avait écarté de la vaisselle voser redon qu'elle écartait de 10 5% dans ce cas-ci l'écarté de 10 de la moyenne alors que dans ce cas-là la première donnée elle est là un peu une distance de compte de la moyenne donc c'est dix fois moins et puis si on regarde la deuxième donnée d'aller quarté de laisser moins disant qu'elle écartait de vin de la ram de la moyenne alors qu'ici si vite qui écartait de deux de la moyenne donc là aussi c'est dix fois moins si je regarde de l'autre côté maintenance ce cette donnée-là 20 les quartiers de disques la moyenne alors que ici l équipe fait donner juste après la brouille les cartes et de la bank of syria elle est venue dix fois moins de loin de la moyenne que dans ce cas-là et dans le cas de cette dernière donnée ici 30 qui a écarté de vin de la moyenne alors que la dernière donnée ici c'est 12 pour écarter de deux de la moyenne donc là aussi on a amené un écart qui est dix fois plus petit que dans le cas de la série bleue voilà en moyenne à embrun écart par rapport à la moyenne de la population qui est elle deux fois que dix fois plus petit pardon dans le cas de cette série d'actes que dans cette série la rue donckèle m c'est vraiment les quartiers c'est vraiment une la variance ans c'est vraiment un des paramètres qui vont être là très très utile pour comparer la dispersion des données autour de la valeur centrale qui est la moyenne on va s'arrêter là j'espère que cet aura été utile