If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal
Heure actuelle :0:00Durée totale :8:54

Transcription de la vidéo

dans cette vidéo on va commencer à vraiment faire des statistiques les statistiques alors les statistiques c'est une manière de traiter des données un gros con va parler là les données se peut des données concernant n'importe qu'elle ne porte quelque chose hein et dans un premier temps ce qu'on va faire assez ce qu'on appelle des statistiques descriptif des statistiques descriptive parce que en fête quand on a un grand nombre de données il dément c'est pas très pratique on peut pas parler tout le temps de toutes les données dans l'ensemble donc ce qu'on va faire c'est essayer de de trouver des paramètres qui permet de résumer et les données dans leur ensemble et pour une fois qu'on aura un concert sera fait cette petite boîte à outils et deux paramètres on va pouvoir faire des inférences piggy tirer des conclusions faire des jugements sur eux cette série de données de données donc on va faire ce qu'on appelle des statistiques afférents ciel affaire ancienne c'est le français donc dans un premier temps on va essayer de décrire de données avec un plus petit nombre de paramètres et ensuite on va essayer de bien faire des inférences dans un second temps c'est-à-dire de le tirer des conclusions sur nos données alors comment est-ce qu'on peut déjà à décrire des données alors on va reprendre un ensemble de nombres départ ce sont nous donner envie on apprend de données quantitativement qu'un ensemble de nombres alors par exemple ça va être de la taille des plantes qu'on a dans notre jardin dans le jardin et on va supposer quand on a mesuré la taille de de nos plantes on a aussi plantes disons et pour la première mesure quatre centimètres la deuxième mesure 3 centimètres la troisième mesure un centimètre ensuite la quatrième mesure 6 centimètres la 5ème dure un centimètre 6 depuis la dernière mesure 7 centimes voilà et puis quelqu'un qui n'est pas du tout dans la maison elle nous demande de dons qui l'a jamais vue jardin il te demander quelle est la taille de tes plantes alors ce qu'il veut c'est un nombre seulement il veut pas savoir la taille de toutes les plantes la taille de chacune de tes plantes et de connaître il veut avoir un nombre qui représente un peu la taille de tes plantes donc que la question qu'il faut qu'on se poser ou séquelles lesquels et ceux nombreux qu'on va pouvoir donner qui va représenter d'une certaine manière poule b la totalité des auteurs de ce de chefs de ces plantes parce que cette plante quand on pense aux cantons et c'est chercher ce nombre peut se dire par exemple que l'on va le chercher le nombre qui est au milieu de de de toutes les auteurs ou bien un peu être le nombre qui est le plus la hauteur la plus fréquente là-dedans ou bien encore la hauteur ce qui est pour centrer représente le centre de de des données dont qui a autant de de deux auteurs plus petite que de plus grandes quand on fait quand on se pose c'est que cette question n'a en fait on fait ce qu'on va faire dans les statistiques descriptives c'est le premier pas des statistiques des services cryptés alors on va commencer par parler de ce qu'on appelle la moyenne la moyenne alors dans le langage courant la moyenne 5 1 me soit une signification très précise mais en fait de fait avoir quand on peut définir des tas de types de moyenne différentes dans un premier temps ce qu'on va chercher en fait pas recette moyenne c'est quelque chose qui est caractéristique un peu peur caractéristiques qui caractérise un peu toutes ces données je n'oublierai centraux ou alors quelque chose qui va être qui va représenter un peu le milieu le milieu des données en fait en croatie ce qu'on cherche c'est là quelque chose qui va nous donner une idée de la si on la position alors on dit aussi la tendance centrale tendance central des données c'est à dire qu'on va chercher à voir comment se positionnent les données autour d'une valeur centrale donc là je répète au ce qu'on a c'est un ensemble de nombres et on va essayer de trouver cette moyenne est qui et qui va être en quelque sorte à une mesure caractéristiques qui donne l'idée du dude la position du milieu des données enfin le milieu c'est un mot qui est à prendre au sens très large on sait pas un milieu le flamand des données et m bon on va voir qui n'existent fille dit tout à l'heure il existe plusieurs types de moyenne la première à la csn probablement que tu connais c'est celle qu'on dont on parle très souvent en disant bombe à la moyenne des notes ou la moyenne de là-haut de d'une température moyenne des températures voilà et ça c'est ce qu'on appelle la moyenne arithmétique alors ça je vais l'écrire donc jeudi moyenne arithmétique moyenne arithmétique donc ça c'est la moyenne la plus courante que tout le monde connaît et en fait on a on la définit de tête de la manière suivante on fait la somme de toutes les données on divise par le nom de données cc c'est une définition uk et donné par l'homme dans ses pas là on n'a pas du tout quelque chose qui est avec qui nous vient d'une étude de l'université par exemple formule qui donne la circonférence d'un cercle assez une formule sur laquelle on est tombé à l'eau en étudiant univers en étudiant les cercles % là c'est pas du tout la même chose c'est une définition que l'homme a changé parce qu'il pensait que ça donnait une idée de la position de la tendance centrale des données donc je répète ainsi la somme de tous les nombres qui est de toute la série de donner la somme des nombres qui forment la série de données divisé par le nombre de données alors là on prend le calcul est ici donc là je vais le faire qatra + 3 plus fin + 6 5 plus fin plus 7 et le tout doit être divisé par le nombre de données donc le dôme qui si on a six si nombre supplantant ainsi hauteur de plantes donc on a divisé par six heures on va calculer ça ca +3 ça fait 7 +1 8 plus 6m14 +1 15 + 7 22 22 e divisé par 6 5 je vérifiais k+ trois sets plus atteint 8 8 6 14 caen et cette 22 e c'est ça cette fraction a évidemment on peut la réduire en plus divisé par deux ces affaires 11 sierre mont-st-hilaire m donc on peut laisser ça comme ça mais on peut aussi dire on peut l'écrire sous forme décimales ostiense à fait neuve tiers plus deux tiers donc ça fait neuf tirs c3 donc ces trois plus de tiers on peut décrire comme ça va j'ai de la ccva un résultat intermédiaire c'est juste pour pouvoir écrire ça ces trois de lucie 6 ie6 donc je vais écrire ça comme ça 3 avec 46 périodique voilà enfin bon c'est à ces différentes écritures m2 de ce résultat-là de cette moyenne arithmétique mais ce qui est important c'est que cette moyenne arithmétique elle va donner une bonne idée de la position des données autour d'une valeur centrale donc c'est une indication sur la tendance centrale de ces données et je répète c'est une définition pied absolument l'ump a inventé par l'homme elle parce que il a jugé utile pour traiter des données alors il est une autre manière qu'on pourrait utiliser ces données trouvait en cherche des valeurs centrales un petit peu donc l'euro pourrait elle se dire devait de trouver le milieu exactement des données alors que là je veux pas vraiment du milieu ça s'appelle en fait la médiane la médiane alors la médiane des données baisse est tout simplement le nombre avec qui et tommy lieu des données quand on les oranje dans l'ordre croissant donc je vais faire ça là je vais je vais ranger ses ces données dans le rang dans l'ordre croissant donc j'ai donc j'ai d'abord à paris ensuite j'ai encore plein ensuite la caisse qui agresse 3 fricassée de quatre heures ensuite j'ai un 6 5 et ensuite j'ai pris un set donc là il faut que je cherche le nombre qui est au milieu de tous ces données je parle vraiment du milieu physique et un presque de cm2 de ce nombre la alors ici en fête le milieu et il serait là en plus que j'aurais 3 3 nombre d'un côté trois nombres de l'autre donc l isi a pas vraiment de nombreux parmi les données qui est au milieu en fait c'est parce que c'est parce qu'on a un mauricien un nombre pair de données donc l'itie ce qu'on va faire c'est prendre plutôt les deux nombre de noms qui sont au milieu donc cesser de l'art et on va calculer la moyenne arithmétique de ces deux nombres là alors la moyenne arithmétique du coup ici cr dallest c'est le nombre qui entre eux et ces trois plus qu'à diviser par deux ans donc c'est le nom qui est à mi-chemin entre 3 et 4 donc c 3 virgule cinq-là médias ni si cette troisième sac alors plat on a été obligé de faire la moyenne arithmétique des deux nombreux qui sont au milieu c'est parce qu'on avait un nombre pair de données si on a un nombre impair de données d'arona tout simplement la médiane ça sera tout simplement le nombre qui est au milieu une fois qu'on a alors rangé les données dans l'ordre croissant alors je vais faire un exemple a quand même pour clarifier ça donc je prends une autre série de donner un nom prendre n'importe quoi par exemple je veux déranger tout de suite dans l'ordre alors j'ai osé ro j'ai un set j'ai 1 50 ensuite j'ai hâte d'y millions à dire par exemple et ensuite j'ai un million voilà ça série de données très bizarre un million voilà dans ce cas là qu'est-ce que ça va être la médiane bas il faut qu'on trouve le nombre qui est situé des actes mandelieu c'est-à-dire le nombre qui va couper la la la série en deux parties qui contiendront exactement le même nombre de données la liga 5 nombre d'os que le milieu ça va être ça cinquante 50 qui est là puisque y aura 2 novembre ceux qui seront situés à l'avant et que de nombreux qui seront situés après donc la médiane ici cinq ans alors le troisième paramètre qu'on utilise souvent tassé celui qui est le moins courant de tout ça le mutisme pas très souvent dans le langage courant derrière ce constat que beaucoup de gens le monde pense que c'est quelque chose de très compliqué alors qu'en fait tu vas voir c'est peut-être le plus simple de tout ça c'est celui qu'on appelle le mode le mode et en fait le mode c'est tout simplement le nombre dans la série de données c'est le nombre qui est le plus représenté c'est-à-dire c'est celui qu'on retrouve le plus souvent dans la série de données alors que m il peut avoir des séries de données dans lequel toutes les données sont pour se retrouver exactement le même nombre de fois donc dans ces cas-là la série n'aura pas de mode mais on va voir ici dans cette série de laquelle il m'a d'alors dans la série qui est ici il ya 34 les quatre appareils cette fois le 3par il faut aussi par contre le pana en retrouve deux fois donc de fois ce corps dès le 6 qui apparaît une seule fois aussi et le set qui apparaît une seule fois donc finalement le mode c'est donc le nombre dans la série de données qui apparaît le plus de fois bien ici c'est le coin c'est là le mode ici le mode de cette série de données c'est un peu ce que dans cette série de données ce nombre-là apparaît deux fois alors que toutes les autres tous les autres noms brad n'apparaissent qu'une seule fois donc là voilà on a étudié en amont on a introduit trois trois paramètres qui vont pouvoir deux nés une idée de la halde des de la série de données mais bon évidemment saut sont trois paramètres étant différent donc en fait on va voir que ils peuvent être utiles dans des données situation complètement différente le plus courant c'est la moyenne c'est celui-ci cc c'est celui-ci et que les autres comme par exemple un média ne peut être utilisé quand on a hâte dénombre des valeurs très extrême qui risquent de de déplacer la moyenne sanctionner ça évidemment un sens donc ça peut être utile d'utiliser la médiane dans ce cas-là et le mode de vie ça peut être aussi utile dans des situations de ce genre là parce que par exemple quand on a une c'est une donnée qui revient même très très bon coup beaucoup plus souvent que les autres ça peut être utile d'aller regarder le mode de la série enfin on va s'arrêter là et puis de toute façon on va où m utiliser ces ces différents paramètres dans d'autres vidéos