If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal
Heure actuelle :0:00Durée totale :8:54

Transcription de la vidéo

dans cette vidéo on va commencer à vraiment faire des statistiques les statistiques alors les statistiques c'est une manière de traiter des données donc on va parler là de donner les données ça peut être des données concernant n'importe quel n'importe quelle chose et dans un premier temps ce qu'on va faire c'est ce qu'on appelle des statistiques descriptives des statistiques descriptives parce que en fait quand on a un grand nombre de données évidemment c'est pas très pratique on peut pas parler tout le temps de toutes les données dans l'ensemble donc ce qu'on va faire c'est essayer de trouver des paramètres qui permettent de résumer les données dans leur ensemble voilà et une fois qu'on aura qu'on se sera fait cette petite boîte à outils de paramètres on va pouvoir faire des inférences tirer des conclusions faire des jugements sur cette série donné de données donc on va faire ce qu'on appelle des statistiques inférentielle inférentielle ferrand ciel donc dans un premier temps on va l'essayer décrire nos données avec un plus petit nombre de paramètres et ensuite on va essayer de faire des inférences dans un second temps c'est à dire de tirer des conclusions sur nos données alors comment est ce qu'on peut déjà d'écrire des données alors on va prendre un ensemble de nombres départ ce sont nous donner prendre des données quantitatives donc un ensemble de nombres alors par exemple ça va être la taille des plantes qu'on a dans notre jardin en un jardin et on va supposer qu on a mesuré la taille de nos plantes on a six plants disons est la première mesure quatre centimètres la deuxième mesure 3 cm la troisième mesure un centimètre ensuite la quatrième mesure 6 cm la cinquième mesure un centimètre 6 et puis la dernière mesure 7 cm voilà et puis quelqu'un qui n'est pas du tout dans la maison nous demande donc il n'a jamais vu le jardin et ils te demandent quelle est la taille de tes plantes alors ce qu'il veut c'est un nombre seulement il veut pas à savoir la taille de toutes tes plantes la taille de chacune de tes plantes il veut connaître il veut avoir un nombre qui représente un peu la taille de tes plantes donc la question qu'il faut qu'on se pose nous c'est qu'elle est calé ce nombre qu'on va pouvoir donner qui va représentée d'une certaine manière la totalité des auteurs de chute de ces plantes de ces cette plante alors quand on pense quand on essaie de chercher ce nombre on peut se dire par exemple que l'on va chercher le nombre qui est au milieu de toutes les auteurs ou bien peut-être le nombre qui est le plus la hauteur la plus fréquente là dedans ou bien encore la hauteur qui est qui représente le centre des données donc il ya autant de deux auteurs plus petit que de plus grandes voilà alors quand on veut quand on se pose c'est cette question là en fait on fait ce que ce qu'on va faire dans les statistiques descriptives c'est le premier pas des statistiques descriptives alors on va commencer par parler de ce qu'on appelle la moyenne la moyenne alors dans le langage courant la moyenne c'est une signification très précise mais en fait tu vas voir qui l'on peut définir des tas de types de moyenne différentes bon alors dans un premier temps ce qu'on va chercher en fait pas recette moyenne c'est quelque chose qui est caractéristique un peu caractéristique qui caractérise un peu toutes ces données j'aime bien et centraux ou alors quelque chose qui va être qui va représenter un peu le milieu le milieu des données voilà en fait en gros ce qu'on cherche c'est quelque chose qui va nous donner une idée de la position la position alors on dit aussi la tendance centrale tendance central des données c'est à dire qu'on va chercher à voir comment se positionnent les données autour d'une valeur centrale donc je répète aux ce qu'on a c'est un ensemble de nombres et on va essayer de trouver cette moyenne qui et qui va être en quelque sorte une mesure caractéristiques qui donne l'idée du de la position du milieu des données enfin le milieu c'est un mot qui est à prendre au sens très large c'est pas un milieu vraiment des données est bon on va voir qu'il existe j'ai dit tout à l'heure il existe plusieurs types de moyenne la première c'est celle probablement que tu connais c'est celle dont on parle très souvent en disant bombe à la moyenne des notes ou la moyenne de la haute dune tempère à la moyenne des températures voilà et ça c'est ce qu'on appelle la moyenne arithmétique alors ça je vais l'écrire donc j'ai dit moyenne arithmétique moyenne arithmétique donc ça c'est la moyenne la plus courante que tout le monde connaît et en fait on a on la définit de la manière suivante on fait la somme de toutes les données on divise par le nombre de données c'est une définition qui est donnée par l'homme s'est pas là on n'a pas du tout quelque chose qui est qui nous vient d'une étude de l'univers comme par exemple la formule qui donne la circonférence d'un cercle ça c'est une formule sur laquelle on est tombés en étudiant l'univers en étudiant les cercles là c'est pas du tout la même chose c'est une définition que l'homme a forgé parce qu'il pensait que ça donnait une idée de la position de la tendance central des données donc je répète c'est la somme de tous les nombres qui de toute la série de donner la somme des nombres qui forment la série de données divisé par le nombre de données alors là on pourrait être calculé ici donc je vais le faire c'est 4 + 3 + 1 + 6 + 1 + 7 et le tout doit être divisé par le nombre de données donc donc ici en asie si nombre six plants ainsi hauteur de plantes donc on a divisé par 6 alors on va calculer sa 4 + 3 ça fait 7 +18 + 6 14 +1 15 + 7 22 22 / 6 je vais vérifier 4 +37 +18 + 6 14 15 et 7 22 c'est ça cette fraction là évidemment on peut la réduire divisé par deux ça va faire 11/3 vont stjerne donc on peut laisser ça comme ça mais on peut aussi dire on peut l'écrire sous forme décimales 11/3 ça fait 9 tiers +2/3 donc ça fait 9 tiers c3 donc ces trois +2/3 décrite comme ça et là c'est vraiment un résultat intermédiaire c'est juste pour pouvoir écrire ça c'est 3,6 6,6 donc je vais écrire ça comme ça trois avec 1,6 périodiques voilà enfin bon ça c'est différentes écritures de ce résultat-là de cette moyenne arithmétique mais ce qui est important c'est que cette moyenne arithmétique elle va donner une idée de la position des données autour d'une valeur centrale donc c'est une indication sur la tendance centrale de ces données et je répète c'est une définition qui est absolument inventée par l'homme parce que il l'a jugé utile pour traiter des données alors il ya une autre manière qu'on pourrait utiliser c'est de trouver on cherche des valeurs centrales un petit peu donc là on pourrait se dire je vais de trouver le milieu exactement des données or là je parle vraiment du milieu ça s'appelle en fait la médiane la médiane alors la médiane des données dda c'est tout simplement le nombre qui est au milieu des données quand on les range dans l'ordre croissant donc je vais faire ça là je vais je vais ranger ses données dans l'eure dans l'ordre croissant donc j'ai donc j'ai d'abord 1 1 ensuite j'ai encore à un ensuite qu'est ce qu'ils aillent à ceux 3 ensuite il ya ce cap ensuite j'ai 1,6 et ensuite j'ai un set donc là il faut que je cherche le nombre qui est au milieu de tous ces données je parle vraiment du milieu physique un presque de c2c nombre là alors ici en fait le milieu et il serait là puisque j'aurai 3 3 nombre d'un côté trois nombres de l'autre donc ici a pas vraiment de nombre parmi des données qui est au milieu en fait c'est parce que c'est parce qu'on a un nom brille siens un nombre pair de données donc ici ce qu'on va faire c'est et prendre plus tôt les deux nombres les deux nombres qui sont au milieu donc cesser de là et on va calculer la moyenne arithmétique de ces deux nombres là alors la moyenne arithmétique du coup ici c'est c'est le nombre qui est entre et ses 3 + 4 / deux donc c'est le nombre qui est à mi chemin entre 3 et 4 donc c'est 3,5 la médiane ici c'est 3,5 alors là on a été obligé de faire la moyenne arithmétique des deux nombres qui sont au milieu c'est parce qu'on avait un nombre pair de données si on a un nombre impair de données bien on a tout simplement la médiane ce sera tout simplement le nombre qui est au milieu une fois qu'on a rangé les données dans l'ordre croissant alors je vais faire un exemple quand même pour clarifier ça donc je vais prendre une autre série de données je prendre n'importe quoi par exemple je vais les ranger tout de suite dans l'ordre alors j'ai un zéro j'ai 1 7 g 1 50 ensuite j'ai dix mille dois dire par exemple et ensuite j'ai un million série de données très bizarre mais bon un million voilà dans ce cas là qu'est ce que ça va être la médiane il faut qu'on trouve le nombre qui excite eu exactement au milieu c'est à dire le nombre qui va couper la série en deux parties qui contiendront exactement le même nombre de données donc là il ya cinq nombre donc le milieu ça va être ça 50 50 qui est là puisque il y aura deux nombres qui seront situés avant et deux nombres qui seront situés après donc la médiane ici c'est 50 alors le troisième paramètre qu'on utilise souvent enfin c'est celui qui est le moins courant de tout symbole utilise pas très souvent dans le langage courant d'ailleurs c'est pour ça que beaucoup de gens le pensent que c'est quelque chose de très compliqué alors qu'en fait tu vas voir c'est peut-être le plus simple de tous c'est celui qu'on appelle le mode le mode est en fait le mode c'est tout simplement le nombre dans la série de données c'est le nombre qui est le plus représenté c'est à dire c'est celui qu'on retrouve le plus souvent dans la série de données alors il peut avoir des séries de données dans lequel toutes les données sont se retrouve exactement le même nombre de fois donc dans ces cas là la série n'aura pas de mode on va voir ici dans cette série là quel est le mode alors il ya dans la série qui est ici à un 4-2-4 apparaît une seule fois le 3 apparaît une fois aussi par contre le 1 là on le retrouve deux fois donc deux fois ce1 il ya le 6 qui apparaît une seule fois aussi et le set qui apparaît une seule fois donc finalement le mode c'est donc le nombre dans la série de données qui apparaît le plus de fois bien ici c'est le 1 c'est le mode ici le mode de cette série de données c'est un parce que dans cette série de données ce nombre là apparaît deux fois alors que toutes les autres tous les autres nombres n'apparaissent qu'une seule fois donc là voilà on a étudié on a introduit trois trois paramètres qui vont pouvoir donner une idée de la de la série de données mais bon évidemment ce sont trois paramètres complètement différent donc en fait on va voir que ils peuvent être utiles dans des situations complètement différentes le plus courant c'est la moyenne c'est celui ci c'est celui ci et les autres par exemple la médiane peut être utilisée quand on a des nombres des valeurs très extrême qui risque de déplacer la moyenne sans que ça ait vraiment un sens donc ça peut être utile d'utiliser la médiane dans ce cas là est le mode ça peut être aussi utile dans des situations de ce genre là parce que par exemple quand on a une donnée qui reviennent très très beaucoup beaucoup plus souvent que les autres ça peut être utile d'aller regarder le mode de la série enfin on va s'arrêter là et puis de toute façon on va utiliser ces différents paramètres dans d'autres vidéos