If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Données et statistiques FAQ

Foire aux questions sur les données et les statistiques

Qu'est-ce qu'une question statistique ?

Une question statistique est une question à laquelle il est possible de répondre en collectant et en analysant un grand nombre de données issues de populations variées. Par exemple, " Quelle est la taille des élèves de notre classe ? " est une question statistique car nous pouvons mesurer la taille de tous les élèves et observer les variations. La question " Quelle est la taille du professeur ? " n'est pas une question statistique car elle ne concerne qu'une seule personne et nous n'avons pas besoin de collecter plusieurs données pour y répondre.

Que sont les indicateurs de tendance centrale et pourquoi sont-ils utiles ?

Lorsque nous disposons d'un grand nombre de données, comme les notes de mathématiques au brevet des collèges d'une ville, les tailles des élèves de notre lycée, les températures observées à différents moments au mois de juillet, il est parfois utile de les résumer avec une valeur qui est la plus représentative de l'ensemble des données. Cette valeur est appelée indicateur de tendance centrale. ll existe différentes mesures du centre que nous utiliserons en fonction du type de données dont nous disposons et de l'information cherchée.
Les trois mesures de tendance centrale les plus courantes sont la moyenne, la médiane et le mode. Pour déterminer la moyenne arithmétique, il faut calculer la somme des valeurs et la diviser par le nombre de valeurs. Pour déterminer la médiane, il faut classer toutes les données par ordre croissant. La médiane est la valeur au centre de toutes les valeurs (ou la demi-somme des deux valeurs du milieu lorsqu'il y a un nombre pair de valeurs). Le mode est la valeur la plus fréquente de l’ensemble, c’est-à-dire celle qui apparaît le plus souvent.
Nous pouvons utiliser ces mesures de tendance centrale pour comparer différents groupes de données ou pour étudier la distribution des données autour de cette valeur centrale. Par exemple, nous pouvons comparer la note moyenne en mathématiques au brevet des collèges de différentes classes de troisième d'un collège, les salaires médians de différentes entreprises ou la couleur préférée modale de différents groupes d'amis.

Que sont les indicateurs de dispersion et pourquoi sont-ils utiles ?

Les mesures de tendance centrale permettent d'identifier la valeur la plus représentative des données. Pour avoir davantage d'informations sur les données, il faut aussi décrire la façon dont les données sont réparties (ou dispersées) autour de la valeur centrale, ou les unes par rapport aux autres. C’est ce qu’on appelle la dispersion. Elle est mesurée avec différents indicateurs.
Les mesures de dispersion principales sont l'étendue, l'écart interquartile et l'écart absolu moyen. L'étendue est la différence entre la plus grande valeur observée et la plus petite. L'écart interquartile est l'étendue de la série sur laquelle se trouvent concentrées 50 % des données, autour de la médiane. Il est égal à la différence entre le troisième quartile Q3 et le premier quartile Q1. L'écart absolu moyen d'une série statistique représente l'écart moyen entre chaque observation et la moyenne. On le détermine en calculant la moyenne des valeurs absolues des différences entre les observations et leur moyenne.
Nous pouvons utiliser ces mesures de dispersion pour comparer différents groupes de données ou pour étudier comment les données se répartissent autour de la valeur centrale. Par exemple, nous pouvons comparer l'étendue des températures au cours de différentes saisons, l'intervalle interquartile des revenus dans différentes entreprises ou l'écart absolu moyen des âges dans différentes familles.

Comment choisir le meilleur indicateur de tendance centrale et de dispersion ?

Il n'existe pas de meilleur indicateur de tendance centrale et de dispersion. Chacun présente des avantages et des inconvénients différents selon la situation : le type de données à traiter, les descriptions que nous voulons faire et les conclusions que nous voulons en tirer.
Il faut en effet considérer :
  • Le type de données : sont-elles quantitatives ou qualitatives ? Les données quantitatives ou numériques peuvent être, comme leur nom l'indique, exprimées par un nombre, une quantité, comme par exemple la taille, le poids ou une note. Les données qualitatives ou catégorielles ne sont pas mesurables, non exprimables en chiffres, comme par exemple la couleur des yeux, la boisson préférée, les animaux domestiques. On peut calculer la moyenne, la médiane et le mode d'une série de données quantitatives mais on peut uniquement déterminer le mode d'une série de données qualitatives. De même, on peut calculer l'étendue, l'écart interquartile et l'écart absolu uniquement pour une série de données quantitatives.
  • La forme de la représentation graphique des données : les données sont-elles symétriques ou asymétriques ? La courbe est symétrique si les valeurs sont uniformément réparties autour de la valeur centrale, comme une courbe en forme de cloche. La courbe est asymétrique si les données sont plus concentrées autour de valeurs faibles ou de valeurs fortes par rapport à la valeur centrale. Elles sont alors plus étendues d'un côté de la valeur centrale appelé " queue " de distribution. Nous pouvons utiliser la moyenne, la médiane et le mode pour les données symétriques. Dans le cas de données asymétriques, on préférera utiliser la médiane et le mode : ils sont plus fiables car ils sont moins sensibles aux valeurs extrêmes que la moyenne. De même, l'intervalle interquartile est moins affecté par les valeurs extrêmes que l'étendue.

Comment choisir une représentation des données appropriée ?

Il n'existe pas de réponse unique à cette question, certains points peuvent nous aider dans notre choix pour représenter les données :
  • Le type et la taille des données. Par exemple, si nos données sont qualitatives, telles que la couleur des yeux ou le type d'animal de compagnie, nous pouvons utiliser un tableau de fréquences ou un diagramme à barres pour les présenter. Si nos données sont quantitatives, telles que la taille ou le poids, nous choisirons de représenter nos données dans un histogramme, une boîte à moustaches ou un nuage de points. Si nous disposons de beaucoup de données, un graphique permet de rendre les données et la tendance plus lisibles. Si nous avons peu de données, nous pourrions utiliser un tableau pour montrer les valeurs exactes et les fréquences des données.
  •  L'objectif de la représentation des données et le public auquel elle s'adresse. Par exemple, si nous voulons comparer les données entre différents groupes (comme des tranches d'âge) ou catégories (comme les catégories socio-professionnelles), nous pouvons utiliser un diagramme en points, un histogramme ou une boîte à moustaches pour présenter les similitudes et les différences entre ces gourpes ou catégories. Si nous voulons mettre en évidence la relation entre deux variables, nous pouvons utiliser un nuage de points. Si nous voulons illustrer la distribution ou la forme de la distribution des données, nous pouvons réaliser un histogramme ou un diagramme en boîte pour visualiser la médiane, la dispersion et les valeurs aberrantes dans les données.
Quel que soit le type de représentation choisi, celui ci doit être clair, facile à lire et attrayant, avec un titre, des légendes et des échelles. Ainsi, notre public peut lire et interpréter notre représentation.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.