Contenu principal
Cours : Statistique et probabilités - Niveau 1 > Chapitre 12
Leçon 3: Test sur la proportion de la populationRéférence : Les conditions requises pour réaliser l'inférence statistique sur la proportion
Lorsque nous voulons déduire des conclusions sur la proportion de la population à partir de la fréquence observée dans l'échantillon (en construisant un intervalle de confiance ou en effectuant un test paramétrique), la validité de nos conclusions dépend de la satisfaction de conditions. Avant tout calcul, il est donc important de vérifier que ces conditions soient remplies.
Les conditions à vérifier pour la validité de conclusions sur la proportion sont les suivantes :
- Échantillon aléatoire : Les données observées proviennent d'un échantillon aléatoire (échantillon aléatoire simple ou expérience randomisée).
- Distribution normale : La distribution d'échantillonnage de
doit être approximativement normale — le nombre estimé de succès et le nombre estimé d'échecs sont supérieurs ou égaux à . - Indépendance : les individus formant l'échantillon sont tous prélevés indépendamment les uns des autres. Dans le cas d'un échantillon sans remise, la taille de l'échantillon doit être au moins inférieure à
de la taille de la population.
Examinons chacune de ces conditions de manière un peu plus approfondie.
Échantillon aléatoire
Les échantillons aléatoires sont représentatifs de la population et donnent des résultats non biaisés des caractéristiques de la population. Lorsque les échantillons ne sont pas constitués de manière aléatoire, les résultats obtenus sur l'échantillon ne peuvent alors être extrapolés à la population sans risque.
L'estimateur sans biais de la proportion du caractère étudié d'une population est la fréquence observée de ce caractère sur l'échantillon. Par exemple, supposons que l'on ait un sachet de bonbons dont sont orange. On effectue plusieurs échantillons aléatoires simples et on note la fréquence de bonbons orange observée sur chaque échantillon. Sur certains échantillons, cette fréquence sera supérieure à , sur d'autres, elle sera inférieure. Cependant, la moyenne des fréquences d’observation sur l’ensemble de tous les échantillons est égale à la proportion de la population de . En d'autres termes, l’espérance de la
fréquence d'échantillon est égale à la probabilité théorique d’apparition
dans la population : .
Ceci est vrai uniquement lorsque l'échantillonnage est aléatoire. Dans le cas d'échantillons non aléatoires, l'estimateur est biaisé et les conclusions tirées d'intervalle de confiance ou de test paramétrique seront inexactes.
Condition d'approximation par une loi normale
La distribution d'échantillonnage de est approximativement normale si le nombre de succès et le nombre d'échec observés dans l'échantillon sont tous les deux supérieurs à .
On doit donc vérifier :
On construit un intervalle de confiance pour estimer une proportion inconnue dans une population à partir de la fréquence observée dans un échantillon. Il faut s'assurer que et sont tous deux supérieurs ou égaux à . Dans un test paramétrique, l'hypothèse porte sur et on calcule la valeur observée qui dépend de la taille d'échantillon .
Indépendance
L'utilisation de la formule de l'écart-type de (entre autre) n'est valable que pour des observations indépendantes. Dans le cas de tirages sans remise, ce n'est pas le cas car le fait de retirer chaque observation sélectionnée modifie la composition de l'échantillon.
Cependant, si la taille de l'échantillon est inférieure ou égale à de la taille de la population, on peut considérer l'indépendance des observations comme le fait de ne pas remettre l'observation ne modifie pas de manière significative la population échantillonnée considérée comme très grande. Par exemple, si l'on prélève aléatoirement individus, alors la taille de la population doit être au moins égale à individus.
Si la condition d'indépendance est remplie, l'écart-type de est alors donné par :
Pour un test paramétrique, on utilise la taille de l'échantillon et la valeur testée .
Lorsque nous construisons un intervalle de confiance, la valeur de n'est pas connue. On remplace par son estimateur dans la formule de l'écart-type qui est alors appelée erreur-type de .
L'erreur-type ou l'écart-type estimé de est :
Vous souhaitez rejoindre la discussion ?
Pas encore de posts.