Contenu principal

Cours : Statistique et probabilités - Niveau 1 > Chapitre 12

Leçon 3: Test sur la proportion de la population

Référence : Les conditions requises pour réaliser l'inférence statistique sur la proportion

Référence : Les conditions requises pour réaliser l'inférence statistique sur la proportion

Lorsque nous voulons déduire des conclusions sur la proportion de la population à partir de la fréquence observée dans l'échantillon (en construisant un intervalle de confiance ou en effectuant un test paramétrique), la validité de nos conclusions dépend de la satisfaction de conditions. Avant tout calcul, il est donc important de vérifier que ces conditions soient remplies.

Les conditions à vérifier pour la validité de conclusions sur la proportion sont les suivantes :

Échantillon aléatoire : Les données observées proviennent d'un échantillon aléatoire (échantillon aléatoire simple ou expérience randomisée).
Distribution normale : La distribution d'échantillonnage de $\hat{p}$ ‍ doit être approximativement normale — le nombre estimé de succès et le nombre estimé d'échecs sont supérieurs ou égaux à $10$ ‍.
Indépendance : les individus formant l'échantillon sont tous prélevés indépendamment les uns des autres. Dans le cas d'un échantillon sans remise, la taille de l'échantillon doit être au moins inférieure à $10 %$ ‍ de la taille de la population.

Examinons chacune de ces conditions de manière un peu plus approfondie.

Échantillon aléatoire

Les échantillons aléatoires sont représentatifs de la population et donnent des résultats non biaisés des caractéristiques de la population. Lorsque les échantillons ne sont pas constitués de manière aléatoire, les résultats obtenus sur l'échantillon ne peuvent alors être extrapolés à la population sans risque.

L'estimateur sans biais de la proportion du caractère étudié d'une population est la fréquence observée de ce caractère sur l'échantillon. Par exemple, supposons que l'on ait un sachet de bonbons dont

50 %

sont orange. On effectue plusieurs échantillons aléatoires simples et on note

f

la fréquence de bonbons orange observée sur chaque échantillon. Sur certains échantillons, cette fréquence sera supérieure à

50 %

, sur d'autres, elle sera inférieure. Cependant, la moyenne des fréquences d’observation sur l’ensemble de tous les échantillons est égale à la proportion

p

de la population de

50 %

. En d'autres termes, l’espérance de la fréquence d'échantillon est égale à la probabilité théorique d’apparition dans la population :

μ_{\hat{p}} = p

Ceci est vrai uniquement lorsque l'échantillonnage est aléatoire. Dans le cas d'échantillons non aléatoires, l'estimateur est biaisé et les conclusions tirées d'intervalle de confiance ou de test paramétrique seront inexactes.

Condition d'approximation par une loi normale

La distribution d'échantillonnage de

F = \hat{p}

est approximativement normale si le nombre de succès et le nombre d'échec observés dans l'échantillon sont tous les deux supérieurs à

10

On doit donc vérifier :

\begin{aligned} nombre de succès observés : n f \geq 10 \\ nombre d’échecs observés : n (1 - f) \geq 10 \end{aligned}

On construit un intervalle de confiance pour estimer une proportion inconnue

p

dans une population à partir de la fréquence

f

observée dans un échantillon. Il faut s'assurer que

f

(1 - f)

sont tous deux supérieurs ou égaux à

10

. Dans un test paramétrique, l'hypothèse porte sur

p

et on calcule la valeur observée

f

qui dépend de la taille d'échantillon

n

Indépendance

L'utilisation de la formule de l'écart-type de

\hat{p}

(entre autre) n'est valable que pour des observations indépendantes. Dans le cas de tirages sans remise, ce n'est pas le cas car le fait de retirer chaque observation sélectionnée modifie la composition de l'échantillon.

Cependant, si la taille de l'échantillon est inférieure ou égale à

10 %

de la taille de la population, on peut considérer l'indépendance des observations comme le fait de ne pas remettre l'observation ne modifie pas de manière significative la population échantillonnée considérée comme très grande. Par exemple, si l'on prélève aléatoirement

n = 150

individus, alors la taille de la population doit être au moins égale à

N = 1500

individus.

Si la condition d'indépendance est remplie, l'écart-type de

F = \hat{p}

est alors donné par :

σ_{\hat{p}} = \sqrt{\frac{p (1 - p)}{n}}

Pour un test paramétrique, on utilise la taille de l'échantillon

n

et la valeur testée

p

Lorsque nous construisons un intervalle de confiance, la valeur de

p

n'est pas connue. On remplace

p

par son estimateur

F = \hat{p}

dans la formule de l'écart-type qui est alors appelée erreur-type de

\hat{p}

L'erreur-type ou l'écart-type estimé de

F = \hat{p}

est :

σ_{\hat{p}} \approx \sqrt{\frac{\hat{p} (1 - \hat{p})}{n}}

Vous souhaitez rejoindre la discussion ?

Connectez-vous

Trier par :

Pas encore de posts.

Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.