11 Quelques tests statistiques
11.1 Comparaison de proportions
11.1.1 Test du \(\chi^2\) (paramétrique)
Mesure l’écart qui existe entre l’effectif observé et l’effectif attendu. Cet écart est-il simplement lié au hasard?
11.1.1.1 Hypothèses
- H0 : Les proportions sont identiques entre les groupes
- H1 : Au moins un groupe diffère dans ces proportions
11.1.1.2 Fiabilité
- \(\alpha\)=0.05 avec n>6gk
- \(\alpha\)=0.01 avec n>10gk
avec g le nombre de groupes et k le nombre de classes
11.1.1.3 Exemple
Dans le cadre de la DCE, vous devez inventorier les plages ayant subis des marées vertes par masses d’eau.
## Artois Picardie Seine Normandie Loire Bretagne Adour Garonne
## Pres marees vertes 8 11 20 6
## Abs marees vertes 4 14 12 3
bassin <- rbind(c(8,11,20,6),c(4,14,12,3))
colnames(bassin) <- c("Artois Picardie","Seine Normandie","Loire Bretagne",
"Adour Garonne")
row.names(bassin) <- c("Pres marees vertes","Abs marees vertes")
bassin <- as.data.frame(bassin)
chisq.test(bassin)
##
## Pearson's Chi-squared test
##
## data: bassin
## X-squared = 2.9162, df = 3, p-value = 0.4047
11.1.2 Test exact de Fisher (non-paramétrique)
Lorsque la validité du test du \(\chi^2\) n’est pas assurée, le test exact de Fisher en est la parade.
11.1.2.1 Hypothèses
- H0 : Les proportions sont identiques entre les groupes
- H1 : Au moins un groupe diffère dans ces proportions
11.1.2.2 Exemple
Vous avez étudié l’expression des protéines régulant le transport des ions K+ suite à des stress thermiques de 24°C et 26°C sur un total de 20 huitres creuses.
## T24 T26
## active 3 8
## non-active 7 2
##
## Fisher's Exact Test for Count Data
##
## data: stress
## p-value = 0.06978
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.007870555 1.133635839
## sample estimates:
## odds ratio
## 0.1226533
11.2 Une variable et 2 échantillons
11.2.1 Test t de student (paramétrique)
Comparaison de moyennes de deux distributions normales de variances inconnues mais supposées égales.
11.2.1.1 Exemple
Vous avez mesuré la consommation d’oxygène de deux lots de poissons de même effectifs n=15 (un contrôle et un soumis au Ultra-sons)
## Control US
## 1 0.21 0.45
## 2 0.25 0.82
## 3 0.14 0.45
## 4 0.32 0.47
## 5 0.21 0.56
## 6 0.12 0.83
## 7 0.14 0.70
## 8 0.35 0.85
## 9 0.45 0.58
## 10 0.38 0.74
## 11 0.26 0.73
## 12 0.41 0.56
## 13 0.47 0.84
## 14 0.42 0.52
## 15 0.42 0.56
11.2.1.2 Conditions d’application
- Normalité : Est-ce que les distributions suivent une loi normale?
On utilise le test de Shapiro ou
shapiro.test()
- H0 la distribution observée est compatible avec la loi normale
- H1 la distribution observée n’est pas conforme à la loi normale
##
## Shapiro-Wilk normality test
##
## data: consom$Control
## W = 0.91927, p-value = 0.1877
##
## Shapiro-Wilk normality test
##
## data: consom$US
## W = 0.88742, p-value = 0.06132
- Egalité des variances : Est-ce que les variances des échantillons sont égales?
On utilise le test de Bartlett ou
bartlett.test()
- H0 Les variances sont égales
- H1 Les variances diffèrent
##
## Bartlett test of homogeneity of variances
##
## data: consom
## Bartlett's K-squared = 0.59044, df = 1, p-value = 0.4422
Les conditions d’applications sont respectées!!
11.2.1.3 Calcul du test
- Unilatéral ou bilatéral? C’est ici que vient votre connaissance en biologie. Normalement la consommation en oxygène est plus forte durant un stress, par conséquent, on veut savoir si la consommation moyenne des US est supérieure à celle des Contrôles.
##
## One Sample t-test
##
## data: consom
## t = 11.858, df = 29, p-value = 6.042e-13
## alternative hypothesis: true mean is greater than 0
## 95 percent confidence interval:
## 0.4057969 Inf
## sample estimates:
## mean of x
## 0.4736667
11.2.2 Test U de Wilcoxon-Mann-Whitney (non paramétrique)
Lorsque la validité du test t n’est pas assurée, le test U en est la parade.
11.2.2.1 Exemple
Vous avez réalisé des bennes dans deux sites A et B ayant des granulométries différentes. Le site A est caractérisé par un sable hétérogène et le site B par une vase. Vous venez de passer 2 semaines à identifier les invertébrés et vous voulez savoir si le site A est moins dense que le site B.
## Site Ind
## 1 A 37
## 2 A 72
## 3 B 1200
## 4 B 504
## 5 A 321
## 6 B 173
## 7 A 49
## 8 A 18
## 9 B 856
## 10 A 50
## 11 B 274
## 12 B 168
## 13 A 102
## 14 A 49
## 15 A 20
On utilise la commande wilcox.test()
11.2.2.2 Calcul du test
Unilatéral ou bilatéral?
##
## Wilcoxon rank sum test with continuity correction
##
## data: Ind by Site
## W = 3, p-value = 0.002786
## alternative hypothesis: true location shift is less than 0
Il y a bien une différence significative, le nombre d’individus est plus faible dans le site A que dans le site B.
11.3 Une variable et k échantillons
11.3.1 ANOVA : ANalysis Of VAriance (paramétrique)
L’ANOVA sert à faire des comparaisons de moyennes!!
L’ANOVA va permettre de comparer les écarts des moyennes entre plusieurs échantillons de distributions normales et de variances égales.
11.3.1.1 Exemple
Vous avez mesuré la concentration en Cadmium dans 3 populations de moules réparties sur le littoral normand afin de connaitre l’impact du relargage accidentelle de l’usine de métallurgie.
## Population Conc_Cd
## 1 A 350.15
## 2 B 434.81
## 3 C 371.72
## 4 A 360.50
## 5 A 204.13
## 6 A 311.55
11.3.1.2 Conditions d’application
- Normalité
##
## Shapiro-Wilk normality test
##
## data: Contamination$Conc_Cd[Contamination$Population == "A"]
## W = 0.97301, p-value = 0.7217
##
## Shapiro-Wilk normality test
##
## data: Contamination$Conc_Cd[Contamination$Population == "B"]
## W = 0.9609, p-value = 0.6192
##
## Shapiro-Wilk normality test
##
## data: Contamination$Conc_Cd[Contamination$Population == "C"]
## W = 0.96671, p-value = 0.5176
- Egalité des variances
##
## Bartlett test of homogeneity of variances
##
## data: Conc_Cd by Population
## Bartlett's K-squared = 2.0487, df = 2, p-value = 0.359
11.3.1.3 Calcul du test
On utilise la fonction aov()
pour réaliser l’analyse de variance et anova()
pour voir les résultats
## Analysis of Variance Table
##
## Response: Conc_Cd
## Df Sum Sq Mean Sq F value Pr(>F)
## Population 2 21236 10618 0.5166 0.5989
## Residuals 67 1377216 20556
Source de variation | Degrés de liberté | Somme des carrés | Carrés moyens | F | p-value |
---|---|---|---|---|---|
Facteur (ou intergroupe) | g-1 | SCE | \(CME=\frac{SCE}{g-1}\) | \(\frac{CME}{CMR}\) | |
Résidus (ou intragroupe) | n-g | SCR | \(CMR=\frac{SCR}{n-g}\) |
11.3.2 Test H de Kruskall-Wallis (non paramétrique)
C’est une généralisation à g échantillons du test U
11.3.2.1 Hypothèses
- H0 : La distribution des g échantillons est identiques
- H1 : Il y au moins un distribution qui est différente de g-1 autres