10 Statistiques inférentielles

10.1 Quelques définitions

L’hypothèse biologique est un formulation explicite de la question biologique d’intérêt. Elle pourra inclure notre hypothèse de travail : la réponse que nous pensons trouver a priori.

  • La richesse spécifique des communautés algales de la rade de Cherbourg est plus élevées dans les habitats avec de nombreux micro-habitats

Les hypothèses statistiques doivent correspondre au problème biologique posé par l’hypothèse biologique

L’inférence statistique classique repose sur l’évaluation de deux hypothèses
  1. H0 : l’hypothèse nulle ou principale
  2. H1 : l’hypothèse alternative ou contraire ou la contre-hypothèse

L’hypothèse nulle ou principale H0 est l’hypothèse de l’absence d’effet, “rien à signaler”. C’est une une hypothèse qui ne va pas dans le sens de notre hypothèse biologique.

  • ATTENTION “on rejette” ou “on ne rejette pas” H0 ce n’est jamais une certitude, on parle toujours de probabilité!

L’hypothèse alternative H1 est exclusive à l’hypothèse H0. C’est l’hypothèse qui va dans le sens notre hypothèse biologique.

10.2 Principe des tests statistiques.

Choisir en l’hypothèse nulle et l’hpothèse alternative présente des risques:

  • le risque de type I ou risque \(\alpha\), qui correspond au risque de rejeter de H0 si celle-ci est réellement vraie.
  • le risque de type II ou risque \(\beta\), qui correspond au risque d’accepter H0 si celle-ci est réellement fausse. Ce risque dépend de la puissance du test.
Risques $\alpha$ et $\beta$ et hypothèse nulle

Figure 10.1: Risques \(\alpha\) et \(\beta\) et hypothèse nulle

10.2.1 Le risque ou seuil de rejet \(\alpha\)

Si la p-value (gris) est SUPERIEURE au seuil \(\alpha\) (rouge), on ACCEPTE H0. on prend un risque \(\beta\) de se tromper.

Si la p-value (gris) est INFERIEURE au seuil \(\alpha\) (rouge), on REJETTE H0. on prend un risque \(\alpha\) de se tromper.

Obtenir une p-value supérieure au seuil \(\alpha\) et donc accepter H0 peut avoir plusieurs origines :

  • Le test peut manquer de spécificité
  • il peut y avoir en jeu d’autres raisons que celles évoquées
  • Le test peut manquer de puissance
  • il n’est pas en mesure de détecter un faible effet

10.2.2 Risque \(\beta\) et puissance d’un test

Le risque \(\beta\) est le risque de ne pas rejeter l’hypothèse H0 si celle-ci est réellement fausse. Le risque \(\beta\) ne peut pas être fixé contrairement au risque \(\alpha\).

La puissance d’un test est la probabilité de rejeter H0 car H1 est vraie et correspond à \(1-\beta\)

Puissance d'un test statistique

Figure 10.2: Puissance d’un test statistique

La puissance d’un test augmente :

  • quand augmente le seuil \(\alpha\)
  • quand augmente l’effectif de l’échantillon testé (ce qui diminue l’étalement de la distribution)
  • plus les variables sont informatives

10.3 Test unilatéral ou bilatéral?

Test unilatéral : la région critique est définie que d’un côté de la distribution. l’hypothèse alternative est directionnelle. L’hypothèse biologique dicte le signe de la différence ou de la relation.

Probabilité issue d'un test unilatéral à droite et à gauche

Figure 10.3: Probabilité issue d’un test unilatéral à droite et à gauche

Exemple :

H0 : La taille des bars est plus grande en Manche qu’en Atlantique H1 : La taille des bars est plus petite en Manche qu’en Atlantique

L’hypothèse alternative est directionnelle.

Test bilatéral : la région critique est définie de part et d’autre de la distribution. l’hypothèse alternative est bidirectionnelle. L’hypothèse biologique dicte le signe de la différence ou de la relation.

Probabilité issue d'un test bilatéral

Figure 10.4: Probabilité issue d’un test bilatéral

Exemple :

H0 : Il n’y a pas de différences de taille entre les bars de Manche et d’Atlantique H1 : Il a des différences de taille entre les bars de Manche et d’Atlantique

L’hypothèse alternative est bidirectionnelle car on ne sait pas quelle population est plus grande que l’autre.

10.4 Un test statistique en 7 étapes

  1. Formuler la question biologique

Définissez clairement votre hypothèse biologique en vous basant sur la littérature et sur vos connaissances

  1. Formuler les hypothèses statistiques

Définissez clairement :

  • l’hypothèse nulle H0 et l’hypothèse alternative H1
  • dans quel cas vous rejetez H0 ou vous acceptez H0
  • si vous allez utilisez un test unilatéral ou bilatéral
  1. Choisir le test approprié

Le choix du test est conditionné en fonction de :

  • du type de variables
  • du nombre d’échantillons
  • de la robustesse voulue
  • de l’adéquation des données aux conditions d’application
  1. Vérifier les conditions d’application

Il est INDISPENSABLE de tester les conditions d’application, cela conditionne la robustesse du test.

  1. Calculer le test

Effectuer le test statistique sous R et notez soigneusement les résultats du test.

  1. Prendre une décision statistique

Rejetez ou ne pas rejetez H0 telle est la question!! :)
Expliciter sans interpréter ce que cette décision implique.

  1. Tirer les conclusions biologiques

Le but maintenant est d’interpréter avec vos connaissances et la littérature. Il faut tenter d’expliquer les mécanismes sous-jacents.

10.5 Test paramétrique ou non-paramétrique? et degré de liberté?

10.5.1 Tests paramétriques vs. non-paramétriques?

Tests paramétriques : se basent sur des distributions statistiques supposées dans les données. Par conséquent, certaines conditions de validité doivent être vérifiées pour que le résultat d’un test paramétrique soit fiable.

Testq non paramétriqueq : ne se basent pas sur des distributions statistiques. Ils peuvent donc être utilisés même si les conditions de validité des tests paramétriques ne sont pas vérifiées.

10.5.2 Degré de liberté

Le nombre de degré de liberté est égal au nombre d’observations moins le nombre de relations entre ces observations. On pourrait remplacer l’expression « nombre de relations » par « nombre de paramètres à estimer ».