2 Le langage R - Rstudio IDE

2.1 R Késako?

En 1993, Ross Ihaka et Robert Gentleman de l’université d’Aukland en Nouvelle-Zélande ont développé un projet de recherche pour apporter de nouvelles fonctionnalités au langage de programmation S. En 1995, ces deux chercheurs ont proposé une première version libre du logiciel R, dont la version stable R 1.0.0 fut disponible en 2000 grâce à la vingtaine de chercheurs qui ont formé en 1997 le groupe de développement (R Core Team). En 2003, l’équipe de développement crée la R Foundation for Statistical Computing pour soutenir le projet R et devenir un point de contact de référence pour ceux qui veulent prendre contact avec la communauté R. La première conférence internationale réunissant les utilisateurs de R a eu lieu à Vienne en 2004. Depuis 2006, la conférence UseR se déroule tous les ans alternativement entre l’Europe et les Etats-Unis.

Logo officiel du projet R

Figure 2.1: Logo officiel du projet R

Le logiciel R s’entoure d’une communauté scientifique de plus en plus grande pour augmenter et améliorer les fonctionnalités (packages ou librairies). En 2017, plus de 10 000 librairies ont été développées sont en libre accès pour les utilisateurs.3

2.2 Comment s’organise le logiciel R?

2.2.1 Avant toute chose, on le télécharge.

R est téléchargeable sur le site du CRAN the Comprehensive R Archive Network, plateforme d’archivage des différentes versions de R mais également des différentes librairies (ou packages). Peu importe votre système d’exploitation (mac, linux, windows), téléchargez la dernière version du logiciel (e.g R 4.0.2 “Taking Off Again” 2020/06/22).
Vous pouvez cliquer sur les liens ci-dessous pour télécharger la dernière version de R qui correspond à votre système d’exploitation.



2.2.2 Première rencontre avec la console R

Avant de rentrer dans l’explication de la structure de R, nous allons comprendre comment fonctionne le logiciel R sur votre ordinateur. Une fois le logiciel R installé, lancez l’application et une fenêtre s’affiche sur votre bureau (Figure 2.2). Cette fenêtre s’appelle la console. La console va vous permettre de rédiger et d’exécuter des commandes compréhensibles par le langage R.
Ecrivez la commande à la suite du signe > puis appuyez sur la touche Entrée pour l’exécuter. Cette ligne s’appelle l’invité de commande. Les conventions d’écriture seront vu dans la section 3.

Fenêtre de la console au démarrage du logiciel R (Mac)

Figure 2.2: Fenêtre de la console au démarrage du logiciel R (Mac)

Allez on va faire un essai!!!
A la suite du signe > vous allez écrire la commande suivante :

2+2

Vous devriez obtenir le résultat suivant :

## [1] 4

Si vous avez obtenu le bon résultat, BRAVO !! Vous avez écrit votre première commande!!

Si vous n’avez pas obtenu le bon résultat ce n’est pas grave, recommencez! Quittez le logiciel et redémarrez-le puis réécrivez la commande.

2.2.3 Tout est une histoire de mémoire

Un ordinateur est constitué de deux mémoires : la RAM (= mémoire primaire) et le (ou les) disque(s) dur(s) (=u mémoire secondaire). Voici un tableau qui résume les différences entre ces deux types de mémoire :

Tableau 2.1: Différences entre RAM et Disque dur (HDD)
Caractéristiques RAM Disque dur (HDD)
Nom complet RAM pour Random Access Memory HDD pour Hard Disk Drive
Autre nom Mémoire primaire Mémoire secondaire
Taille De 8Go à 32Go De 500 Go à 1 To
Coût Coûteuse par unité de stockage Peu coûteuse par unité de stockage
Bruit Pas de bruit Bruit lié au mécanisme de rotation
Persistence de la donnée Les données sont stockées temporaires et effacées si il n’y a plus d’alimentation électrique Les données sont stockées de manière permanente même si il y a une coupure électrique

En lisant ce tableau vous pouvez comprendre que si vous souhaitez stocker vos données de manière pérenne il faut qu’elles soient enregistrées sur le disque dur (HDD). Vous verrez dans les sections A DEFINIR que l’on peut sauvegarder le script, les figures et les résultats dans des dossiers spécifiques que l’on appellera Répertoires de travail.
Mais alors à quoi sert la RAM ? La RAM est une mémoire primaire, c’est à dire que c’est la première mémoire dont se sert le système pour stocker des informations afin de les traiter. On peut alors parler de mémoire tampon ou mémoire temporaire. L’avantage de cette mémoire est qu’elle rapide d’accès contrairement aux disques durs4. La RAM est tout à fait adaptée lorsque l’on exécute des commandes pour réaliser des calculs. J’espère que vous voyez ou je veux en venir!! Et oui la console R utilise la RAM! Et donc? Si vous arrêtez l’application ou que votre ordinateur s’éteint à cause d’une coupure électrique, vous perdez toutes vos données…

Nous allons donc jongler avec ces deux mémoires en utilisant le logiciel R.

Quand on débute avec R il peut être difficile de se familiariser avec la console. Il est donc intéressant d’installer le logiciel Rstudio qui propose une interface graphique ergonomique qui facilite et rend agréable le développement des scripts R. Cliquez sur le lien ci-dessous pour télécharger l’installateur qui correspond à votre système d’exploitation.

2.3 Rstudio : une interface pour R

Le logiciel Rstudio a été optimisé pour permettre à l’utilisateur de visualiser sur une seule fenêtre graphique 4 panneaux (Figure 2.3). RStudio n’est pas à proprement parler une interface graphique pour R, il s’agit plutôt d’un environnement de développement intégré (IDE) , qui propose des outils et facilite l’écriture de scripts et l’usage de R au quotidien.

Fenêtre de démarrage de Rstudio

Figure 2.3: Fenêtre de démarrage de Rstudio

  • Panneau A : Zone éditeur de code permettant d’écrire un ensemble de commandes, des fonctions, des packages (=librairies), …. Ce code peut être sauvegardé dans un script dans le répertoire de travail.
  • Panneau B : Console servant à saisir et à exécuter les commandes R les unes après les autres
  • Panneau C :
    • Environnement : Listes de tous les objets créés (vecteurs, tableaux de données, listes, fonctions,…)
    • History : Historique de toutes les commandes exécutées dans la console
  • Panneau D :
    • Files : Arborescence des fichiers contenue dans le répertoire de travail
    • Plots : Onglet de visualisation des graphiques
    • Packages : Liste des librairies installées localement sur l’ordinateur. Les librairies activées sont marquées par un [x]
    • Help : Onglet permettant de visualiser l’aide d’un objet. Il faut ajouter ? avant la fonction et exécuter la commande (e.g. ?plot ou ?plot())

Nous n’irons pas plus loin concernant les fonctionnalités de Rstudio car elles seront abordées dans d’autres parties avec des exemples et des exercices pour les illustrer.

Vous pouvez dorénanvant tester vos connaissances concernant cette partie en cliquant sur le lien ci-dessous :

https://par.moodle.lecnam.net/mod/quiz/view.php?id=194183


  1. CRAN now has 10,000 R packages. Here’s how to find the ones you need. (27/01/2017) lien↩︎

  2. Depuis quelques années les SSD sont apparus et remplacent petit à petit les disques durs car ils apparaissent plus performant dans certains cas. Voici un lien pour plus de détails↩︎