Lise Vaudor
01/02/2021
Ils permettent d’effectuer des opérations arithmétiques simples, comme des additions, des multiplications,etc.
[1] 2.3 3.6 1.1 2.4 2.5 10.2
[1] 6.3 7.6 5.1 6.4 6.5 14.2
[1] -0.7 0.6 -1.9 -0.6 -0.5 7.2
[1] 11.5 18.0 5.5 12.0 12.5 51.0
[1] 0.575 0.900 0.275 0.600 0.625 2.550
[1] 5.29 12.96 1.21 5.76 6.25 104.04
Ils permettent de comparer des vecteurs entre eux.
|
|
Ils permettent de vérifier si une proposition est vraie ou non.
[1] 2.3 3.6 1.1 2.4 2.5 10.2
[1] TRUE TRUE TRUE TRUE TRUE FALSE
[1] FALSE FALSE FALSE FALSE FALSE FALSE
[1] TRUE FALSE TRUE TRUE TRUE TRUE
Notez également l’existence de la fonction is.na() qui permet d’évaluer si les éléments d’un vecteur sont vides ou non!
[1] FALSE TRUE FALSE FALSE FALSE TRUE
Pour réaliser les opérations R recycle les vecteurs autant de fois que nécessaire. Si v1 est de longueur n et v2 de longueur 1, v2 est recyclé n fois. Si v1 et v2 sont de même longueur n, l’opération se fait terme à terme. |
|
On peut décrire le mode d’une variable via sa moyenne ou sa médiane.
La distinction entre moyenne et médiane peut être importante quand la variable a une distribution asymétrique. |
On peut décrire la variabilité des données à travers la variance ou l’écart-type: Dans R, on calcule variance et écart-type à l’aide des fonctions
|
Le quantile d’ordre p de \(x=(x_1,x_2,...,x_n)\) correspond à la valeur \(\lambda\) telle que p% des données sont inférieures à p. \[\begin{eqnarray} pr(X \leq \lambda)=p \end{eqnarray}\] Les quantiles d’ordre 25%, 50%, et 75% sont aussi appelés premier quartile, deuxième quartile (ou médiane), et troisième quartile.
Le quantile d’ordre 10% (ou 0.10) de x est 2.39. Cela signifie que seulement 10% des valeurs de x sont inférieures à 2.39. |
Par ailleurs, le minimum et maximum des variables peuvent être affichés comme suit:
|
Nous avons d’ores et déjà utilisé un certain nombre de fonctions, comme
Toutes les fonctions que nous avons utilisées jusqu’à présent sont définies sur le package de base de R. Les fonctions sont des objets qui ont toutes un point commun: elles s’écrivent avec des parenthèses, dans lesquelles l’utilisateur précise la valeur des arguments si besoin est. |
Les arguments peuvent être obligatoires (la fonction ne peut pas fonctionner si ces arguments ne sont pas fournis par l’utilisateur) ou au contraire optionnels. Par exemple, dans
l’argument
|
Si l’on passe les arguments à la fonction dans le bon ordre, on n’a pas besoin de préciser le nom des arguments. Ainsi, il est possible d’appeler la fonction
En revanche, l’appel suivant produira une erreur:
|
Pour accéder aux informations quant aux arguments d’une fonction, on peut consulter l’aide associée des deux façons suivantes: |
Le fichier d’aide associé à une fonction est toujours structuré de la même manière. Sans trop détailler, voici les parties qui me semblent les plus importantes…
Détails et References permettent en outre d’expliquer les détails de la méthode et éventuellement de citer la ou les publications associées à la méthode/fonction ou package. |
Les packages sont des paquets de fonctions visant à réaliser des tâches un peu particulières. L’installation de base de R vous installe, par défaut, un certain nombre de packages (base
, methods
, stats
, graphics
, etc.)
Dans la suite de ce cours, nous serons amenés à utiliser le package dplyr qui sert à manipuler des tableaux de données.
Pour être en mesure d’utiliser les fonctions de ce package, il faut:
|
Vous pouvez également installer et charger les packages en passant par RStudio: |
|
Un package est un ensemble de fonctions documentées visant à la réalisation d’une tâche particulière.
En poursuivant cette série de tutoriels vous serez notamment amenés à travailler avec le package dplyr
qui vise à réaliser un ensemble d’opérations et de manipulations de base sur les tableaux de données, et le package ggplot2
qui vise à produire des graphiques en s’appuyant sur les principes de la grammaire des graphiques.
INSTALLATION | CHARGEMENT |
Pour télécharger les codes du package sur l’ordi | Pour pouvoir appeler les fonctions en utilisant leur nom |
Pour utiliser un package, vous aurez besoin de l’installer sur votre ordinateur. Cette étape nécessite que vous téléchargiez l’ensemble des fichiers contenant le code du package sur votre ordi. De ce fait, c’est une étape qui nécessite que vous ayiez accès à internet… Par contre, vous n’avez besoin de réaliser cette installation une seule fois (tant que vous ne changez pas d’ordi, ou que vous n’avez pas besoin de mettre à jour le package par exemple). | A chaque fois (ou presque) que vous utiliserez un package (i.e. pour chacune de vos sessions de travail avec ce package), vous aurez besoin de le charger. Le chargement d’un package permet en effet à R d’ajouter les noms de ses fonctions à son “répertoire” et donc d’aller chercher le code correspondant où il se doit. |
Chaque package est associé à un espace de noms (namespace) qui correspond à l’ensemble des noms de fonctions qui le composent. Un même nom peut correspondre à plusieurs fonctions, issues de packages différents. Si ces packages sont installés et chargés pour une même session de travail, il est recommandé (voire indispensable) d’écrire explicitement à quel espace de noms on fait référence à l’aide de la notation nomdupackage::nomdelafonction… |
|
Un package n’est pas définitivement figé au moment de sa création (ou de son dépôt sur le CRAN par exemple). Il est amené à évoluer, en lien avec, par exemple, les demandes des utilisateurs, les ajouts ou modifications des contributeurs, les modifications rendues nécessaires par les changements de version des autres packages (dont il dépend) ou de R lui-même. |
En effet, un package est construit sur la base de codes R préexistants, mais également en se basant sur des packages, basés sur des packages, basés sur des packages… Ces packages constituent ce qu’on appelle les dépendances. |
La “qualité” d’un package peut recouvrir de nombreuses notions, parmi lesquelles:
|
|
Pour obtenir de l’aide sur une fonction (installée, peut-être non chargée): Pour obtenir de l’aide sur une fonction (installée et chargée): |
Pour obtenir la liste de la doc relative à un package: => liste des fonctions, des vignettes, etc. |
Les vignettes sont des documents qui aident à prendre en main un package en identifiant ses fonctions les plus importantes, et en montrant un ou plusieurs cas d’usage. Tous les packages ne font pas l’objet de vignettes!… |
Pour lister les vignettes relatives à un package (par ex. dplyr):
Pour visualiser une vignette donnée: |
Les cheatsheets (ou antisèches) sont des documents visant à résumer de manière graphique la fonction et l’usage d’un package. Tous les packages ne font pas l’objet d’une cheatsheet. Les plus utiles sont listées ici: (https://rstudio.com/resources/cheatsheets/) |
Ce n’est pas parce que vous avez des messages/ des warnings/ du rouge dans votre console que vous avez eu un problème d’installation… La preuve: |
Par contre, là, oui, l’installation n’a pas pu aboutir: Ici en l’occurrence, j’ai besoin d’installer magick sur ma machine (en dehors de R) avant d’installer le package R magick… |
Parmi les problèmes classiques (et faciles à résoudre) qu’on peut rencontrer lors de l’installation, on peut citer:
|
Illustration:
|
Les problèmes d’installation sont relativement souvent liés à un problème dans l’installation des dépendances: |
Dans ce cas cela peut être une bonne idée d’installer la dépendance “qui coince” en premier, puis retenter l’installation du package… |