Lise Vaudor
21 mars 2017
Ils permettent d’effectuer des opérations arithmétiques simples, comme des additions, des multiplications,etc.
v1
## [1] 2.3 3.6 1.1 2.4 2.5 10.2 5.1 2.0
v1+4 # addition
## [1] 6.3 7.6 5.1 6.4 6.5 14.2 9.1 6.0
v1-3 # soustraction
## [1] -0.7 0.6 -1.9 -0.6 -0.5 7.2 2.1 -1.0
v1*5 # multiplication
## [1] 11.5 18.0 5.5 12.0 12.5 51.0 25.5 10.0
v1/4 # division
## [1] 0.575 0.900 0.275 0.600 0.625 2.550 1.275 0.500
v1^2 # puissance
## [1] 5.29 12.96 1.21 5.76 6.25 104.04 26.01 4.00
Ils permettent de comparer des vecteurs entre eux.
v1
## [1] 2.3 3.6 1.1 2.4 2.5 10.2 5.1 2.0
v1==3.6 # Ă©gal Ă
## [1] FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE
v1!=2 # différent de
## [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE
v1
## [1] 2.3 3.6 1.1 2.4 2.5 10.2 5.1 2.0
v1<4 # plus petit
## [1] TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE
v1>10 # plus grand
## [1] FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE
v1<=5 # plus petit ou égal
## [1] TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE
v1>=3 # plus grand ou égal
## [1] FALSE TRUE FALSE FALSE FALSE TRUE TRUE FALSE
Ils permettent de vérifier si une proposition est vraie ou non.
v1
## [1] 2.3 3.6 1.1 2.4 2.5 10.2 5.1 2.0
!(v1>10) # NON logique
## [1] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE
v1<2 & v1>5 # ET logique
## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
v1<3 | v1>5 # OU logique
## [1] TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
Notez également l’existence de la fonction is.na() qui permet d’évaluer si les éléments d’un vecteur sont vides ou non!
v9 <- c(3.2, NA, 8.9, 42.3, 59.2, NA)
is.na(v9)
## [1] FALSE TRUE FALSE FALSE FALSE TRUE
L’utilisation d’opérateurs de comparaison et d’opérateurs logiques permet notamment de rechercher certains éléments des objets ayant certaines caractéristiques, grâce à la fonction which()
.
Par exemple:
v1
## [1] 2.3 3.6 1.1 2.4 2.5 10.2 5.1 2.0
which(v1>3)
## [1] 2 6 7
v1[which(v1>3)]
## [1] 3.6 10.2 5.1
v2
## [1] "Paris" "Lyon" "Marseille" "Rennes" "Montpellier"
which(v2=="Marseille")
## [1] 3
v2[which(v2=="Marseille")]
## [1] "Marseille"
Notez bien la différence entre les indices et les valeurs des vecteurs: which
renvoie des indices, c’est à dire des numéros d’éléments.
On peut décrire le mode d’une variable via sa moyenne ou sa médiane.
x
## [1] 53.0 44.7 58.5 35.7 42.1 56.6 63.1 36.5 43.8 46.9 51.2 59.6 41.0 41.5
## [15] 25.3 52.8 55.8 31.0 55.7 26.7 54.2 42.0 51.7 47.5 46.9 33.7 38.5 65.7
## [29] 58.4 46.3 40.7 47.3 53.7 43.7 51.1 43.4 52.5 23.5 61.2 63.4 40.6 59.2
## [43] 59.4 37.0 54.5 58.5 40.6 60.5 43.1 52.9
La moyenne d’une variable \(x=(x_1,x_2,...,x_n)\) est Ă©gale Ă
\[ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}{x_i} \]
mean(x)
## [1] 47.864
La médiane d’une variable \(x=(x_1,x_2,...,x_n)\) est égale à la valeur \(x_i\) telle qu’il y ait la moitié des observations au-dessus de \(x_i\), et la moitié en dessous.
median(x)
## [1] 47.4
La distinction entre moyenne et médiane peut être importante quand la variable a une distribution asymétrique.
On peut décrire la variabilité des données à travers la variance ou l’écart-type:
La variance et l’écart type de \(x=(x_1,x_2,...,x_n)\) sont égales à \[ var(x)=\frac{1}{n-1}\sum_{i=1}^{n}{(x_i-\bar{x})^2} \] \[ sd(x)=\sqrt{var(x)} \]
\(\sum{(x_i-\bar{x})^2}\) est la somme des écarts au carré entre les observations et la moyenne. Autrement dit, la variance est, à peu de choses près,la moyenne des [[écarts à la moyenne] au carré].
Dans R, on calcule variance et écart-type à l’aide des fonctions var()
et sd()
var(x)
## [1] 106.9464
sd(x)
## [1] 10.34149
Le quantile d’ordre p de \(x=(x_1,x_2,...,x_n)\) correspond à la valeur \(\lambda\) telle que p% des données sont inférieures à p.
\[\begin{eqnarray} pr(X \leq \lambda)=p \end{eqnarray}\]Les quantiles d’ordre 25%, 50%, et 75% sont aussi appelés premier quartile, deuxième quartile (ou médiane), et troisième quartile.
quantile(x, 0.10)
## 10%
## 35.5
Le quantile d’ordre 10% (ou 0.10) de x est 35.5.
Cela signifie que seulement 10% des valeurs de x sont inférieures à 35.5.
Par ailleurs, le minimum et maximum des variables peuvent être affichés comme suit:
min(x)
## [1] 23.5
max(x)
## [1] 65.7
Nous avons d’ores et déjà utilisé un certain nombre de fonctions, comme
Toutes les fonctions que nous avons utilisées jusqu’à présent sont définies sur le package de base de R.
Les fonctions sont des objets qui ont toutes un point commun: elles s’écrivent avec des parenthèses, dans lesquelles l’utilisateur précise la valeur des arguments si besoin est.
Les arguments peuvent être obligatoires (la fonction ne peut pas fonctionner si ces arguments ne sont pas fournis par l’utilisateur) ou au contraire optionnels. Par exemple, dans
quantile(x=x, probs=0.1)
## 10%
## 35.5
l’argument x
est obligatoire, et l’argument probs
est optionnel. On peut ainsi ne passer que l’argument x
Ă la fonction:
quantile(x=x)
## 0% 25% 50% 75% 100%
## 23.500 41.125 47.400 55.775 65.700
Si l’on passe les arguments à la fonction dans le bon ordre, on n’a pas besoin de préciser le nom des arguments. Ainsi, il est possible d’appeler la fonction quantile
des deux manières suivantes:
quantile(x=x, probs=0.1)
## 10%
## 35.5
quantile(x,0.1)
## 10%
## 35.5
En revanche, l’appel suivant produira une erreur:
quantile(0.1,x)
## Error in quantile.default(0.1, x): 'probs' outside [0,1]
Pour accéder aux informations quant aux arguments d’une fonction, on peut consulter l’aide associée des deux façons suivantes:
help(quantile)
?quantile
Le fichier d’aide associé à une fonction est toujours structuré de la même manière. Sans trop détailler, voici les parties qui me semblent les plus importantes…
Détails et References permettent en outre d’expliquer les détails de la méthode et éventuellement de citer la ou les publications associées à la méthode/fonction ou package.
Les packages sont des paquets de fonctions visant à réaliser des tâches un peu particulières. L’installation de base de R vous installe, par défaut, un certain nombre de packages (base
, methods
, stats
, graphics
, etc.)
Dans la suite de ce cours, nous serons amenés à utiliser le package dplyr qui sert à manipuler des tableaux de données.
Pour être en mesure d’utiliser les fonctions de ce package, il faut:
install.packages("dplyr")
library(dplyr)
Vous pouvez également installer et charger les packages en passant par RStudio: