Comptages et graphiques simples
ISIG, UMR 5600 EVS
2024-10-01
ggplot2
est un package utilisé pour réaliser des graphiques selon des principes qui lui sont propres.
(en l’occurrence, ces principes sont inspirés du livre “The Grammar of Graphics” de Leland Wilkinson, d’où le gg
de ggplot
).
ggplot2
se distingue des autres outils de production graphique sous R, et notamment des fonctions graphiques “de base” comme “hist”, “boxplot”, etc. par son principe général qui est de décrire et donc produire un graphique comme un assemblage de couches
=> production simple et intuitive de graphiques beaux et riches
Commençons par charger le package ggplot2
-après l’avoir, si nécessaire, installé- :
Jeu de données illustratif
Pour vous illustrer les principes et résultats graphiques du package ggplot2
, je vais réutiliser le jeu de données catdata
:
On crée un graphique à l’aide de la fonction ggplot. On spécifie sur quel jeu de données le graphique va être construit, ainsi que les aesthetics x et y:
On peut par exemple de représenter l’information à l’aide d’un geom “point”:
Si je souhaite réaliser un graphique de type boxplot plutôt que point alors il faudra que je modifie la fonction geom()
que j’utilise…
Remarque
Vous devez choisir un type de geom compatible avec la nature des informations (en x et y) que vous voulez représenter!
Evidemment tous les geoms peuvent être paramétrés. Je peux par exemple modifier la couleur de mes boîtes à moustache de la façon suivante:
Parmi les arguments les plus utilisés pour paramétrer les geoms, on peut citer:
Nous avons vu comment définir les paramètres des geoms de manière “absolue”. Par exemple:
Remarquez que l’esthétique fill=sex
peut être spécifiée à la fois dans l’appel à geom_boxplot()
et l’appel à ggplot()
elle-même
Cependant l’endroit où l’esthétique est spécifiée peut avoir un effet quand le graphique comprend plusieurs couches:
Un des aspects les plus intéressants de ggplot2
est la facilité avec laquelle on peut transformer les variables de position x et y.
On peut également définir des limites d’axes
Ou définir les endroits où les barres s’affichent sur l’axe (argument breaks), ainsi que les étiquettes associées (argument labels).
Les thèmes permettent de définir l’allure globale du graphique. On peut modifier le thème de la manière suivante :
Les thèmes permettent de définir l’allure globale du graphique. On peut modifier le thème de la manière suivante :
Le nuage de mots constitue sans doute l’une des représentations les plus classiques pour une table lexicale…
On le réalise ici avec le package ggwordcloud
(et sa fonction wordcloud()
)
On repart ici de la table freq_lemmes
freq_lemmes_top_100 <- freq_lemmes %>%
top_n(100,freq)
library(ggwordcloud)
ggplot(freq_lemmes_top_100, aes(label = lemma,size=freq, color=log10(freq))) +
geom_text_wordcloud() +
theme_minimal()+
scale_color_gradient(low = "red", high = "forestgreen")