[1] 4
1) Pourquoi utiliser R pour la textométrie
ISIG, UMR 5600 EVS
2024-10-01
Le langage R est un langage de programmation et un environnement mathématique utilisé pour le traitement de données et l’analyse statistique. Il est en outre d’utilisation libre et gratuite et peut être téléchargé par exemple à l’adresse suivante: http://cran.r-project.org/. L’installation prend au plus quelques minutes.
Il permet de réaliser
Il peut donc remplir les fonctions
En contrepartie de sa polyvalence et de sa flexibilité, R peut être un peu déroutant au premier abord, car il ne s’agit pas d’un logiciel “clic-boutons”: on exécute les différentes opérations à travers l’exécution de lignes de commande.
La manipulation de chaînes de caractère sous R fait partie des opérations à mettre en oeuvre à des fins de programmation, par exemple pour manipuler des noms de fichiers, nettoyer des données, récupérer de la donnée textuelle via du web-scraping, etc.
Quand il s’agit en plus de travailler sur des données textuelles correspondant à du langage naturel (langage parlé, oeuvres littéraires, tweets, articles de presse, documentation, etc.) certaines méthodes existent, qui permettent de mettre en forme et d’analyser des corpus de textes.
La textométrie, ou analyse de données textuelles, est une approche qui consiste à traiter un ensemble de textes (ou corpus) comme un jeu de données que l’on peut analyser par des méthodes quantitatives. Pour ce faire, elle utilise notamment des modèles statistiques qui permettent par exemple d’identifier des éléments du lexique particulièrement signifiants.
La textométrie est ainsi naturellement un outil privilégié des sciences humaines et sociales qui revêt dans ces disciplines une certaine originalité puisqu’elle regroupe notamment nombre de méthodologies et techniques quantitatives.
L’ancrage de la textométrie en sciences humaines et sociales en France est lié en partie à la force de l’école statistique française et à l’influence de certains chercheurs, précurseurs de ces méthodes comme Jean-Paul Benzécri.
Le nombre et la richesse des logiciels dédiés développés par des laboratoires français (par exemple Alceste, IRaMuTeQ, TXM),AnalyseSHS témoigne de cet héritage.
Par ailleurs de nombreux logiciels de textométrie sont bâtis sur des méthodologies statistiques (qui constituent une des richesses du langage R): ils reposent de ce fait pour tout ou partie sur le langage R. IRaMuTeQ est ainsi une interface accessible depuis R, AnalyseSHS est une interface web produite à l’aide de R, TXM propose certaines analyses qui reposent sur le langage R, etc. Ils permettent ainsi à leurs utilisateurs de réaliser des analyses qui reposent sur le langage R sans avoir nécessairement à utiliser les lignes de commande.
Commentaires
Les indications précédées du symbole #
sont des commentaires. Ils sont ignorés par R mais vous seront très utiles pour annoter vos scripts. Historique Si l’on exécute plusieurs lignes de commandes dans la console, on peut “récupérer” les lignes de commandes précédemment exécutées avec la flèche ⬆️ ou au contraire️ en récupérer de plus récentes avec ⬇.
Lorsque vous exécutez une commande, vous pouvez en observer le résultat directement dans la console:
Vous pouvez également choisir d’attribuer ce résultat à un objet.
On dit qu’on assigne un nom à un objet. On a ainsi créé les objets a et b.
“=” est également un opérateur d’assignation:
En revanche, R est sensible à la casse donc les deux commandes suivantes créeront deux objets distincts!
Attention, un objet est “écrasé” quand on assigne son nom à un autre objet:
Lorsque vous exécutez les commandes ci-dessus, rien ne s’affiche dans la console. Cela ne signifie pas pour autant que rien ne s’est passé… Vous avez créé les objets a et b, qui font désormais partie de votre environnement de travail… Rappelez-vous, ces objets apparaissent dans la zone Environnement de RStudio. Vous pouvez également afficher la liste des objets dans l’environnement global de la manière suivante:
Pour afficher la valeur des objets dans la console, plusieurs possibilités:
Vous pourrez par la suite manipuler les objets de différentes façon… Par exemple, ici on peut les utiliser pour de simples opérations arithmétiques:
Historique vs Script
Comment garder une trace pérenne des différentes commandes et de leur succession?
L’ensemble des lignes de commande exécutées dans la console (y compris tâtonnements) = l’ historique (.Rhistory)
L’ensemble des lignes de commandes nécessaires à exécuter une tâche = un script (.R) (i.e. un fichier texte contenant l’ensemble des lignes de commande mises au propre et commentées!)
l’IDE RStudio
Nous allons travailler sur un éditeur de script (ou plus précisément un IDE, pour Integrated Development Environment) le logiciel RStudio. Il est lui aussi libre et gratuit et peut être téléchargé à l’adresse suivante: http://www.rstudio.com/ide/.
Dans RStudio, quatre zones apparaissent:
|
La zone Console de RStudio correspond en fait à l’interpréteur R de base… C’est cette console qui s’ouvre quand vous lancez R (sans RStudio)… Simplement ici, la console est “enrobée” de différents outils pour vous aider à travailler…
La zone Source constitue l’éditeur de code à proprement parler. C’est dans cette zone que vous allez écrire vos scripts. Les calculs sont exécutés dans la zone Console.
On peut envoyer les codes de la zone “Source” vers la zone “Console”