Textométrie avec R

1) Pourquoi utiliser R pour la textométrie

Lise Vaudor

ISIG, UMR 5600 EVS

2024-10-01

Introduction à R

Pourquoi utiliser le logiciel R?

Le langage R est un langage de programmation et un environnement mathématique utilisé pour le traitement de données et l’analyse statistique. Il est en outre d’utilisation libre et gratuite et peut être téléchargé par exemple à l’adresse suivante: http://cran.r-project.org/. L’installation prend au plus quelques minutes.

Il permet de réaliser

  • des calculs arithmétiques
  • des tris et croisements de données
  • une très large variété de graphiques
  • des programmes (automatisation de traitements)
  • de la modélisation et simulations numériques
  • une très large variété de traitements statistiques (c’est ce pour quoi il est le plus reconnu)
  • des rapports, pages web et diaporamas

Pourquoi utiliser le logiciel R?

Il peut donc remplir les fonctions

  • d’une calculatrice,
  • d’un tableur,
  • d’un langage de programmation,
  • d’un logiciel de statistiques,
  • d’un logiciel de dessin - d’un éditeur de rapports et de présentations

Aperçu de RStudio et de quelques-unes de ses fonctionnalités.

En contrepartie de sa polyvalence et de sa flexibilité, R peut être un peu déroutant au premier abord, car il ne s’agit pas d’un logiciel “clic-boutons”: on exécute les différentes opérations à travers l’exécution de lignes de commande.

R pour la textométrie

Pourquoi travailler avec des textes sous R?

La manipulation de chaînes de caractère sous R fait partie des opérations à mettre en oeuvre à des fins de programmation, par exemple pour manipuler des noms de fichiers, nettoyer des données, récupérer de la donnée textuelle via du web-scraping, etc.

Pourquoi travailler avec des textes sous R?

Quand il s’agit en plus de travailler sur des données textuelles correspondant à du langage naturel (langage parlé, oeuvres littéraires, tweets, articles de presse, documentation, etc.) certaines méthodes existent, qui permettent de mettre en forme et d’analyser des corpus de textes.

Qu’est-ce que la textométrie?

La textométrie, ou analyse de données textuelles, est une approche qui consiste à traiter un ensemble de textes (ou corpus) comme un jeu de données que l’on peut analyser par des méthodes quantitatives. Pour ce faire, elle utilise notamment des modèles statistiques qui permettent par exemple d’identifier des éléments du lexique particulièrement signifiants.

La textométrie est ainsi naturellement un outil privilégié des sciences humaines et sociales qui revêt dans ces disciplines une certaine originalité puisqu’elle regroupe notamment nombre de méthodologies et techniques quantitatives.

Cocorico la textométrie

L’ancrage de la textométrie en sciences humaines et sociales en France est lié en partie à la force de l’école statistique française et à l’influence de certains chercheurs, précurseurs de ces méthodes comme Jean-Paul Benzécri.

Le nombre et la richesse des logiciels dédiés développés par des laboratoires français (par exemple Alceste, IRaMuTeQ, TXM),AnalyseSHS témoigne de cet héritage.

Pourquoi faire ses analyses textométriques sous R?

  • reproductibilité des résultats.
  • flexibilité des méthodes
  • possibilité d’intégrer des données d’une nature différente (par exemple données d’enquêtes, données physiques, cartes, etc.).

illustration: Allison Horst

Par ailleurs de nombreux logiciels de textométrie sont bâtis sur des méthodologies statistiques (qui constituent une des richesses du langage R): ils reposent de ce fait pour tout ou partie sur le langage R. IRaMuTeQ est ainsi une interface accessible depuis R, AnalyseSHS est une interface web produite à l’aide de R, TXM propose certaines analyses qui reposent sur le langage R, etc. Ils permettent ainsi à leurs utilisateurs de réaliser des analyses qui reposent sur le langage R sans avoir nécessairement à utiliser les lignes de commande.

Utiliser R

illustration: Allison Horst

Console, commandes

Au lancement de R, une fenêtre (la console) apparaît: le symbole “>” indique que R est prêt à exécuter toute ligne de commande que nous allons lui fournir.

Aperçu de R

Un exemple de ligne de commande:

2+2
[1] 4

Taper entrée pour exécuter la commande. R exécute la commande et nous affiche le résultat.

Commentaires, historique des commandes, commande incomplète

Commentaires

32.7*59.6 # multiplication
[1] 1948.92

Les indications précédées du symbole # sont des commentaires. Ils sont ignorés par R mais vous seront très utiles pour annoter vos scripts. Historique Si l’on exécute plusieurs lignes de commandes dans la console, on peut “récupérer” les lignes de commandes précédemment exécutées avec la flèche ⬆️ ou au contraire️ en récupérer de plus récentes avec ⬇.

Commande incomplète:

>4+3/ + 

Avoir le signe + au lieu de l’invite de commande classique > montre que R attend la suite de la commande car elle est manifestement incomplète à l’issue de la première ligne…

>4+3/ + 2 
[1] 5.5

Assignation

Lorsque vous exécutez une commande, vous pouvez en observer le résultat directement dans la console:

32.7*59.6 
[1] 1948.92

Vous pouvez également choisir d’attribuer ce résultat à un objet.

a <- 32.7*59.6 

On dit qu’on assigne un nom à un objet. On a ainsi créé les objets a et b.

“=” est également un opérateur d’assignation:

a = 32.7*59.6

En revanche, R est sensible à la casse donc les deux commandes suivantes créeront deux objets distincts!

pouetpouet <- 32.7*59.6 
Pouetpouet <- 32.7*59.6

Attention, un objet est “écrasé” quand on assigne son nom à un autre objet:

tuttut <- 33
tuttut <- 45
tuttut
[1] 45

Environnement

a <- 32.7*59.6
b <- 53/59

Lorsque vous exécutez les commandes ci-dessus, rien ne s’affiche dans la console. Cela ne signifie pas pour autant que rien ne s’est passé… Vous avez créé les objets a et b, qui font désormais partie de votre environnement de travail… Rappelez-vous, ces objets apparaissent dans la zone Environnement de RStudio. Vous pouvez également afficher la liste des objets dans l’environnement global de la manière suivante:

ls()
[1] "a"               "b"              
[3] "has_annotations" "pouetpouet"     
[5] "Pouetpouet"      "tuttut"         

Affichage des objets

Pour afficher la valeur des objets dans la console, plusieurs possibilités:

a 
[1] 1948.92
print(a)
[1] 1948.92

Vous pourrez par la suite manipuler les objets de différentes façon… Par exemple, ici on peut les utiliser pour de simples opérations arithmétiques:

a+b # calcul puis affichage 
[1] 1949.818
c <- a+b # calcul et creation d'objet print(c) # affichage 

RStudio: scripts et IDE

Historique vs Script

Comment garder une trace pérenne des différentes commandes et de leur succession?

L’ensemble des lignes de commande exécutées dans la console (y compris tâtonnements) = l’ historique (.Rhistory)

L’ensemble des lignes de commandes nécessaires à exécuter une tâche = un script (.R) (i.e. un fichier texte contenant l’ensemble des lignes de commande mises au propre et commentées!)

l’IDE RStudio

Nous allons travailler sur un éditeur de script (ou plus précisément un IDE, pour Integrated Development Environment) le logiciel RStudio. Il est lui aussi libre et gratuit et peut être téléchargé à l’adresse suivante: http://www.rstudio.com/ide/.

RStudio: Fonctionnalités

Dans RStudio, quatre zones apparaissent:

  • Source en haut à gauche,
  • Console en bas à gauche,
  • Environnement en haut à droite
  • Plots en bas à droite

Aperçu de RStudio et de quelques-unes de ses fonctionnalités. |

RStudio: zone Console

La zone Console de RStudio correspond en fait à l’interpréteur R de base… C’est cette console qui s’ouvre quand vous lancez R (sans RStudio)… Simplement ici, la console est “enrobée” de différents outils pour vous aider à travailler…

Aperçu de RStudio et de quelques-unes de ses fonctionnalités.

RStudio: zone Source

La zone Source constitue l’éditeur de code à proprement parler. C’est dans cette zone que vous allez écrire vos scripts. Les calculs sont exécutés dans la zone Console.

On peut envoyer les codes de la zone “Source” vers la zone “Console”

  • grâce au bouton Run (qui exécute la ou les lignes de commande sélectionnée(s))
  • grâce au bouton Source (qui exécute l’ensemble des lignes de commande du script).

Aperçu de RStudio et de quelques-unes de ses fonctionnalités.

RStudio: zone Environment/History

  • onglet Environment: il vous permet de consulter l’ensemble des objets de votre environnement
  • onglet History: il vous permet de consulter l’historique de vos commandes (i.e. l’ensemble des commandes que vous avez exécutées depuis le lancement de votre session).

Aperçu de RStudio et de quelques-unes de ses fonctionnalités.

RStudio: zone Files/Plots/Packages/Help

  • onglet Files: il vous permet de naviguer dans vos dossiers et d’ouvrirs/renommer/supprimer vos fichiers.
  • onglet Plots: c’est là que s’afficheront (par défaut) les graphiques produits. Il vous permet donc de vérifier d’un coup d’oeil vos sorties graphiques…
  • onglet Packages: vous montre l’ensemble des packages installés et chargés pour la session actuelle.
  • onglet Help: vous pouvez y consulter les fichiers d’aide associés aux différentes fonctions de R.

Aperçu de RStudio et de quelques-unes de ses fonctionnalités.

Haut les coeurs!

illustration: Allison Horst

On récapitule!

On a parlé de quoi, déjà?
  • usages de R
  • console, commandes, script, commentaires, historique
  • assignation, objets, environnement, affichage
  • RStudio: organisation de l’IDE