Le Descriptoire: Recueil et analyse de texte avec R
2022-03-07
Chapitre 1 Introduction
1.1 De la donnée textuelle “brute”… comme quoi?
Donnée textuelle en langage “contraint”:
- adresses
- noms
- chemins de fichiers, liens
- etc.
Donnée textuelle en “langage naturel”:
- oeuvres littéraires
- enquêtes, entretiens
- journaux
- sites web
- données réseaux sociaux (Twitter, Facebook, etc.) etc.
1.2 Import dans R de données textuelles
Du texte sur support physique au texte numérisé
- transcription d’un enregistrement audio en un texte sur support numérique (Speech Recognition API, HP IDOL : API client transcribeR)
- OCRisation de l’image (numérique) du support au texte sur support numérique (Tesseract OCR engine in R vignette
Du support numérisé à R
- import de tables
- import de corpus (notamment, si traitement par ailleurs par des logiciels dédiés)
- interrogation d’APIs
- web-scraping
1.3 APIs
1.4 De la donnée textuelle “brute”… comme quoi?
Donnée textuelle en langage “contraint”:
- adresses
- noms
- chemins de fichiers, liens
- etc.
Donnée textuelle en “langage naturel”:
- oeuvres littéraires
- enquêtes, entretiens
- journaux
- sites web
- données réseaux sociaux (Twitter, Facebook, etc.) etc.
1.5 Import dans R de données textuelles
Du texte sur support physique au texte numérisé
- transcription d’un enregistrement audio en un texte sur support numérique (Speech Recognition API, HP IDOL : API client transcribeR)
- OCRisation de l’image (numérique) du support au texte sur support numérique (Tesseract OCR engine in R vignette
Du support numérisé à R
- import de tables
- import de corpus (notamment, si traitement par ailleurs par des logiciels dédiés)
- interrogation d’APIs
- web-scraping