Chapitre 1 Introduction

1.1 De la donnée textuelle “brute”… comme quoi?

Donnée textuelle en langage “contraint”:

  • adresses
  • noms
  • chemins de fichiers, liens
  • etc.

Donnée textuelle en “langage naturel”:

  • oeuvres littéraires
  • enquêtes, entretiens
  • journaux
  • sites web
  • données réseaux sociaux (Twitter, Facebook, etc.) etc.

1.2 Import dans R de données textuelles

Du texte sur support physique au texte numérisé

  • transcription d’un enregistrement audio en un texte sur support numérique (Speech Recognition API, HP IDOL : API client transcribeR)
  • OCRisation de l’image (numérique) du support au texte sur support numérique (Tesseract OCR engine in R vignette

Du support numérisé à R

  • import de tables
  • import de corpus (notamment, si traitement par ailleurs par des logiciels dédiés)
  • interrogation d’APIs
  • web-scraping

1.3 APIs