MACDIT

Modèles multi-agents et données de médias sociaux : Dynamiques collectives et trajectoires individuelles dans les populations linguistiques

Le projet interdisciplinaire MACDIT réunit des chercheurs des laboratoires DDL, ICAR et Lidilem. Notre objectif est d’étudier les interactions entre les niveaux individuels et collectifs de la variation ainsi que le changement linguistique. Nous emploierons des méthodes d'analyse de données appliquées à Twitter et Wikipedia et de modélisation multi-agents pour identifier comment des innovations linguistiques apparaissent et quels facteurs leurs sont favorables ou pas.

Télécharger le projet complet

Contexte

Le changement et la variation sont des propriétés fondamentales du langage. S'il est admis que la structure des interactions sociales influence ces propriétés, nous sommes loin de comprendre toute la complexité de ce phénomène et sa dynamique. Comment est-il possible à la fois que des générations successives de locuteurs utilisent la même langue pour maintenir une intelligibilité mutuelle et en même temps que ces mêmes locuteurs parlent une langue suffisamment différente pour permettre aux langues de changer ? Ce paradoxe va au cœur des théories linguistiques, questionnant l'essence même de ce qu'est une langue et le langage.

Cadre théorique

La sociolinguistique variationniste s’est emparée de ces questions et a montré que la variation linguistique, loin d'être aléatoire, est conditionnée par la structure sociodémographique des populations. Utilisés de manière différenciée par différentes sous- populations, les variants linguistiques sont ainsi des marqueurs de celles-ci et l'utilisation d'un variant plutôt qu'un autre permet au locuteur d'affirmer une identité. Le changement linguistique est donc la résultante de la dynamique d'utilisation des variants, soumise à la dynamique de la structure des populations, aux changements dans les représentations sociales ainsi qu'aux contraintes internes à la langue et au système cognitif des locuteurs. La langue apparaît ainsi comme un système dynamique complexe en interaction avec d'autres systèmes, cognitifs et sociaux.

Méthode

Nous utiliserons une "double voie" pour approfondir cette compréhension :

Nous modéliserons la structure et la dynamique des interactions en utilisant des réseaux multi- agents divers quant à leur propriétés internes et aux caractéristiques des “locuteurs”
Nous intégrerons des “données du monde réel” en utilisant les messages Twitter du corpus SoSweet et des échanges en ligne impliqués dans la construction d’articles de Wikipedia.

Objectifs

Comment les conventions linguistiques collectives sont-elles construites à travers des interactions interindividuelles au sein des données de médias sociaux ? Par exemple, dans quelles circonstances une innovation se généralise-t-elle dans le réseau ?
Comment les conventions linguistiques collectives influencent-elles les individus ? Les gens sont-ils affectés par les conventions sociolinguistiques majoritaires / établies lorsqu'ils entrent dans un réseau ? ou résistent-ils à la fusion ? Et quels facteurs influencent ces dynamiques ?

Résultats attendus

Les données Twitter fournissent des informations sur la variation des usages linguistiques (en français en particulier) en fonction de la structure du réseau, des facteurs socio-géographiques et des domaines linguistiques. Les données Wikipedia documentent les interactions des utilisateurs sur des sujets circonscrits, et l’émergence et l'évolution d’un genre de texte : l’article encyclopédique collaboratif en ligne. Une contribution majeure de ce projet est la combinaison parfaite de ces deux approches (la modélisation est contrainte par les données et informe la collecte et l'analyse des données) dans un large éventail d'expertises (sociolinguistique, dialectologie, modélisation informatique, science des données et complexité).