L'analyse de contenu computationelle: comment, quand et pourquoi? Mesurer la prévalence du cadrage stratégique dans la presse politique | Theses.fr
Thèse en cours

L'analyse de contenu computationelle: comment, quand et pourquoi? Mesurer la prévalence du cadrage stratégique dans la presse politique

FR  |  
EN
Auteur / Autrice : Salomé Do
Direction : Thierry PoibeauJean-Philippe Cointet
Type : Projet de thèse
Discipline(s) : Sciences du langage
Date : Inscription en doctorat le 01/09/2019
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale École transdisciplinaire Lettres/Sciences
Partenaire(s) de recherche : Laboratoire : LATTICE - Langues, textes, traitement informatique, cognition
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

Cette thèse explore l'application de l'apprentissage automatique supervisé à l'analyse de texte dans l'étude des médias, en se concentrant particulièrement sur la détection des cadres médiatiques. En commençant par une revue de littérature des théories du cadrage et de leur opérationnalisation dans des études computationnelles, la thèse met en lumière le potentiel et les défis de l'automatisation de la détection des cadres médiatiques. L'étude empirique se concentre sur la détection du cadrage stratégique dans les articles de presse politique du journal Le Monde (1945-2018). En développant deux indicateurs dénotant la présence de cadrage stratégique et en expérimentant diverses stratégies d'annotation, il est montré que les modèles de langue modernes peuvent atteindre des performances comparables à celles des annotateurs humains pour cette tâche. La thèse examine donc dans un premier temps les considérations méthodologiques de l'annotation des données d'entraînement et l'impact de l'expertise des annotateurs, et montre que les annotations d'experts améliorent significativement la performance des modèles pour les tâches complexes. La thèse examine dans un second temps l'utilisation des prédictions des modèles pour estimer la prévalence des indicateurs étudiés dans le temps, en proposant un cadre quantitatif préliminaire pour comparer les méthodes d'analyse de contenu automatisées et traditionnelles. Ce cadre est essentiel pour informer le choix entre approches computationnelles et manuelles pour la recherche en sciences sociales. L'étude souligne l'importance d'une analyse rigoureuse des erreurs et de l'estimation de l'incertitude dans les applications de l'apprentissage supervisé, suggérant des pistes de recherche future pour améliorer la fiabilité et l'applicabilité de l'apprentissage automatique dans l'analyse de contenu. Les résultats défendent une utilisation informée des méthodes automatisées dans les études médiatiques.