Web scraping et analyse de données textuelles

Julia Descamps, INED et Bénédicte Garnier, INED

Cours du parcours M2 QESS

S1 2022-2023, 24 heures, 6 ECTS

Lundi de 14h à 17h à partir du 9 octobre

Campus Jourdan

Description du cours

La première partie du cours, prise en charge par Julia Descamps, consiste en une découverte des méthodes d’extraction de données disponibles en ligne. À partir d’un cas pratique autour de l’analyse des textes de présentation d’expositions temporaires, disponibles sur les sites internet de musées, les étudiantes et les étudiants apprendront à mettre en place un protocole afin d’extraire et traiter des données du web. Le logiciel R est utilisé afin d’aspirer les données et de les stocker sous forme de base de données.

La seconde partie, enseignée par Bénédicte Garnier, permet de maitriser les méthodes de statistique textuelle pour analyser des corpus de types différents (questions ouvertes, entretiens, articles , etc..). La mise en pratique se fait avec R (notamment le paquet R.temis) pour transformer les données textuelles en tableaux lexicaux et pouvoir ensuite appliquer ces méthodes. Les éléments abordés en cours, ainsi que la lectures d’articles traitant ces données dites « non structurées », permettront de savoir interpréter les résultats et les restituer à un public non averti.

Pré-requis : il est nécessaire d’avoir acquis une certaine aisance avec le logiciel R.

Pré-inscription obligatoire auprès des enseignantes. Les personnes inscrites en M2 QESS et PDI sont prioritaires