Programme Quantilille 2021
QuantililleLes supports de présentation des interventions ainsi que les scripts et données utilisées pendant l'école sont disponibles dans ce dépôt.
Module nᵒ 1 : Traitement quantitatif de données textuelles : nettoyage, exploration, analyse
Module organisé par Julien Boelaert et Samuel Coavoux
L’objectif de ce module est de répondre à la multiplication des données textuelles disponibles pour la recherche en sciences sociales, et au renouvellement récent des méthodes permettant de les traiter. Qu'il s'agisse de réponses à des enquêtes ou des formulaires, de discours politiques ou médiatiques, de commentaires sur Internet ou d'autres types de corpus textuels, les matériaux susceptibles de faire l'objet d'une analyse quantitative sont de plus en plus nombreux et facilement accessibles. Parallèlement, les techniques d'analyse de données textuelles se sont profondément renouvelées au cours de la dernière décennie, notamment grâce aux avancées en apprentissage automatique (Machine Learning).
L'objectif de ce module sera de familiariser les stagiaires aux différents types de traitements statistiques possibles, de la lexicométrie standard à la détection automatique de thèmes et aux méthodes de plongements de mots. On présentera les principes épistémologiques de chacune de ces méthodes, leurs portées et limites, ainsi que les outils permettant d'en faire un usage judicieux. Une attention particulière sera portée aux nettoyages et divers pré-traitements des corpus textuels, étape déterminante pour la qualité des traitements statistiques ultérieurs.
Programme
Lundi 28 juin
Présentation de Progedo et de la PUDL (9h-12h)
PUDL
Introduction à R, importation de données (14h-17h)
Julien Boelaert
Mardi 29 juin :
Enjeux et évolutions récentes du traitement quantitatif des données textuelles (9h-12h)
Sylvain Parasie
Expressions régulières : recherche, nettoyage, mise en forme de corpus (14h-17h)
Julien Boelaert
Mercredi 30 juin :
Introduction à l’analyse textuelle sous R (9h-12h)
Julien Boelaert
Lexicométrie : analyse factorielle (14h-17h)
Julien Boelaert
Jeudi 1er juillet :
Classification de textes : la méthode Reinert (9h-12h)
Julien Barnier
Détection automatique de thèmes : le topic model et ses extensions (14h-17h)
Anne Bellon
Vendredi 2 juillet :
Méthodes supervisées : classification, enrichissement de corpus (9h-12h)
Julien Boelaert
Au-delà du « sac de mots » : plongement de mots, transfert d’apprentissage / Introduction au nettoyage de données simples avec openRefine. (14h-17h)
Julien Boelaert
Module nᵒ 2 : Cartographie
Module organisé par Thomas Soubiran et Cécile Rodrigues
Ces dernières décennies ont vu à la fois une production et une diffusion accrues de données géoréférencées, principalement issues du secteur public —IGNF, Insee,…— mais aussi du secteur privé comme des associations ou même des entreprises. De façon concomitante, l'offre logicielle cartographique et, plus généralement, géomatique, s'est elle aussi fortement développée. En plus de fournir des outils pour l'analyse de l'information géographique, ces outils permettent aussi de faciliter leur production par exemple pour le géoréférencement de lieux, d'adresses ou d'evénements.
La disponibilité de données et de logiciels pour produire et traiter l'information géographique offre donc de nouvelles possibilités de visualisation et d'analyses dans de nombreux domaines et les sciences sociales ne font pas exception. Ce module propose donc une introduction à la pratique de la cartographie en utilisant différents logiciels libres. Il s'attachera d'abord à présenter les notions élémentaires de la cartographie comme les systèmes de projection. Dans un second temps, il s'agira de familiariser les stagiaires à la pratique de la manipulation de données géographiques ainsi que leur préparation —nettoyage, géo-encodage— et la complémentarité de différents environnements logiciels —R, QGIS et PostgreSQL—. Seront aussi présentés les sources, outils d'extraction et de gestion des données existantes ainsi que différentes méthodes de visualisation de ces données.
Programme
Lundi 28 juin
Présentation de PROGEDO et de la PUDL (9h-12h)
PUDL
Sources de données géographiques (14h-17h)
Table-ronde
Mardi 29 juin :
Introduction à la cartographie (9h-12h)
Juliette Morel
Introduction à R (14h-17h)
Cécile Rodrigues
Mercredi 30 juin :
Nettoyage de données, géo-encodage (9h-12h)
Kim Antunez et Étienne Côme
Manipulation de données spatiales, présentations cartographiques (14h-17h)
Kim Antunez et Étienne Côme
Jeudi 1er juillet :
Exercices de mise en pratique sur R (9h-12h)
Utilisation d’un logiciel de SIG : QGIS (14h-17h)
Juliette Morel
Vendredi 2 juillet :
Introduction au module PostGIS de PostgreSQL (9h-12h)
Thomas Soubiran
Visualisation dynamique de données spatiales(14h-17h)
Boris Mericskay
Partager sur X Partager sur Facebook