Programme Quantilille 2021

Quantilille

Les supports de présentation des interventions ainsi que les scripts et données utilisées pendant l'école sont disponibles dans ce dépôt.

Module nᵒ 1 : Traitement quantitatif de données textuelles : nettoyage, exploration, analyse

Module organisé par Julien Boelaert et Samuel Coavoux

L’objectif de ce module est de répondre à la multiplication des données textuelles disponibles pour la recherche en sciences sociales, et au renouvellement récent des méthodes permettant de les traiter. Qu'il s'agisse de réponses à des enquêtes ou des formulaires, de discours politiques ou médiatiques, de commentaires sur Internet ou d'autres types de corpus textuels, les matériaux susceptibles de faire l'objet d'une analyse quantitative sont de plus en plus nombreux et facilement accessibles. Parallèlement, les techniques d'analyse de données textuelles se sont profondément renouvelées au cours de la dernière décennie, notamment grâce aux avancées en apprentissage automatique (Machine Learning).

L'objectif de ce module sera de familiariser les stagiaires aux différents types de traitements statistiques possibles, de la lexicométrie standard à la détection automatique de thèmes et aux méthodes de plongements de mots. On présentera les principes épistémologiques de chacune de ces méthodes, leurs portées et limites, ainsi que les outils permettant d'en faire un usage judicieux. Une attention particulière sera portée aux nettoyages et divers pré-traitements des corpus textuels, étape déterminante pour la qualité des traitements statistiques ultérieurs.

Programme

Lundi 28 juin

Présentation de Progedo et de la PUDL (9h-12h)
PUDL

Introduction à R, importation de données (14h-17h)
Julien Boelaert

Mardi 29 juin :

Enjeux et évolutions récentes du traitement quantitatif des données textuelles (9h-12h)
Sylvain Parasie

Expressions régulières : recherche, nettoyage, mise en forme de corpus (14h-17h)
Julien Boelaert

Mercredi 30 juin :

Introduction à l’analyse textuelle sous R (9h-12h)
Julien Boelaert

Lexicométrie : analyse factorielle (14h-17h)
Julien Boelaert

Jeudi 1er juillet :

Classification de textes : la méthode Reinert (9h-12h)
Julien Barnier

Détection automatique de thèmes : le topic model et ses extensions (14h-17h)
Anne Bellon

Vendredi 2 juillet :

Méthodes supervisées : classification, enrichissement de corpus (9h-12h)
Julien Boelaert

Au-delà du « sac de mots » : plongement de mots, transfert d’apprentissage / Introduction au nettoyage de données simples avec openRefine. (14h-17h)
Julien Boelaert

Module nᵒ 2 : Cartographie

Module organisé par Thomas Soubiran et Cécile Rodrigues

Ces dernières décennies ont vu à la fois une production et une diffusion accrues de données géoréférencées, principalement issues du secteur public —IGNF, Insee,…— mais aussi du secteur privé comme des associations ou même des entreprises. De façon concomitante, l'offre logicielle cartographique et, plus généralement, géomatique, s'est elle aussi fortement développée. En plus de fournir des outils pour l'analyse de l'information géographique, ces outils permettent aussi de faciliter leur production par exemple pour le géoréférencement de lieux, d'adresses ou d'evénements.

La disponibilité de données et de logiciels pour produire et traiter l'information géographique offre donc de nouvelles possibilités de visualisation et d'analyses dans de nombreux domaines et les sciences sociales ne font pas exception. Ce module propose donc une introduction à la pratique de la cartographie en utilisant différents logiciels libres. Il s'attachera d'abord à présenter les notions élémentaires de la cartographie comme les systèmes de projection. Dans un second temps, il s'agira de familiariser les stagiaires à la pratique de la manipulation de données géographiques ainsi que leur préparation —nettoyage, géo-encodage— et la complémentarité de différents environnements logiciels —R, QGIS et PostgreSQL—. Seront aussi présentés les sources, outils d'extraction et de gestion des données existantes ainsi que différentes méthodes de visualisation de ces données.

Programme

Lundi 28 juin

Présentation de PROGEDO et de la PUDL (9h-12h)
PUDL

Sources de données géographiques (14h-17h)
Table-ronde

Mardi 29 juin :

Introduction à la cartographie (9h-12h)
Juliette Morel

Introduction à R (14h-17h)
Cécile Rodrigues

Mercredi 30 juin :

Nettoyage de données, géo-encodage (9h-12h)
Kim Antunez et Étienne Côme

Manipulation de données spatiales, présentations cartographiques (14h-17h)
Kim Antunez et Étienne Côme

Jeudi 1er juillet :

Exercices de mise en pratique sur R (9h-12h)

Utilisation d’un logiciel de SIG : QGIS (14h-17h)
Juliette Morel

Vendredi 2 juillet :

Introduction au module PostGIS de PostgreSQL (9h-12h)
Thomas Soubiran

Visualisation dynamique de données spatiales(14h-17h)
Boris Mericskay


Partager sur X Partager sur Facebook