Programme Quantilille 2022

Quantilille
Sciences Po Lille

Les deux modules de cette année sont :

Module no 1 : Pratiques de la recherche quantitative en sciences sociales

Module organisé par Pierre Blavier (CNRS, Clersé), Samuel Coavoux (Orange Labs), Anton Perdoncin (EHESS, Cens) & Thomas Soubiran (CNRS, Ceraps)

Le module Pratiques de la recherche quantitative en sciences sociales : concevoir, manipuler, décrire, inférer vise à développer les compétences de conception et d’implémentation d’une recherche quantitative en sciences sociales en respectant les bonnes pratiques désormais consensuelles en statistiques (transparence, ouverture, réplicabilité) et en stimulant la réflexivité méthodologique.

Il propose une formation introductive aux sciences sociales quantitatives, mais selon des modalités et des objectifs pédagogiques différents de ceux usuellement retenus, en particulier l’insistance sur le test d’hypothèse nulle. Plutôt que de poser d’emblée les questions de représentativité et d’inférence, on abordera d’abord des problèmes pratiques : comment organiser un travail de quantification ? Comment produire des questions quantitatives ? Comment administrer une preuve statistique ouverte ? Comment manipuler et bien décrire des données ?

En outre, le module vise à faire le point sur l’état des réflexions épistémologiques et méthodologiques relatives à la statistique classique et à envisager leurs conséquences sur les pratiques de la recherche quantitative en sciences sociales.

Un volet théorique permettra aux stagiaires de naviguer dans les enjeux principaux du débat statistique actuel (critiques de la p-value et des tests d’inférence, crise du paradigme fréquentiste, questions de réplication et de la science ouverte, protection des données personnelles, distinction entre types d’enquêtes et de données, etc.).

Un volet pratique les formera aux outils les plus performants et les plus prometteurs, qu’il s’agisse de gérer un projet de quantification (organisation de l’espace de travail, conception d’un plan de gestion des données), d’assurer une preuve statistique ouverte, transparente et réplicable ou de faire son choix parmi une sélection de méthodes de description et d’exploration, en particulier graphique, des données.

Au plan informatique, les stagiaires seront formés aux logiciels R et RStudio (y compris la génération de rapports de recherche via RMarkdown), ainsi qu’aux outils de versionnage (par exemple les outils git).

Le module s’adresse aux doctorant·e·s, docteur·e·s et enseignant·e·s-chercheur·euse·s avec un projet de quantification en cours (ou prévu dans un avenir proche). Aucune connaissance technique n’est requise au préalable.

Programme

Lundi 20 juin

Présentation de Progedo et de la PUDL (9h-12h)
PUDL

La quantification comme mode d’investigation (14h-17h)
Anton Perdoncin & Samuel Coavoux

Mardi 21 juin

Concevoir et produire (Ⅰ) (9h-12h)
Anton Perdoncin

Concevoir et produire (Ⅱ) (14h-17h)
Anton Perdoncin

Mercredi 22 juin

Décrire (Ⅰ) (9h-12h)
Samuel Coavoux

Décrire (Ⅱ) (14h-17h)
Samuel Coavoux

Jeudi 23 juin

Inférer (Ⅰ) (9h-12h)
Pierre Blavier

Inférer (Ⅱ) (14h-17h)
Pierre Blavier

Vendredi 24 juin

Interpréter et écrire  (Ⅰ) (9h-12h)
Anton Perdoncin & Pierre Blavier

Interpréter et écrire (Ⅱ) (14h-17h)
Anton Perdoncin & Pierre Blavier

Module no 2 : Machine learning en sciences sociales

Module organisé par  Julien Boelaert & Thomas Soubiran (CNRS, Ceraps)

Le module Machine learning en sciences sociales : classifier, visualiser, prédire propose une introduction aux méthodes d’apprentissage statistique. Nées à la frontière des sciences informatiques, statistiques et de l'ingénierie, ces méthodes ont connu un développement rapide depuis le début des années 1980. Sous les dénominations alternatives ou connexes d’apprentissage automatique, intelligence artificielle, ou data mining, elles désignent un vaste ensemble de méthodes et de pratiques de traitement de données numériques, aux très nombreuses applications techniques, commerciales et scientifiques. Elles offrent en particulier de puissantes alternatives aux méthodes statistiques plus classiques (que ce soit pour la description ou pour l'inférence) sous la forme de modèles flexibles et parcimonieux en hypothèses de départ. Si elles ont connu un grand succès en ingénierie, dans les sciences naturelles, et plus récemment de très nombreuses applications commerciales, elles sont encore peu exploitées en sciences sociales (à l’exception notable des sciences économiques), alors même que leur flexibilité semble les y prédisposer.

L'objectif de ce module est de proposer une introduction au fonctionnement et à l'utilisation de quelques-unes de ces méthodes, en prenant soin de les comparer aux méthodes statistiques couramment utilisés en sciences sociales (analyse géométrique de données, classification hiérarchique, régression linéaire généralisée). Il abordera plusieurs aspects de cette grande famille de méthodes. Parmi les méthodes dites « non supervisées », nous traiterons des méthodes d’exploration de données en grandes dimensions, en particulier la classification (clustering : nuées dynamiques, modèles de mélanges, classes latentes) et la visualisation de données (t-SNE, UMAP, cartes auto-organisatrices). Parmi les méthodes « supervisées », c’est-à-dire aux modèles prédictifs (réseaux de neurones artificiels, modèles d’arbres et de forêts), l'accent sera plus particulièrement mis, en plus de l'utilisation pratique des algorithmes, sur les grandes lignes théoriques et leur articulation au type de question posée.

Pré–requis : une connaissance minimale en statistique (notions relatives à l'ACP et la régression linéaire). Toutes les manipulations seront faites sous R, dont une séance introductive rappellera les rudiments.

Programme

Lundi 20 juin

Présentation de Progedo et de la PUDL (9h-12h)
PUDL

Introduction : familles et utilisations du machine learning  (14h-17h)
Julien Boelaert & Thomas Soubiran

Mardi 21 juin

Classification supervisée et régression : arbres et forêts (9h-12h)
Nicolas Robette

Classification supervisée et régression : Naive Bayes, Support vector machines,  Lasso, réseaux de neurones (14h-17h)
Julien Boelaert & Thomas Soubiran

Mercredi 22 juin

Classification non supervisée : nuées dynamiques, mélanges finis, classes latentes (9h-12h)
Thomas Soubiran

Visualisation et réduction de dimensionnalité : représentations UMAP et t-SNE, cartes de Kohonen (14h-17h)
Julien Boelaert

Jeudi 23 juin

Atelier d’application — méthodes non–supervisées (9h-12h)
Julien Boelaert & Thomas Soubiran

Atelier d’application — méthodes supervisées (14h-17h)
Julien Boelaert & Thomas Soubiran

Vendredi 24 juin

Analyse textuelle : méthode Reinert et topic modelling (9h-12h)
Anne Bellon

Analyse textuelle : modèles neuronaux, transfert d’apprentissage, enrichissement de corpus (14h-17h)
Julien Boelaert


Partager sur X Partager sur Facebook