Programme Quantilille 2022
QuantililleLes deux modules de cette année sont :
- Pratiques de la recherche quantitative en sciences sociales : concevoir, manipuler, décrire, inférer organisé par Pierre Blavier, Samuel Coavoux, Anton Perdoncin & Thomas Soubiran
- Machine learning en sciences sociales : classifier, visualiser, prédire organisé par Julien Boelaert & Thomas Soubiran
Module no 1 : Pratiques de la recherche quantitative en sciences sociales
Module organisé par Pierre Blavier (CNRS, Clersé), Samuel Coavoux (Orange Labs), Anton Perdoncin (EHESS, Cens) & Thomas Soubiran (CNRS, Ceraps)
Le module Pratiques de la recherche quantitative en sciences sociales : concevoir, manipuler, décrire, inférer vise à développer les compétences de conception et d’implémentation d’une recherche quantitative en sciences sociales en respectant les bonnes pratiques désormais consensuelles en statistiques (transparence, ouverture, réplicabilité) et en stimulant la réflexivité méthodologique.
Il propose une formation introductive aux sciences sociales quantitatives, mais selon des modalités et des objectifs pédagogiques différents de ceux usuellement retenus, en particulier l’insistance sur le test d’hypothèse nulle. Plutôt que de poser d’emblée les questions de représentativité et d’inférence, on abordera d’abord des problèmes pratiques : comment organiser un travail de quantification ? Comment produire des questions quantitatives ? Comment administrer une preuve statistique ouverte ? Comment manipuler et bien décrire des données ?
En outre, le module vise à faire le point sur l’état des réflexions épistémologiques et méthodologiques relatives à la statistique classique et à envisager leurs conséquences sur les pratiques de la recherche quantitative en sciences sociales.
Un volet théorique permettra aux stagiaires de naviguer dans les enjeux principaux du débat statistique actuel (critiques de la p-value et des tests d’inférence, crise du paradigme fréquentiste, questions de réplication et de la science ouverte, protection des données personnelles, distinction entre types d’enquêtes et de données, etc.).
Un volet pratique les formera aux outils les plus performants et les plus prometteurs, qu’il s’agisse de gérer un projet de quantification (organisation de l’espace de travail, conception d’un plan de gestion des données), d’assurer une preuve statistique ouverte, transparente et réplicable ou de faire son choix parmi une sélection de méthodes de description et d’exploration, en particulier graphique, des données.
Au plan informatique, les stagiaires seront formés aux logiciels R et RStudio (y compris la génération de rapports de recherche via RMarkdown), ainsi qu’aux outils de versionnage (par exemple les outils git).
Le module s’adresse aux doctorant·e·s, docteur·e·s et enseignant·e·s-chercheur·euse·s avec un projet de quantification en cours (ou prévu dans un avenir proche). Aucune connaissance technique n’est requise au préalable.
Programme
Lundi 20 juin
Présentation de Progedo et de la PUDL (9h-12h)
PUDL
La quantification comme mode d’investigation (14h-17h)
Anton Perdoncin & Samuel Coavoux
Mardi 21 juin
Concevoir et produire (Ⅰ) (9h-12h)
Anton Perdoncin
Concevoir et produire (Ⅱ) (14h-17h)
Anton Perdoncin
Mercredi 22 juin
Décrire (Ⅰ) (9h-12h)
Samuel Coavoux
Décrire (Ⅱ) (14h-17h)
Samuel Coavoux
Jeudi 23 juin
Inférer (Ⅰ) (9h-12h)
Pierre Blavier
Inférer (Ⅱ) (14h-17h)
Pierre Blavier
Vendredi 24 juin
Interpréter et écrire (Ⅰ) (9h-12h)
Anton Perdoncin & Pierre Blavier
Interpréter et écrire (Ⅱ) (14h-17h)
Anton Perdoncin & Pierre Blavier
Module no 2 : Machine learning en sciences sociales
Module organisé par Julien Boelaert & Thomas Soubiran (CNRS, Ceraps)
Le module Machine learning en sciences sociales : classifier, visualiser, prédire propose une introduction aux méthodes d’apprentissage statistique. Nées à la frontière des sciences informatiques, statistiques et de l'ingénierie, ces méthodes ont connu un développement rapide depuis le début des années 1980. Sous les dénominations alternatives ou connexes d’apprentissage automatique, intelligence artificielle, ou data mining, elles désignent un vaste ensemble de méthodes et de pratiques de traitement de données numériques, aux très nombreuses applications techniques, commerciales et scientifiques. Elles offrent en particulier de puissantes alternatives aux méthodes statistiques plus classiques (que ce soit pour la description ou pour l'inférence) sous la forme de modèles flexibles et parcimonieux en hypothèses de départ. Si elles ont connu un grand succès en ingénierie, dans les sciences naturelles, et plus récemment de très nombreuses applications commerciales, elles sont encore peu exploitées en sciences sociales (à l’exception notable des sciences économiques), alors même que leur flexibilité semble les y prédisposer.
L'objectif de ce module est de proposer une introduction au fonctionnement et à l'utilisation de quelques-unes de ces méthodes, en prenant soin de les comparer aux méthodes statistiques couramment utilisés en sciences sociales (analyse géométrique de données, classification hiérarchique, régression linéaire généralisée). Il abordera plusieurs aspects de cette grande famille de méthodes. Parmi les méthodes dites « non supervisées », nous traiterons des méthodes d’exploration de données en grandes dimensions, en particulier la classification (clustering : nuées dynamiques, modèles de mélanges, classes latentes) et la visualisation de données (t-SNE, UMAP, cartes auto-organisatrices). Parmi les méthodes « supervisées », c’est-à-dire aux modèles prédictifs (réseaux de neurones artificiels, modèles d’arbres et de forêts), l'accent sera plus particulièrement mis, en plus de l'utilisation pratique des algorithmes, sur les grandes lignes théoriques et leur articulation au type de question posée.
Pré–requis : une connaissance minimale en statistique (notions relatives à l'ACP et la régression linéaire). Toutes les manipulations seront faites sous R, dont une séance introductive rappellera les rudiments.
Programme
Lundi 20 juin
Présentation de Progedo et de la PUDL (9h-12h)
PUDL
Introduction : familles et utilisations du machine learning (14h-17h)
Julien Boelaert & Thomas Soubiran
Mardi 21 juin
Classification supervisée et régression : arbres et forêts (9h-12h)
Nicolas Robette
Classification supervisée et régression : Naive Bayes, Support vector machines, Lasso, réseaux de neurones (14h-17h)
Julien Boelaert & Thomas Soubiran
Mercredi 22 juin
Classification non supervisée : nuées dynamiques, mélanges finis, classes latentes (9h-12h)
Thomas Soubiran
Visualisation et réduction de dimensionnalité : représentations UMAP et t-SNE, cartes de Kohonen (14h-17h)
Julien Boelaert
Jeudi 23 juin
Atelier d’application — méthodes non–supervisées (9h-12h)
Julien Boelaert & Thomas Soubiran
Atelier d’application — méthodes supervisées (14h-17h)
Julien Boelaert & Thomas Soubiran
Vendredi 24 juin
Analyse textuelle : méthode Reinert et topic modelling (9h-12h)
Anne Bellon
Analyse textuelle : modèles neuronaux, transfert d’apprentissage, enrichissement de corpus (14h-17h)
Julien Boelaert
Partager sur X Partager sur Facebook