Éducation aux données ou enseignement des données :
quelles humanités numériques au lycée ?
Béatrice Drot-Delange, Françoise Tort
Résumé
Les données sont au cœur de notre société numérique. Leur importance accrue amène à penser qu'une éducation aux données est indispensable. Celle-ci peut être considérée comme un des piliers d'une éducation aux humanités numériques. Les programmes d'enseignement des sciences numériques et technologie (SNT) en classe de seconde générale et technologique en France prescrivent un enseignement des données. Nous cherchons à savoir de quelle manière il contribue à cette éducation aux données. Nous menons une analyse du programme et des manuels scolaires de SNT à l'aune d'une modélisation des attendus de l'éducation aux données proposée par des didacticiens de l'informatique. Nos résultats montrent que l'entrée disciplinaire de l'enseignement de SNT a un apport limité à l'éducation aux données, notamment dans ses dimensions analytiques et critiques.
Mots-clés : enseignement, informatique, programme d'enseignement, littératie numérique, visualisation de données
Introduction
Les données, ouvertes, personnelles ou massives sont au cœur de notre société numérique. Leur importance accrue fait dire à certains que les individus qui seront capables de les créer, de les contrôler et de les comprendre auront le pouvoir d'agir et qu'à l'inverse ceux qui n'auront pas ces compétences verront se réduire leurs possibilités de participer pleinement à la société (Frank et Walker 2016). Comme le souligne Anne Lehmans (2018), les données ouvertes et leur valorisation constituent un élément des communs de la connaissance. Ces évolutions de la société numérique amènent à considérer comme indispensable le développement d'une éducation aux données ou d'une littératie des données.
Ce champ d'une littératie des données est relativement récent et sa définition n'est pas complètement stabilisée. David Crusoe (2016, 38) en propose une qui synthétise les différentes facettes de la littératie des données repérées dans la littérature et qu'il juge essentielles dans cette éducation : « Data literacy is the knowledge of what data are, how they are collected, analyzed, visualized and shared, and is the understanding of how data are applied for benefit or detriment, within the cultural context of security and privacy ».
Cette définition intègre notamment la connaissance de l'étendue de l'ensemble des phénomènes ou objets que l'on peut décrire par des données, des différentes méthodes de collecte, des analyses statistiques et des représentations visuelles, au-delà des graphiques canoniques, des différents modèles de partage, en prenant en compte les contextes réglementaires s'appliquant à la protection des données, leur sécurité et leur confidentialité.
Éduquer aux données en prenant en charge ces facettes rencontre l'analyse menée par Georges-Louis Baron (2020) des différentes dimensions du fait numérique dans l'enseignement scolaire en France, reposant tout à la fois sur la science informatique, une culture technique et une culture citoyenne. Nous considérons que cette éducation aux données contribuerait à une initiation aux humanités numériques appliquées (Piotrowski et Xanthos 2020). En effet, la collecte et l'analyse des données sont, selon Serge Abiteboul et Florence Hachez-Leroy (2015), les plus anciennes facettes des humanités numériques avec le travail mené par le père Busa en 1949 d'indexation de l'ensemble des œuvres de saint Thomas d'Aquin avec l'aide de la compagnie IBM (Schreibman, Siemens et Unsworth 2004).
Cela étant, l'éducation aux données n'est pas une entrée des programmes scolaires en France. Cependant, on peut se demander si l'enseignement d'informatique introduit depuis 2015 répond à ce besoin.
Dans un premier temps, de 2015 à 2018, un enseignement optionnel « informatique et création numérique » (ICN) a été proposé aux élèves de lycée en classe de seconde (MENJS 2015), puis en 2016 aux élèves en classe de première des filières générales et, en 2017, en terminale (à l'exception de la filière scientifique). Le préambule du programme indiquait qu'« il vise à leur [les élèves] faire appréhender l'importance de l'informatique aussi bien dans les sciences que dans les lettres, les langues, les arts, les sciences humaines et sociales » (MENJS 2016). On peut ainsi considérer que cet enseignement s'inscrivait dans le champ des humanités numériques. La lecture des éléments suivants du préambule conforte cette appréciation :
En sciences humaines et sociales, l'informatique offre des méthodes et des outils de plus en plus sophistiqués pour l'interrogation de corpus d'information (textuels, audio, vidéo, cartographiques, etc.), pour l'analyse quantitative de données (données publiques, enquêtes, etc.) et pour la modélisation. De la collecte et du chiffrage de données brutes au traitement puis à la représentation des données, c'est un ensemble d'opérations plus ou moins complexes qui sont aujourd'hui instrumentées ou automatisées. Face à l'accroissement considérable des volumes de données, les représentations visuelles, parfois interactives (graphiques, diagrammes, cartogrammes, etc.) permettent de mieux appréhender ces données et d'en percevoir les enjeux (MENJS 2016).
Dans un second temps, à partir de 2019, ces enseignements optionnels ont été remplacés par un enseignement obligatoire en classe de seconde générale et technologique intitulé « sciences numériques et technologie » (SNT) et par des enseignements de spécialité en classes de première et de terminale, intitulés « numérique et sciences de l'informatique » (NSI). Dès la classe de seconde, ces enseignements sont davantage ancrés dans l'apprentissage de la science informatique que ne l'était l'ICN. Christelle Mariais et al. (2019, 7) précisent ainsi qu'« à la différence de l'ICN, c'est un enseignement avec un programme bien défini, et donc une obligation d'enseigner des notions spécifiées et de transmettre un savoir-faire en programmation de niveau débutant dans un langage de programmation précis. Le niveau théorique est du même ordre qu'en ICN, c'est le niveau d'exigence qui est augmenté ».
Cette recherche participe des travaux menés par le GIS 2IF (Innovation, interdisciplinarité et form (...)
La question que nous posons dans cet article est celle de savoir si l'enseignement de SNT peut constituer les prémices d'une éducation aux données et, par là, aux humanités numériques. Pour répondre à cette question, nous mobiliserons un modèle des compétences en éducation aux données, puis nous analyserons, à l'aide du modèle retenu, les activités prescrites par le programme de SNT et leur traduction dans les manuels scolaires. Enfin, nous discuterons des résultats obtenus [1].
Modéliser les compétences en éducation aux données
Identifier les compétences et connaissances d'une éducation aux données est un travail mené par de nombreux chercheurs.
Chantel Ridsdale et al. (2015) considèrent qu'être éduqué aux données est une nécessité pour le citoyen du xxie siècle. Les auteurs cherchent à déterminer quelles sont les compétences, les aptitudes et les capacités à développer chez les étudiants. Pour cela, ils mènent une revue systématique de la littérature sur l'éducation aux données, sur une période de 2000 à 2015. Elle inclut, outre des articles scientifiques, la littérature grise, des livres blancs, des rapports et des politiques gouvernementales. Elle porte également sur les pratiques d'enseignement en premier cycle.
À partir de cet état de l'art, les auteurs élaborent une définition de l'éducation aux données, synthétisant la douzaine de définitions rencontrées dans le corpus constitué, comme étant « la capacité de collecter, gérer, évaluer et utiliser des données de manière critique » (« the ability to collect, manage, evaluate, and apply data, in a critical manner ») (Risdale et al. 2015, 2). L'analyse thématique des articles du corpus, validés par les pairs, les amène à identifier 5 domaines et 23 compétences (tableau 1). Les auteurs intègrent dans leur matrice les connaissances associées à chacune des compétences ainsi que des tâches typiques, que nous ne reprenons pas ici (tableau 1).
Tableau 1. Matrice des compétences d'une éducation aux données.
Domaine de connaissances |
Compétences |
Cadre conceptuel |
– Introduction aux données |
Collecte des données |
– Découvrir et collecter des données
– Évaluer et s'assurer de la qualité des données et des sources (fiabilité, cohérence, etc.) |
Gestion des données |
– Organiser les données (méthodes, outils, etc.)
– Manipuler les données
– Convertir des données d'un format à un autre
– Créer et utiliser des métadonnées
– Conserver des données, sécuriser et réutiliser des données
– Archiver des données |
Évaluation des données |
– Utiliser des outils d'analyse des données
– Analyser des données
– Interpréter (comprendre) des données (lire des graphiques, des tableaux, etc.)
– Identifier des problèmes en utilisant des données
– Visualiser des données
– Présenter oralement des données
– Prendre des décisions basées sur des données |
Application des données |
– Mettre en œuvre une pensée critique
– Développer une culture des données (reconnaître leur importance, etc.)
– Développer une éthique des données
– Citer des données
– Partager des données
– Évaluer des décisions en fonction des données |
D'après Ridsdale et al. (2015).
Les travaux de Ridsdale et al. visent d'abord à faire des propositions de curricula dans l'enseignement supérieur pour former les étudiants canadiens à des compétences estimées nécessaires pour leur insertion professionnelle. Malgré tout l'intérêt de cette matrice, elle n'a pas été conçue pour le secondaire. Elle n'a pas été non plus validée avec des enseignants. Elle ne s'inscrit pas dans une démarche didactique de sélection et d'organisation des connaissances au sein d'un curriculum. Compte tenu de notre objectif d'étudier de quelle manière l'enseignement de SNT au lycée contribue ou non à l'éducation aux données, nous privilégierons le modèle proposé par Andreas Grillenberger et Ralf Romeike.
Ces auteurs travaillent depuis plusieurs années à l'élaboration d'une modélisation des compétences dans le champ de l'éducation aux données. Ils se proposent d'identifier les idées fondamentales dans ce champ, suivant en cela d'autres didacticiens de l'informatique (Delmas-Rigoutsos 2018 ; Hartmann, Näf et Reichert 2012). Leur modèle (Grillenberger et Romeike 2018) a d'abord été élaboré à partir de ce qu'ils considèrent comme le versant statique des données – la gestion des données – historiquement ancré dans l'informatique avec les bases de données. Le modèle intègre désormais toutes les dimensions d'un travail avec et sur les données, notamment son versant dynamique – les sciences des données – avec les activités emblématiques d'analyse et de visualisation.
Leur modèle distingue, d'une part, les contenus, autrement dit les concepts scientifiques sous-jacents à l'éducation aux données, et d'autre part, les processus, autrement dit les pratiques avec et sur les données, basées sur le cycle de vie des données (Grillenberger et Romeike 2018). Cette distinction nous paraît heuristique pour penser l'éducation aux données et clarifie la matrice présentée par C. Ridsdale et al. (2015) en la simplifiant.
Les concepts relèvent principalement de l'informatique. Ils sont regroupés en quatre domaines. Le premier (C1) concerne les concepts de base, tels que la distinction entre donnée et information ou la représentation numérique de l'information. Le deuxième (C2) recouvre les concepts relevant du stockage et de l'accès aux données, et aborde la duplication ou la synchronisation des données. Le troisième (C3) se focalise sur les méthodes, algorithmes et principes nécessaires à l'analyse des données. Enfin, le quatrième (C4) inclut les questions d'éthique, de sécurité et de confidentialité des données.
Quant aux pratiques, elles sont définies en référence au cycle de vie des données. Elles couvrent, selon les auteurs du modèle, l'ensemble des pratiques généralement mentionnées dans les définitions de l'éducation aux données : acquisition, nettoyage, modélisation, implémentation, optimisation, analyse, visualisation, évaluation, partage, suppression ou archivage. Le cycle de vie ainsi défini n'étant pas facilement utilisable en contexte scolaire, les auteurs l'ont adapté en identifiant, avec des enseignants et des chercheurs, les phases utiles lors de la mise en œuvre d'une leçon concernant l'éducation aux données. Dans leur modèle, les processus sont regroupés en quatre phases : « Collecter, modéliser et nettoyer » (P1), « Implémenter et optimiser » (P2), « Analyser, visualiser et interpréter » (P3) et « Partager, archiver et effacer » (P4).
On le voit, l'adaptation a surtout consisté en un regroupement de certaines étapes (comme l'implémentation et l'optimisation). Le groupe de travail a souhaité mettre en avant la phase d'« interprétation » des données, initialement considérée par les auteurs comme partie intégrante de l'analyse des résultats.
Le modèle proposé combine ces deux dimensions (concepts et processus) sous forme d'une matrice permettant d'identifier précisément les compétences à l'intersection de chacune de ces deux dimensions. Ces auteurs montrent qu'il peut être utilisé pour concevoir une leçon et des activités sur l'éducation aux données (Grillenberger et Romeike 2018).
Chacun des processus est défini par les questions auxquelles il doit permettre de répondre. Nous reprenons quelques exemples de ces questions, sans souci d'exhaustivité, en indiquant à quels champs conceptuels elles renvoient.
Le domaine du processus P1 recouvre les capacités à répondre aux questions suivantes : quelles caractéristiques du système à modéliser doit-on collecter en tant que données (C1) ? Comment peut-on les collecter (C2) ? Comment stocker ces données de manière à pouvoir les utiliser plus tard ? Les données collectées sont-elles utiles à l'atteinte des objectifs visés (C3) ? Comment peut-on pratiquement assurer la sécurité des données collectées (C4) ?
Le domaine du processus P2 permet de répondre aux questions suivantes : comment peut-on pratiquement réaliser la collecte (C1), le stockage (C2) et l'analyse des données (C3) ? Comment peut-on améliorer ce qui a déjà été réalisé ? Parmi les données, lesquelles sont personnelles, comment les anonymiser (C4) ?
Le domaine du processus P3 concerne les questions suivantes : quelles informations peut-on extraire des données (C1) ? Quel format de données utiliser pour permettre l'analyse (C2) ? Comment peut-on aider les personnes à saisir rapidement l'essentiel (C3) ? Quelle(s) conclusion(s) peut-on tirer des résultats de l'analyse (C3) ? Les résultats de l'analyse sont-ils suffisamment anonymisés (C4) ?
Enfin, le domaine du processus P4 pose les questions suivantes : quelles sont les données que l'on souhaite partager (C1) et avec qui (C2) ? Quels sont les résultats des analyses que l'on souhaite partager et avec qui (C3) ? Quelles sont les données que l'on souhaite archiver et comment ? Comment peut-on supprimer des données de manière appropriée (C4) ?
La connaissance du cycle de vie des données serait utile aux enseignants selon A. Grillenberger (2019). Elle leur permettrait d'orienter et de prioriser leur enseignement, en ayant conscience de l'ensemble de ces étapes, même si les activités qu'ils proposent ne les couvrent pas toutes. Sa représentation circulaire indique également qu'il n'est pas obligatoire de commencer par l'acquisition des données, mais que les activités peuvent débuter à une autre étape de ce cycle de vie.
Méthodologie et corpus
Afin d'étudier en quoi l'entrée disciplinaire proposée en SNT constituerait les prémices d'une éducation aux données, nous avons analysé le programme officiel et six manuels scolaires. Le programme officiel constitue le texte prescripteur auquel se réfèrent tous les enseignants. Quant aux manuels scolaires, ils offrent une intermédiation entre programmes scolaires et utilisateurs (enseignants et élèves) en proposant une interprétation des contenus et contours du programme officiel. Les manuels contribuent à l'instrumentation des pratiques enseignantes et sont d'autant plus utilisés que l'expertise des enseignants est moins affirmée. Ils deviennent une source de formation (Bruillard 2005) lorsque la discipline est nouvelle et que le concours de recrutement des enseignants et les formations initiales viennent d'être créés. Ces documents constituent un corpus intéressant pour approcher le curriculum potentiel, autrement dit le curriculum dans lequel les enseignants peuvent se projeter avec leurs élèves et dans leurs conditions de travail (Magneron 2005).
Le travail d'analyse a consisté, tout d'abord, à repérer systématiquement les activités préconisées ou proposées dans les documents et à les caractériser par les concepts et les pratiques de l'éducation aux données issus de la modélisation de A. Grillenberger et R. Romeike (2018). Cette classification a priori a permis de construire une représentation de la couverture de l'éducation aux données par chaque texte du corpus. Cela a mis en évidence les compétences peu ou pas abordées, révélant la distance entre l'entrée disciplinaire adoptée et une éducation aux données.
Concernant ces compétences, il est apparu nécessaire d'en affiner l'analyse. En effet, les activités se sont révélées très variables d'un manuel à l'autre, dans leur nature, leur durée, les outils utilisés, etc. Nous avons donc réalisé une analyse thématique visant à caractériser la nature et les supports des activités proposées aux élèves par les manuels. L'enseignement de SNT est un enseignement de culture générale, qui a pour objet d'éclairer les élèves sur les technologies qu'ils utilisent quotidiennement et les usages qu'ils en font. Cet ancrage dans les usages est vu comme le garant de l'intérêt éducatif des contenus enseignés. Des modèles en didactique de l'informatique proposent de mettre au centre de l'enseignement les faits ou phénomènes informatiques vus comme des occurrences réelles de l'informatique dans le monde (Humbert et Puhlmann 2004 ; Diethelm, Hubwieser et Klaus 2012 ; Grillenberger et Romeike 2015). Notre analyse des manuels de SNT sous l'angle de l'éducation aux données intègre la manière dont les auteurs de manuels se saisissent ou non de cette injonction à ancrer l'étude des phénomènes informatiques dans la vie quotidienne des élèves. Les thèmes et catégories suivants ont émergé de cette analyse.
La nature de l'activité, avec les catégories : résolution de problème, travail pratique sur ordinateur, exploitation de document ou recherche d'information, activité débranchée de découverte et manipulation d'une notion. Les activités dites débranchées ne font pas appel à du matériel informatique et peuvent être réalisées à l'écrit ou à l'oral.
Le degré de guidage. Il s'agit de caractériser le degré d'accompagnement de l'énoncé dans la réalisation de l'activité : depuis un problème ouvert sans explication des tâches à réaliser jusqu'à une activité guidée pas à pas par un découpage en séquences de tâches à effectuer.
Le jeu de données. Deux thèmes de caractérisation ont été utilisés. Le premier distingue les jeux réels (souvent issus de l'open data) et les jeux fictifs construits par les auteurs du manuel. Le second correspond au domaine dont relèvent les données : géographie, économie, finance, science, technologie, loisirs, etc.
Les outils et logiciels utilisés. Il s'agit de repérer les logiciels, langages, outils utilisés dans les activités ou présentés dans le cours.
Les résultats de cette analyse sont décrits dans les sections suivantes.
L'éducation aux données dans le programme de l'enseignement des « sciences numériques et technologie » (SNT)
Le programme de SNT a été publié en janvier 2019 (MENJS 2019). Il comporte 19 pages. Son préambule affirme son approche disciplinaire de la science informatique et précise que « cet enseignement s'inscrit dans le prolongement de l'enseignement d'algorithmique, d'informatique et de programmation dispensé au collège en mathématique et en technologie ». Le préambule mentionne également l'importance centrale des données et leur impact sur les pratiques humaines : « La numérisation généralisée des données, les nouvelles modalités de traitement ou de stockage et le développement récent d'algorithmes permettant de traiter de très grands volumes de données numériques constituent une réelle rupture dans la diffusion des technologies de l'information et de la communication. Cette révolution multiplie les impacts majeurs sur les pratiques humaines ».
Le programme comporte sept thèmes, dont le thème 4 intitulé « les données structurées et leur traitement ». Pour chaque thème, est précisé l'impact sur les pratiques humaines. Pour le thème 4, il s'agit de la surabondance de données et du développement d'algorithmes pour les exploiter, notamment dans les domaines des sciences, de la santé ou de l'économie. Les questions de surveillance de masse ou des données personnelles sont mentionnées. Enfin, sont également mentionnées les données ouvertes, comme bien commun, versus le marché des données et la réglementation protégeant les usagers. Le tableau 2 présente l'extrait du programme détaillant les contenus de ce thème et les capacités attendues. La dernière colonne affiche le codage que nous avons réalisé en appliquant la matrice de A. Grillenberger et R. Romeike.
Tableau 2. Codage des contenus du thème « Les données structurées et leur traitement »
du programme de SNT et capacités attendues.
Contenus |
Capacités attendues |
Codage |
Données |
Définir une donnée personnelle
Identifier les principaux formats et représentations de données |
C1P1 |
Données structurées |
Identifier les différents descripteurs d'un objet. Distinguer la valeur d'une donnée de son descripteur
Utiliser un site de données ouvertes pour sélectionner et récupérer des données |
C1P1 |
Traitement de données structurées |
Réaliser des opérations de recherche, filtre, tri ou calcul sur une ou plusieurs tables |
C3P3 |
Métadonnées |
Retrouver les métadonnées d'un fichier personnel |
C1P1 |
Données dans le nuage (cloud) |
Utiliser un support de stockage dans le nuage
Partager des fichiers, paramétrer des modes de synchronisation
Identifier les principales causes de la consommation énergétique des centres de données ainsi que leur ordre de grandeur |
C2P1
C2P4 |
Exemples d'activités |
Consulter les métadonnées de fichiers correspondant à des informations différentes et repérer celles collectées par un dispositif et celles renseignées par l'utilisateur
Télécharger des données ouvertes (sous forme d'un fichier au format CSV avec les métadonnées associées), observer les différences de traitements possibles selon le logiciel choisi pour lire le fichier : programme Python, tableur, éditeur de textes ou encore outils spécialisés en ligne |
C1P1
C2P1 |
Explorer les données d'un fichier CSV à l'aide d'opérations de tri et de filtre, effectuer des calculs sur ces données, réaliser une visualisation graphique des données |
C3P2 |
À partir de deux tables de données ayant en commun un descripteur, montrer l'intérêt des deux tables pour éviter les redondances et les anomalies d'insertion et de suppression, réaliser un croisement des données permettant d'obtenir une nouvelle information |
C3P3 |
Illustrer, par des exemples simples, la consommation énergétique induite par le traitement et le stockage des données |
C1P3 |
MENJS 2019.
Sans trop de surprise pour un enseignement disciplinaire proposé à l'ensemble des élèves de seconde, le programme de SNT permet de découvrir ce que sont les données et les informations (C1) et amène les élèves à découvrir toutes les pratiques liées aux données structurées : collecte, implémentation, traitement et partage. Les élèves abordent quelques pratiques liées au stockage des données, comme les formats de fichiers, les métadonnées de description (C2P1). Ils réalisent certains traitements sur les données (trier, filtrer, calculer) pour les analyser (C3P3), avec un accent sur leur réalisation pratique et une sensibilisation à l'influence des outils et techniques employés pour lire les fichiers sur l'optimisation des traitements possibles des données (C3P2). Ils sont initiés au partage de données par une mise en pratique technique du partage de fichiers et l'utilisation de données libres (C2P4). Le tableau 3 propose une représentation synthétique de cette analyse.
Tableau 3. Compétences relevant de l'éducation aux données dans le programme de SNT
Zoom Original (png, 108k)
On observe que le programme laisse peu de place à l'analyse et l'interprétation des données (C3 et P3). Il ne prévoit pas explicitement d'aborder la manière dont sont collectées les données, notamment celles proposées sur les sites de données ouvertes. On pourrait en effet être critique sur les données mises à disposition du public, s'interroger sur les traitements qu'elles ont pu subir avant leur publication ou bien encore sur les données manquantes. La visualisation apparaît dans l'une des activités proposées en exemple mais n'est pas présente dans les compétences et connaissances visées. Le programme prévoit la connaissance de la définition de la donnée personnelle mais les questions sociétales, juridiques ou informatiques, concernant par exemple leur confidentialité ou sécurisation, ne sont pas mentionnées explicitement (C4).
Les activités proposées par les manuels de SNT
L'analyse a porté sur les six manuels scolaires, constituant la totalité de l'offre éditoriale émanant des éditeurs scolaires historiques lors de la rentrée 2019. Pour chaque manuel, nous avons étudié le chapitre correspondant au thème 4 du programme « les données structurées et leur traitement ». Dans la suite du texte, ces manuels sont désignés par les lettres a à f.
Quelles compétences associées en éducation aux données ?
La caractérisation des activités dans les manuels à l'aide des concepts et pratiques de la matrice de A. Grillenberger et R. Romeike présente des différences fortes entre les manuels. Le tableau 4 propose une visualisation synthétique pour les six manuels.
Tableau 4. Compétences d'éducation aux données dans chacun des manuels de SNT analysés
Zoom Original (png, 47k).
Concernant la collecte, la modélisation et le nettoyage des données (P1), la plupart des activités proposent aux élèves de travailler avec un fichier de données qui leur est fourni ou de télécharger un fichier de données depuis un site de données ouvertes. Un seul manuel (f) comporte une activité qui utilise le téléphone portable comme appareil de collecte de données d'un phénomène physique. Trois manuels (a, d et e) présentent une activité où les élèves sont amenés à « nettoyer » le fichier des données inutiles pour le problème traité. Deux manuels (c et f) demandent aux élèves de modéliser par eux-mêmes des informations (l'emploi du temps de la classe ou des objets réels, comme des manettes de jeux). Bien que ce processus soit le plus couvert par les manuels, l'élève est assez peu souvent placé en situation de faire des choix concernant la modélisation des données ou d'expérimenter des moyens de collecte des données.
Concernant l'implémentation et l'optimisation (P2), ce processus n'est abordé que par la moitié des manuels étudiés. Trois manuels (a, c et d) proposent aux élèves d'écrire un algorithme permettant l'analyse de données. On peut relever que la notion d'algorithme ne figure pas explicitement dans les programmes mais que des activités de programmation sont requises. Un manuel (c) demande aux élèves de se prononcer sur le choix de structurations différentes de données selon des critères d'efficacité d'accès aux données et de redondance des données.
Concernant l'analyse, la visualisation et l'interprétation des données (P3), on peut noter que les activités sont assez pauvres dans ces domaines. Il s'agit le plus souvent de lire une donnée, de la mettre en relation avec une autre pour produire une nouvelle information. Un manuel (b) ne comporte aucune activité de visualisation. Dans les autres manuels, les visualisations attendues correspondent à des représentations graphiques classiques (courbes, histogramme ou radar par exemple), il n'est jamais demandé de choisir une visualisation ou d'en faire une analyse critique.
Concernant le partage, l'archivage et la suppression des données (P4), deux manuels (c et d) proposent de partager un espace de stockage et de réfléchir aux paramétrages de partage. Un manuel (d) suggère de comparer les offres sur le marché concernant le stockage. Les autres manuels n'abordent pas ce processus dans leurs activités. La plupart des manuels font explorer aux élèves des données ouvertes. Ils sont alors en position d'utilisateurs de ces données et n'ont pas à partager, stocker ou supprimer des données.
On observe qu'au travers des activités, les manuels n'offrent pas la même couverture des compétences relevant de l'éducation aux données et que ces compétences diffèrent de celles relevées dans le programme. Quand ils abordent moins de compétences que le programme, ils délaissent les pratiques d'implémentation et d'optimisation et les pratiques de partage et d'archivage. Quand ils vont au-delà, les manuels sensibilisent les élèves au processus de collecte, de modélisation et de nettoyage.
De fait, les activités proposées dans les manuels sont très variées quant à leur nature, leur durée, les supports et les outils qu'elles demandent de mobiliser. Observer plus finement leurs caractéristiques nous permet de mieux apprécier la déclinaison de l'éducation aux données dans le contexte disciplinaire de SNT.
Quelles activités scolaires pour initier aux données ?
Les manuels proposent des activités à réaliser en classe, sous l'encadrement de l'enseignant. Elles sont classées en trois catégories : découverte, application, approfondissement. Cependant, elles sont de format et de nature très variés : exploitation de documents pour répondre à une question, activité débranchée de découverte et conception d'algorithmes, activité débranchée de manipulation de tables de données, activité sur ordinateur pas à pas de manipulation d'un jeu de données. Nous donnons trois exemples d'activité et leur analyse dans le tableau 5.
Tableau 5. Exemples d'activités proposées dans les manuels avec le codage associé.
Exemples d'activité |
Codage et analyse |
Exemple 1 : manuel b
L'énoncé explique que la structure des tables de données permet de rechercher facilement des objets et qu'il est possible de recouper deux tables.
Deux tables présentent des données sur des recettes de cuisine. L'une avec les descripteurs : recette, type, temps de préparation, et l'autre avec : gluten, œufs, recette. Chacune comporte 5 lignes.
Deux questions sont posées : quels sont les plats rapides à préparer ? Quelle recette choisir pour faire un dessert sans œuf, sans gluten et rapide à préparer ? |
Compétence : combiner les données pour obtenir une nouvelle information, qui relève de la connaissance des données et informations (C1) et de la mise en œuvre d'un processus d'analyse (P3)
Nature : résolution de problème, car l'élève doit mettre en œuvre une méthode non explicitée pour répondre aux questions.
Guidage : faible, par questionnement
Jeu de données : loisir
Outil et logiciel : aucun, activité débranchée |
Exemple 2 : manuel a
L'énoncé explique que le jeu de données utilisé stocke trois indices de qualité de l'air des communes d'Île-de-France en 2017, avec 5 colonnes (la date, le code INSEE de la commune et les 3 indices) et plusieurs centaines de milliers de lignes. Un script Python est proposé qui affiche la moyenne de l'un des indices pour la commune de Saint-Denis.
Une suite d'instructions décrit le travail à réaliser : 1) déposer le fichier dans un dossier ; 2) exécuter le programme et noter le résultat obtenu ; 3) modifier le programme pour calculer les moyennes annuelles d'un autre indice ; 4) modifier le programme pour traiter une autre commune. |
Compétence : l'analyse des données (C3) et un processus d'implémentation par la modification d'un programme de traitement (P2)
Nature : travail pratique sur ordinateur
Guidage : fort, instructions procédurales
Jeu de données : science physique
Outil et logiciel : script Python |
Exemple 3 : manuel d
Un exercice propose de télécharger depuis le site d'open data data.gouv.fr, la base de données sur la fréquentation des salles de cinéma.
Une série d'instructions suit : 1) consulter les métadonnées pour déterminer qui est l'auteur du jeu de données ; 2) ouvrir le fichier avec un tableur et ôter certaines lignes ; 3) avec le filtre, déterminer quelles sont les 3 meilleures années ; 4) calculer le nombre moyen d'entrées avant 1970 et après 1970 et interpréter la différence entre les deux valeurs. |
Compétence : une réflexion sur l'origine des données (C1) et la mise en œuvre d'un nettoyage (P1) ; une analyse des données (C3) et la mise en œuvre de calculs et de l'interprétation du résultat (P3)
Nature : travail pratique sur ordinateur
Guidage : mixte, instructions procédurales et questionnement
Jeu de données : loisir
Outil et logiciel : tableur |
Un manuel (b) ne propose que des activités débranchées, c'est-à-dire sans utilisation d'un ordinateur. Elles consistent soit en des exploitations de courts textes sur une notion ou un thème, soit en des exercices de manipulation de tables de données (voir l'exemple 1 du tableau 5). Un autre manuel (c) offre également principalement des activités débranchées mais aussi de rares manipulations sur ordinateur, toutefois elles ne consistent pas en un traitement de jeux de données. Les quatre autres manuels (a, d, e et f) proposent, en plus, des exercices de découverte et de compréhension des notions du cours, ainsi que des activités plus longues nécessitant de réaliser des traitements sur un jeu de données à l'aide d'un logiciel ou de scripts.
Dans ces activités longues, les jeux de données et les scripts sont fournis dans des ressources à télécharger en ligne et souvent disponibles sur des sites en open source. Les traitements à réaliser sont explicités et guidés pas à pas. Parfois, les énoncés sont très procéduraux et ne demandent pas d'interpréter les résultats obtenus. C'est le cas de toutes les activités du manuel a (voir l'exemple 2 du tableau 5). Parfois, chaque étape est guidée par une question à résoudre qui donne du sens aux manipulations effectuées (d). Un manuel (f) propose des activités plutôt sous forme de résolution de problème : il s'agit de répondre à une question sans que la méthode ne soit explicitée pas à pas.
Le programme de SNT préconise d'utiliser le langage Python dans toutes les activités nécessitant de programmer, et le tableur uniquement dans le chapitre sur les données structurées. Le manuel qui ne propose que des activités débranchées s'écarte de cette préconisation en introduisant un pseudo-langage de requête. Ce langage est proche de SQL, langage des outils de gestion de base de données relationnelles. La syntaxe de SQL fait également l'objet de deux courtes activités. Un autre manuel (c) propose essentiellement de l'exploitation de documents et de courtes manipulations sur ordinateur, mais aucune utilisation d'un logiciel tableur ou de scripts Python. En revanche, il comporte deux pages consacrées à des activités dites d'approfondissement, l'une employant un outil de gestion de base de données relationnelle – SQLite –, l'autre une extension du langage Python dédiée à la manipulation de tables de données – la bibliothèque Pandas.
En proposant des activités débranchées réalisables dans des salles de classe banalisées, sans équipement informatique, ces manuels tiennent compte des différences entre les établissements scolaires (possibilité de dédoublement ou non des classes, accès au matériel informatique, etc.). Ce faisant, ils ne placent pas la manipulation de données au moyen de logiciels ou de programmes au cœur de l'apprentissage, et l'utilisation des outils n'est pas un objet de l'enseignement.
Un manuel (e) fait utiliser le tableur et trois manuels (a, d, f) proposent, à parts égales, des activités avec le tableur et d'autres avec des scripts Python. Pour ces manuels, savoir exploiter un logiciel tableur et un script Python pour faire des traitements sur des jeux de données fait partie des savoirs attendus. Le manuel (a) qui fait le plus de place à l'écriture de programmes et au langage Python cite, dans son introduction du chapitre, la science des données et précise que le langage Python est devenu un de ses langages principaux.
On observe que, dans l'ensemble, les activités longues sont plus propices à dérouler toute la démarche, de l'acquisition des données jusqu'à leur représentation visuelle, et que les champs de compétence y sont davantage couverts que lors d'exercices plus courts. Toutefois, ces compétences sont plus poussées lorsque les activités sont guidées par des questionnements plutôt que par une démarche procédurale. Par ailleurs, les manuels sont très partagés sur le choix des outils et logiciels. Deux d'entre eux se réfèrent à un langage (SQL) et des outils (SQLite) du domaine de la gestion de données – versant statique des données selon A. Grillenberger et R. Romeike (2018). Alors que le langage Python, employé en science des données – versant dynamique des données selon eux – et préconisé par le programme, n'est systématiquement utilisé que par trois manuels.
Discussions et conclusion
Le modèle proposé par A. Grillenberger et R. Romeike est particulièrement heuristique pour penser une éducation aux données. Notons cependant une limite de notre étude, l'analyse du programme et des manuels ne nous dit rien des pratiques effectives des enseignants et des élèves. Il est possible que ce que nous avons relevé comme des limites dans le programme ou dans les manuels soit en fait compensé par les enseignants eux-mêmes. Il conviendrait alors de mener un travail d'enquête auprès d'eux pour voir de quelle manière ils s'approprient le programme de SNT sur le thème des données, s'ils ont une sensibilité particulière à cette éducation aux données, s'ils travaillent sur ces questions avec des enseignants d'autres disciplines (arts, histoire, etc.), dans une démarche relevant des humanités numériques.
La modélisation des connaissances et compétences a montré la diversité des domaines qu'il conviendrait de couvrir : informatique, mais aussi informationnel et médiatique. L'analyse critique des programmes et des activités proposées par les manuels de SNT à l'aide de cette modélisation nous a permis de montrer en quoi les compétences demandées répondaient aux attentes d'une éducation aux données.
Le programme et les manuels de SNT abordent plus ou moins en profondeur certaines phases du cycle de vie des données, telles que l'acquisition, l'implémentation, l'analyse et le partage des données. Pour autant, ils ne couvrent pas l'ensemble des besoins repérés dans la littérature en matière d'éducation aux données.
Nous prendrons le cas de la visualisation. Elle a fait l'objet d'une attention particulière dans le préambule du programme d'ICN, elle est citée désormais en tant qu'exemple d'activité dans le programme de SNT : « réaliser une visualisation graphique des données ». De multiples compétences pourraient être associées à ce simple énoncé, tant dans la production de cette visualisation que dans sa lecture contribuant aux compétences d'analyse des données.
En effet, pour Federica Minichiello (2014, 10), « la visualisation fait partie intégrante d'un processus d'analyse des données et offre à l'utilisateur la possibilité d'explorer des chiffres, en lui proposant des clés pour une lecture critique et, parfois, l'opportunité de découvrir des éléments inattendus ». La visualisation des données est mise en avant comme objet d'enseignement tant par des praticiens que par des chercheurs. Pour A. Lehmans (2018, 144) les compétences nécessaires recouvrent « la capacité à trouver, nettoyer et exploiter des jeux de données, à produire des statistiques, à traduire des questions liées aux connaissances scolaires dans une datavisualisation ». Nicolas Turquet (2019) souligne tout l'intérêt qu'il y a à « investir avec les élèves le monde des données et leur inflation exponentielle par la datavisualisation » pour « diversifier les stratégies pédagogiques et développer les compétences analytiques et interprétatives des élèves ».
L'usage des données nécessite également d'autres compétences, notamment informationnelles : savoir trouver les données pour résoudre un problème, savoir qu'elles existent, s'interroger sur les sources de ces données, sur leur sélection, sur les données absentes ou manquantes, etc. Ces compétences concernent la phase amont du travail sur les données, celle de leur acquisition, en portant un regard critique sur la proposition faite par l'institution qui les met à disposition et les outils qu'elle préconise. Il y a aussi des compétences nécessaires pour analyser et interpréter des données relevant d'une activité ou d'un champ spécifique.
Or, disciplinaire par construction, le programme de SNT n'aborde pas ce qui pourrait relever de l'éducation aux médias et à l'information. De même, étant donné sa place dans les curricula, il constitue une introduction à quelques dimensions d'une éducation aux données, sans prétendre couvrir l'intégralité des compétences informatiques telles qu'elles sont répertoriées par A. Grillenberger et R. Romeike.
L'enseignement de SNT, tel que prescrit dans le programme et les manuels, contribue peu à développer l'esprit critique vis-à-vis des données. Une éducation aux données insiste en effet sur les compétences d'évaluation critique de l'information et la capacité à l'utiliser dans un objectif précis (Womack 2014). Les activités proposées par certains des manuels étudiés permettent d'aborder ces questions, mais ne les approfondissent pas.
D'autres approches de l'éducation aux données s'inscrivent davantage dans cette dimension analytique et critique et donc dans le champ des humanités numériques. C'est le cas des datasprints pédagogiques. Ils sont définis comme « un dispositif de médiation numérique des savoirs contributif limité dans le temps où les participants unissent leurs compétences pour explorer, augmenter un jeu de données et proposer des visualisations éclairant une question déterminée » (Atelier Canopé 94, 2018 [2]). Ces dispositifs sont réputés ne pas nécessiter d'expertise technique ou scientifique et ont pour objectif de faire travailler les élèves dans le champ des humanités numériques (Bodin 2018). Leurs promoteurs estiment qu'ils favoriseraient la créativité, la collaboration et le questionnement. Les participants développeraient des habiletés numériques et critiques tout en construisant collectivement un savoir. Par exemple, dans le datasprint « Traces de soldat », créé par l'Atelier Canopé 94, les élèves et les enseignants ont travaillé à partir des traces inscrites sur les monuments commémoratifs et de données numériques pour comprendre les parcours de « poilus » de la Grande Guerre.
Nous ne sommes plus ici dans un enseignement disciplinaire qui vise avant tout les concepts et éventuellement les processus associés aux données, mais bien dans une approche qui considère les données comme des matériaux. De nombreux témoignages de mises en œuvre de ces datasprints sont disponibles. Analyser ces expériences à l'aune du cadre conceptuel proposé par A. Grillenberger et R. Romeike permettrait de mettre en évidence la manière dont ces datasprints contribuent à une éducation aux données en identifiant les compétences des élèves mais aussi celles nécessaires aux enseignants pour se lancer dans ce type de projets. L'analyse contribuerait aussi à accroître la robustesse du modèle, pour un niveau d'enseignement secondaire, voire primaire, dans le contexte scolaire français.
Avec le mouvement des données ouvertes, de plus en plus de données sont mises à disposition du public, des citoyens, via des portails. La volonté d'ouvrir ces données à toutes et tous se heurte au niveau nécessaire de compétences pour faire de cette ambition une réalité. Cet enjeu démocratique est souligné notamment par les travaux menés par A. Lehmans (2018). Développer davantage les compétences analytiques et critiques des élèves concernant les données dans une démarche pluridisciplinaire, telle que l'éducation aux données le promeut, contribuerait à cet objectif d'éducation citoyenne. Se doter des outils conceptuels permettant la compréhension de ce qui se joue dans ces situations en est un enjeu.
Béatrice Drot-Delange
Françoise Tort
Paru sur Journals OpenEdition dans Humanité Numérique de 2022 : Enseigner et apprendre les humanités numériques.
https://journals.openedition.org/revuehn/2908?lang=en#bodyftn1
Cet article est sous licence Creative Commons (selon la juridiction française = Paternité - Pas de Modification).
http://creativecommons.org/licenses/by-nd/2.0/fr/
Bibliographie
Abiteboul, Serge et Florence Hachez-Leroy. 2015. « Humanités numériques ». Dans Encyclopédie de l'humanisme méditerranéen, édité par Houari Touati.
https://hal.inria.fr/hal-01120259/document.
Baron, Georges-Louis. 2020. « Brèves réflexions sur les humanités numériques ». Frantice.net 17 : 71-76.
http://frantice.net/index.php?id=1669.
Bodin, Franck. 2018. « Apprendre avec les données numériques, les datasprints pédagogiques : le cas de Traces de Soldats ». Medium. 17 octobre.
https://medium.com/digital-praxis/apprendre-avec-les-données-numériques-avec-les-datasprints-pédagogiques-le-cas-de-traces-de-50475fbc6b8e.
Bruillard, Éric. 2005. « Les manuels scolaires questionnés par la recherche ». Dans Manuels scolaires, regards croisés, édité par Éric Bruillard, 13-36. Caen : CRDP Basse Normandie.
Crusoe, David. 2016. « Data Literacy Defined Pro Populo : To Read this Article, Please Provide a Little Information ». The Journal of Community Informatics 12 (3).
https://doi.org/10.15353/joci.v12i3.3276.
Delmas-Rigoutsos, Yannis. 2018. « Proposition de structuration historique des concepts de la pensée informatique fondamentale ». Dans De 0 à 1 ou l'heure de l'informatique à l'école, édité par Gabriel Parriaux, Jean-Philippe Pellet, Éric Bruillard et Vassilis Komis, 31-60. Berne : Peter Lang.
Diethelm, Ira, Peter Hubwieser et Robert Klaus. 2012. « Students, Teachers and Phenomena : Educational Reconstruction for Computer Science Education ». Dans Proceedings of the 12th Koli Calling International Conference on Computing Education Research, édité par Mikko-Jussi Laakso et Robert McCartney, 164-173. New York : Association for Computing Machinery.
https://doi.org/10.1145/2401796.2401823.
Frank, Mark et Johanna Walker. 2016. « Some Key Challenges for Data Literacy ». The Journal of Community Informatics 12 (3) : 232-235.
https://doi.org/10.15353/joci.v12i3.3288.
Grillenberger, Andreas. 2019. « Fostering Data Literacy Competencies in School ». Hello World.
https://helloworld.raspberrypi.org/articles/hw10-fostering-data-literacy-competencies-in-school.
Grillenberger, Andreas et Ralf Romeike. 2015. « Bringing the Innovations in Data Management to CS Education : an Educational Reconstruction Approach ». Dans Proceedings of the Workshop in Primary and Secondary Computing Education, édité par Judith Gal-Ezer, Sue Sentance et Jan Vahrenhold, 88-91. New York : Association for Computing Machinery.
https://doi.org/10.1145/2818314.2818330.
Grillenberger, Andreas et Ralf Romeik. 2018. « Developing a Theoretically Founded Data Literacy Competency Model ». Dans Proceedings of the 13th Workshop in Primary and Secondary Computing Education, édité par Andreas Mühling et Quintin Cutts, 1-10. New York : Association for Computing Machinery.
https://doi.org/10.1145/3265757.3265766.
Hartmann, Werner, Michael Näf et Raimond Reichert. 2012. Enseigner l'informatique. Paris : Springer.
Humbert, Ludger et Hermann Puhlmann. 2004. « Essential Ingredients of Literacy in Informatics ». Dans Informatics and Student Assessment. Concepts of Empirical Research and Standardisation of Measurement in the Area of Didactics of Informatics, édité par Johannes Magenheim et Sigrid Schubert, 1 : 65-76. Bonn : German Informatics Society.
Lehmans, Anne. 2018. « Les réinventions de la démocratie à l'aune de l'ouverture des données : du discours de la participation aux contraintes de la gouvernance ». Les Enjeux de l'information et de la communication 19 (2) : 135-146.
https://doi.org/10.3917/enic.025.0135.
Magneron, Nathalie. 2005. « Les manuels scolaires dans les recherches en didactique des sciences physiques ». Dans Manuels scolaires, regards croisés, édité par Éric Bruillard, 221-230. Caen : CRDP de Basse-Normandie.
Mariais, Christelle, David Roche, Laurence Farhi, Sabrina Barnabé, Sonia Cruchon, Sophie de Quatrebarbes et Thierry Viéville. 2019. « Peut-on former les enseignantˇeˇs en un rien de temps ? » Communication présentée à Atelier EIAH'19 : Apprentissage de la pensée informatique de la maternelle à l'Université : retours d'expériences et passage à l'échelle, Paris, 4-7 juin.
https://hal.inria.fr/hal-02145466.
MENJS (ministère de l'Éducation nationale, de la Jeunesse et des Sports). 2015. « Programme d'enseignement d'informatique et création numérique de la classe de seconde. Arrêté du 17-7-2015 – J.O. du 4-8-2015 ». Bulletin officiel de l'Éducation nationale 31. 27 août.
https://www.education.gouv.fr/bo/15/Hebdo31/MENE1517386A.htm.
MENJS (ministère de l'Éducation nationale, de la Jeunesse et des Sports). 2016. « Programme d'enseignement facultatif d'informatique et création numérique des classes de première des séries générales et terminale des séries ES et L. Arrêté du 16-6-2016 – J.O. du 13-7-2016 ». Bulletin officiel de l'Éducation nationale 29. 21 juillet.
https://www.education.gouv.fr/bo/16/Hebdo29/MENE1616734A.htm.
MENJS (ministère de l'Éducation nationale, de la Jeunesse et des Sports). 2019. « Programme d'enseignement de sciences numériques et technologie de la classe de seconde générale et technologique. Arrêté du 17-1-2019 – J.O. du 20-1-2019 ». Bulletin officiel spécial de l'Éducation nationale 1. 22 janvier.
https://www.education.gouv.fr/bo/19/Special1/MENE1901641A.htm.
Minichiello, Federica. 2014. « La visualisation de données en éducation ». Revue internationale d'éducation de Sèvres 66 (septembre) : 10-14.
https://doi.org/10.4000/ries.3949.
Piotrowski, Michael et Aris Xanthos. 2020. « Décomposer les humanités numériques ». Humanités numériques 1.
https://doi.org/10.4000/revuehn.381.
Ridsdale, Chantel, James Rothwell, Michael Smit, Hossam Ali-Hassan, Michael Bliemel, Dean Irvine, Daniel Kelley, Stan Matwin et Bradley Wuetherick. 2015. « Strategies and Best Practices for Data Literacy Education : Knowledge Synthesis Report ». Dalhousie University.
Schreibman, Susan, Ray Siemens et John Unsworth, éd. 2004. A Companion to Digital Humanities. Oxford : Blackwell.
http://www.digitalhumanities.org/companion/.
Turquet, Nicolas. 2019. « Humanités numériques. Le lycée peut-il mettre le numérique au service de l'humain ? ». Canopé. Octobre.
https://www.reseau-canope.fr/nouveaux-programmes/magazine/numerique/humanites-numeriques.html.
Womack, Ryan. 2014. « Data Visualization and Information Literacy ». IASSIST Quarterly 38 (1) : 12-17.
https://doi.org/10.7282/T3X92CZF.
NOTES
[1] Cette recherche participe des travaux menés par le GIS 2IF (Innovation, interdisciplinarité et formation) dans le cadre du Groupe thématique numérique 2020-2022 « Humanités numériques : entre recherche et formation », bénéficiant du soutien du ministère de l'Éducation nationale, de la Jeunesse et des Sports.
[2] https://medium.com/canope-idf/quest-ce-qu-un-datasprint-pédagogique-cfe973dcb214/.
|