Banques et bases de données

LES BANQUES DE DONNÉES SCIENTIFIQUES
DANS L'ENSEIGNEMENT DE LA BIOLOGIE-GÉOLOGIE

Naoum Salamé
Institut National de Recherche Pédagogique
 

   L'utilisation de l'informatique dans l'enseignement de la biologie et de la géologie tient compte des évolutions scientifiques et techniques qui sont intervenues au cours des trois dernières décennies et de leurs conséquences pédagogiques. Cette utilisation vise de manière prioritaire l'actualisation de l'instrumentation et des approches, la conception de nouvelles activités pratiques et individuelles pour les élèves afin d'éviter le dogmatisme et de maintenir autant que possible la dimension expérimentale de ces disciplines. Les données biologiques et géologiques disponibles peuvent jouer un rôle important dans la poursuite de tels objectifs.

   Comme dans beaucoup d'autres disciplines, les chercheurs en biologie et en géologie ont largement recours aux données pour étudier les problèmes et progresser dans leur compréhension. Ces données quantitatives et qualitatives sont d'une grande variété ; elles proviennent d'observations, de mesures systématiques, d'expériences ; elles sont acquises, parfois, à partir d'informations macroscopiques et, de plus en plus souvent, d'informations indirectes saisies à l'aide d'instruments sophistiqués.

   En nous limitant à quelques exemples sur lesquels travaillent différentes équipes d'enseignants associées aux recherches de l'INRP (à Nancy, Tours, Poitiers, Toulouse et Versailles), on montrera, d'abord, les potentialités que recèle l'exploitation des ces données à l'aide des logiciels de traitement qui leur sont associés, et on dégagera ensuite quelques caractéristiques générales.

1. Les connaissances en biologie moléculaire tiennent une place très importante dans les programmes actuels. Pour les enseigner, on dispose de documents papier, d'animations audiovisuelles, de modèles physiques, etc., mais peu d'activités pratiques peuvent être proposées aux élèves. Or, depuis quelques années, les techniques ont permis d'identifier les séquences de beaucoup de gènes et de protéines. La masse considérable de données qui continuent d'être réunies, est constituée en banques internationales nucléiques et protéiques (GENBANK, NBRF-PIR, EMBL, etc.) accessibles aux chercheurs à travers les réseaux et mises à jour régulièrement sur des CD-ROM.

   Pour accéder à ces banques et réaliser les traitements nécessaires, les chercheurs disposent de logiciels puissants implantés sur de gros systèmes. Cependant, à côté de ces logiciels, il en existe beaucoup d'autres qui fonctionnent sur des micro-ordinateurs. Conçus pour une utilisation rapide et autonome, la plupart de ces logiciels sont spécialisés dans la réalisation d'un traitement particulier, ou comportent seulement quelques-uns des traitements possibles. Plusieurs de ces logiciels sont des produits commerciaux, mais il existe aussi un nombre non négligeable d'outils élaborés par les chercheurs eux-mêmes, et qui sont destinés à une diffusion libre auprès de la communauté scientifique. Ces outils sont utilisés par les chercheurs pour gérer les données qui les intéressent personnellement, analyser les séquences qu'ils déterminent, les comparer à des séquences extraites des banques de données internationales, réaliser des traitements statistiques, etc. Ces logiciels sont dans le domaine public et sont par conséquent faciles à acquérir pour l'éducation.

   L'enseignement de la biologie, notamment en génétique, fait appel aux résultats issus de ces opérations, dont plusieurs ne sont pas d'une très grande complexité, sans permettre aux élèves de les réaliser eux-mêmes. À partir de l'analyse des séquences qui figurent dans les banques ou qui sont publiées dans la littérature, des traitements auxquels elles donnent lieu et des fonctionnalités des logiciels accessibles, les transferts à l'enseignement secondaire paraissent possibles dans deux grandes directions : l'enseignement des connaissances de base en biologie moléculaire et l'étude de l'évolution des espèces sur la base des informations moléculaires. L'ensemble de ces contenus sont généralement enseignés dans les classes terminales des lycées.

   Pour faire acquérir ou renforcer les concepts enseignés dans ces deux perspectives, un grand nombre de séquences de gènes et de protéines ont été sélectionnées, et les logiciels de traitement nécessaires choisis ou adaptés. Le logiciel SEQAID II, mis au point par deux chercheurs de l'université du Kansas, offre un grand nombre de fonctions d'édition et d'analyse de séquences : comparaison, transcription, traduction, traduction inverse, recherche de motifs, de sites de restriction, modification du cadre de lecture, etc. Un ensemble de données (globines, hormones, gènes du système HLA, etc.) a été constitué en fonction des problématiques d'enseignement intéressantes : fonctionnement du code génétique, relations entre ADN et protéine, structure de l'ARNm, structure d'un gène, étude des allèles d'un gène, etc. Le logiciel ÉVOLUTION MOLÉCULAIRE, réalisé en collaboration avec des chercheurs de l'Université d'Orsay et diffusé depuis septembre dernier, est assez représentatif de ce qui peut être fait dans ce domaine : pour diverses molécules, les séquences nucléiques et protidiques correspondant à un grand nombre d'espèces sont réunies. Les élèves ont ainsi la possibilité de sélectionner les données relatives à quelques espèces dont les relations de parenté posent problème, comparer les séquences entre elles, identifier les différences, calculer la matrice qui montre les différences entre toutes les espèces prises deux par deux, faire calculer et visualiser l'arbre phylogénétique qui rend compte de ces données, comparer les résultats obtenus avec des molécules différentes.

   Ces deux logiciels et les données qu'ils traitent renouvellent de manière considérable les activités individuelles et collectives qui peuvent être réalisées par les élèves.

2. L'enseignement de la géologie fait maintenant une place importante aux connaissances de géophysique et de géochimie qui permettent d'approcher les facteurs explicatifs des phénomènes géologiques à l'échelle globale. Si les modèles jouent un rôle important dans ce domaine, les connaissances sont construites, également, à partir de données géologiques diverses auxquelles les modèles sont aussi confrontés. Ces données recueillies à l'occasion de campagnes spécifiques dans certaines régions du monde (comme les données gravimétriques, magnétiques, bathymétriques, par exemple) ou enregistrées systématiquement par des stations de mesure (les données sismiques), sont regroupées dans des banques internationales (également mises à jour et diffusées sur des CD-ROM). Leur exploitation se fait, notamment, avec des logiciels professionnels de visualisation graphique en 2 et 3 dimensions et avec des outils de modélisation souvent réalisés par les chercheurs.

   De même qu'en biologie moléculaire, les travaux pratiques faisables au lycée et adaptés aux connaissances actuelles en géologie se sont raréfiés. À partir des données et des logiciels disponibles, on peut proposer aux élèves de nouvelles activités particulièrement riches. On s'est appuyé, à titre expérimental sur un logiciel commercial (SURFER) qui réalise la    préparation des données (calcul de grilles régulières de points de mesure) et la visualisation 2D/3D. Il est ainsi possible de faire réaliser par les élèves, des cartographies, des représentions en trois dimensions et des profils, qui aident à préciser d'abord la morphologie de la région étudiée. Cette étude peut aller plus loin, en utilisant des données géologiques complémentaires (résultats de forages, données de sismique-réflexion, etc.), pour déboucher sur la construction de modélisations concernant la structure de la lithosphère. Dans ce but, un logiciel de modélisation à partir de données gravimétriques (GRAMMAG) a été utilisé, provenant du travail d'un chercheur de l'Université de Montpellier.

   Les données, les constructions graphiques, et les modèles utilisés dans les démarches actuelles peuvent permettre d'approcher, en particulier, les phénomènes liés à la dynamique interne du globe terrestre. Les mécanismes qui se déroulent dans les fonds océaniques (subduction, ouverture) occupent une place importante dans l'enseignement. En relation avec des laboratoires de géologie, ont été réunies, d'abord, à titre d'exemple, les données bathymétriques, gravimétriques et sismiques qui permettent d'étudier la subduction en mer Égée.

   L'expérimentation de ces outils est en cours et des extensions sont envisagées pour étudier d'autres fosses océaniques, telles que celle qui existe en bordure de l'Amérique du Sud, ou celles qui se trouvent à proximité du Japon, identifier les données et les logiciels appropriés à l'étude des dorsales océaniques et des rifts.

   Il convient de mentionner que des données abondantes existent également dans d'autres domaines de la géologie qui intéressent l'enseignement. En hydrogéologie, par exemple, on peut recourir aux données sur les précipitations fournies par la Météorologie nationale, les mettre en relation avec les données sur les débits des cours d'eau, utiliser les mesures piézométriques réalisées à des fins d'édification d'ouvrages, analyser les données physico-chimiques recueillies par les agences de bassin qui permettent d'avoir une idée précise sur la qualité de l'eau et contribuer à sa gestion, etc. Pour exploiter ces données, les logiciels généraux tels que les tableurs et les grapheurs constituent des outils souvent suffisants pour réaliser sur les mesures les calculs nécessaires, montrer graphiquement l'évolution des phénomènes dans le temps, fournir les bases d'une modélisation.

   Ces traitements et modélisations conduisent à mettre les informations acquises sur le terrain en relation avec les théories concernant la structure du sol ou du sous-sol et les mécanismes qui s'y déroulent, à appuyer les connaissances abs traites sur des mesures et des visualisations nombreuses et précises, à montrer les usages professionnels auxquels donnent lieu les savoirs fondamentaux et appliqués.

3. L'éducation à la santé, qui constitue notre troisième exemple, est une préoccupation dont l'importance est cruciale. Parmi les approches possibles avec les élèves, l'exploitation des études épidémiologiques peut constituer une entrée intéressante dans la mesure où ces enquêtes fournissent une multitude de données biologiques, sociologiques et comportementales qui concernent des problèmes réels et actuels. Ces enquêtes touchent souvent des milliers de personnes sur lesquelles sont recueillies plusieurs centaines d'informations.

   En plus de l'intérêt que revêtent leur contenu scientifique et leur actualité sociale, les données issues des enquêtes épidémiologiques présentent l'avantage de confronter les élèves avec la pratique de l'analyse des données et des traitements statistiques. L'exploitation de ces enquêtes par les chercheurs s'appuie largement sur ces traitements et sur l'informatique pour acquérir de nouvelles connaissances, tester des hypothèses et construire des modèles épidémiologiques.

   La familiarisation des élèves avec la statistique est perçue depuis longtemps comme, une dimension importante pour approcher certains phénomènes ou pour aller plus loin dans leur compréhension. Ce point de vue est partagé par beaucoup d'enseignants de diverses disciplines, qui considèrent que ces connaissances revêtent un caractère transversal et sont indispensables pour comprendre des problèmes d'intérêt quotidien. Néanmoins, peu d'exemples ont permis, jusque là, de démontrer l'intérêt de l'approche statistique, alors que manquaient simultanément les outils techniques adaptés pour rendre opérationnelles ces idées. Pour exploiter les données épidémiologiques, il existe maintenant toute une panoplie de logiciels généraux (tableurs, grapheurs, systèmes de gestion de bases de données, logiciels intégrés) très répandus dans les établissements scolaires, et quelques logiciels spécifiques au traitement statistique (LE SPHINX, notamment).

   En se limitant aux thèmes qui peuvent être mis en relation avec l'enseignement de la biologie (thèmes étudiés le plus souvent dans les sections littéraires), ont été identifiées et acquises les données issues de plusieurs enquêtes, réalisées par l'INSERM, qui portent sur :

  • les naissances : enquête de grande envergure (près de 21 000 accouchements sur 14 ans) conçue pour mesurer l'efficacité d'un programme de prévention destiné à réduire la prématurité. Les variables intéressantes pour l'éducation sont celles qui concernent les caractéristiques de la mère (catégorie socioprofessionnelle, origine ethnique, caractéristiques physiques, antécédents obstétricaux, déroulement de la grossesse, etc.) et celles du nouveau-né (âge gestationnel, taille, poids, etc.) ;

  • l'alcool et les accidents : enquête menée en 1982-1983. Les données comprennent outre les circonstances de l'accident, des caractéristiques des personnes impliquées telles que sexe, âge, catégorie socioprofessionnelle, ainsi que des mesures résultant d'examens biologiques. Nous avons extrait de cette banque les données qui concernent les 16-25 ans (1 423 sujets) ;

  • le traitement des diabétiques : l'enquête concerne 1 178 personnes. Les 30 variables retenues mettent en évidence les deux catégories de diabète insulino-dépendant et non insulino-dépendant, permettent d'effectuer des comparaisons entre sexes, d'étudier l'évolution du diabète et des traitements avec l'âge, etc.

   On dispose également d'autres enquêtes portant sur l'évolution de la chimio-sensibilité du paludisme (banque de données du Centre de Référence sur la Chimio-sensibilité du Paludisme), les causes médicales de décès, les comportements contraceptifs (enquêtes de l'INED), les conséquences pathologiques de certaines habitudes nutritionnelles, les MST, etc.

   L'utilisation pédagogique de ces données et de ces logiciels n'a pas encore été entreprise dans l'enseignement secondaire. En revanche, leur exploitation dans l'enseignement supérieur montre, d'abord, que le traitement d'enquêtes riches en variables signifiantes et correspondant à des problèmes sociaux actuels, est un facteur puissant de motivation des étudiants. De plus, le volume des données que comportent les enquêtes épidémiologiques et la nature des manipulations et des traitements qu'elles requièrent illustrent très bien l'apport des méthodes statistiques, leurs limites et l'utilité des outils informatiques. On peut formuler l'hypothèse que ces éléments joueront également pour les élèves de l'enseignement secondaire.

   En conclusion à la présentation de ces trois exemples, il convient de noter que plusieurs facteurs techniques sont maintenant favorables à une révision de la place des données et de leurs méthodes de traitement dans l'enseignement : l'informatisation quasi systématique du stockage des données, l'accessibilité des banques qui les contiennent sur divers supports, la disponibilité des logiciels qui en permettent la manipulation, l'équipement des écoles en micro-ordinateurs ayant des caractéristiques techniques suffisantes (volume de données, rapidité de traitement, visualisations graphiques).

   Ces facteurs techniques ne sont certes pas suffisants : il convient d'analyser les facteurs scientifiques et pédagogiques qui justifient le recours à ces outils.

   On peut observer, d'abord, que l'existence de ces banques est parfois devenue une des conditions indispensables pour que la recherche puisse progresser. Les données issues des travaux de recherche étaient, il y a quelques années encore, disponibles exclusivement auprès des chercheurs ou à partir de leurs publications. Dans beaucoup de domaines, les banques de données informatisées, nationales et internationales qui sont constituées regroupent ces informations et les rendent accessibles à l'ensemble d'une communauté de chercheurs, d'utilisateurs.

   On peut noter, corollairement, que la définition des données pertinentes pour étudier un problème, leur acquisition et la conduite du processus de leur traitement et de leur interprétation font maintenant partie des savoirs et savoir-faire indispensables en sciences expérimentales.

   Ces compétences constituent en premier lieu des moyens d'investigation et de validation d'hypothèses, mais elles sont devenues aussi des moyens de communication : les publications en biologie et en géologie font une place importante aux traitements quantitatifs de ces données et aux représentations graphiques des résultats. Ces éléments rendent nécessaire la compréhension des principes et des fondements de ces traitements.

   Sur le plan pédagogique, on constate que les manuels scolaires intègrent beaucoup de données et de résultats qui en sont tirés, alors que l'utilisation de ces banques pour l'enseignement n'a pas encore été explorée. Cette utilisation devrait rapprocher les pratiques pédagogiques des pratiques professionnelles. Il convient de signaler néanmoins que toutes les données disponibles ne sont évidemment pas utilisables pour l'enseignement : leur fiabilité, leur représentativité, la validité des interprétations auxquelles les résultats donnent lieu constituent des caractéristiques importantes.

   Considérant la nature des connaissances enseignées dans les trois domaines qui ont été évoqués, ces données pourraient concrétiser quelques-unes de ces connaissances en les situant dans le processus d'investigation qui a contribué à leur apparition. Le travail qui doit être réalisé par les élèves ne consiste pas en une simple manipulation technique : il implique une activité intellectuelle qui est similaire à celle qui est développée dans des situations expérimentales classiques : bien qu'elles soient collectées dans un but précis, les données constituent des informations à partir desquelles il est possible d'exprimer des interrogations, de formuler des hypothèses et de les tester à l'aide des traitements adéquats. Les travaux pratiques proposables aux élèves peuvent intégrer, suivant les données, l'initiation aux savoirs théoriques relatifs aux méthodes de mesure adoptées, à la mise en oeuvre technique du processus de recueil et aux procédés d'exploitation. On peut relever en particulier que cette approche des problèmes par le traitement des données se prête bien à la réalisation de travaux ayant pour but la résolution d'un problème, impliquant de la part des élèves la conduite autonome d'un processus d'investigation et donc la mise en oeuvre de compétences d'un niveau relativement élevé.

   Mais pour que les données occupent une nouvelle place, il est indispensable d'abord qu'il soit considéré que les ordinateurs doivent être utilisés dans l'enseignement de la biologie et de la géologie parce qu'ils sont devenus les outils professionnels dans les domaines scientifiques de référence et dans leurs domaines d'application. L'équipement des établissements scolaires est aujourd'hui insuffisant pour exploiter avec les élèves les ressources disponibles : l'affectation de matériels spécifiques aux disciplines expérimentales s'avère nécessaire. Celle-ci ne sert pas une vague modernisation technique mais conditionne la poursuite d'une formation scientifique actuelle. Cette nécessité est bien perçue pour les disciplines du tertiaire et pour l'enseignement industriel qui bénéficient d'équipements adaptés à leurs objectifs.

   L'exploitation de l'informatique en général et des banques de données en particulier amène à préciser le type de pédagogie que l'on souhaite mettre en oeuvre il est certain que les moyens d'enseignement expositifs sont plus rapides, dans leur déroulement, que ceux qui privilégient l'initiative des élèves dans l'élaboration et la conduite d'un processus d'investigation pour résoudre un problème. En revanche, la manipulation des données et des modèles fait acquérir des méthodes et des techniques ré-investissables dans un grand nombre de situations.

   Il est clair, enfin, que les compétences requises des enseignants sont, pour une part relativement modeste, de l'ordre des techniques, l'essentiel étant la maîtrise des concepts et des approches qui sont maintenant pratiqués en biologie moléculaire, géophysique, hydrogéologie, épidémiologie, etc. C'est sur ce plan qu'il convient d'entreprendre, à tous les niveaux de la formation, les actions les plus urgentes.

Paru dans L'intégration de l'informatique dans l'enseignement et la formation des enseignants ; actes du colloque des 28-29-30 janvier 1992 au CREPS de Châtenay-Malabry, édités par Georges-Louis Baron et Jacques Baudé ; coédition INRP-EPI, 1992, p. 163-170.

RÉFÉRENCES

Baly J., Berche P., Boulanger J.-Y., Haguenauer. et al. (1991). Les nappes d'eau : analyse d'exemples réels, modélisation et simulation de leur fonctionnement. L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. INRP, p. 85-90.

Baron G.-L., Lenne D., Salamé N. (1992). Databases and software for statistical analysis, in education. ICTE Conférence, p. 1250-1252.

Bayer R., Sarrailh M., Culos R., Dupouy S., Gros C. (1991). Essai de modélisation par le traitement de données géophysiques d'un aspect de la tectonique des plaques, la subduction. L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. INRP, p. 77-84.

Bouyer J. et al. (1987). La prématurité. Enquête périnatale de Haguenau (1971-1982), éd. INSERM.

Duval J.-C., Salamé N. (éds) (1991). L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. Colloque ENS-INRP, INRP.

Haut Comité d'étude et d'information sur l'alcoolisme, 1985. Alcool et accidents. La Documentation française, Série Documents.

Hervé J.-C., Therrie B., Salamé N. (1991). Enseignement de la génétique moléculaire avec des logiciels professionnels d'analyse de séquences. Colloque L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. INRP, p. 123-130.

Lenne D., Druez D., Rodes J.-F. (1991). L'exploitation de données épidémiologiques dans l'enseignement. L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. INRP, P. 139-144.

Papoz L. et al. (1986). Biological Markers of Alcohol Intake Among 4796 Subjects Injured in Accidents, British Medical Journal, 292, 1234-1237.

Papoz L. (1988). Pattern of Treatment Among Diabetic Patients in France, Diabetes Care, vol. 11, n° 7.

Philippe H., Lecointre G. (1991). Évolution moléculaire : un logiciel pédagogique pour la construction de phylogénies. L'informatique scientifique dans l'enseignement de la biologie-géologie au lycée. INRP, p. 131-138.

Salamé N. (1989). Logiciels professionnels, banques de données, images numériques : de nouvelles aides didactiques ? Dixièmes Jiest, Giordan A., Martinand J.L., Souchon C. (éds), Université Paris VII, p. 367-372.

Logiciels

ÉVOLUTION MOLÉCULAIRE : H. Philippe et G. Lecointre. Diffusé par Jeriko.

SEQAID II : ROUFFA and RHOADS. Université du Kansas.

SURFER : Golden Software. Diffusé par GEOCOM.

GRAMMAG : B. de Cabissolle. Université de Montpellier.

LE SPHINX : Le Sphinx Développement, 13 chemin des Amarantes, 74600 Seynod.

Données

EMBL Data Library, Postfach 102209, 6900 Heidelberg.

GenBank-Intelligenetics Inc., 700 El Camino Real East, Mountain View, CA 94040.

National Biomedical Research Foundation, 3900 reservoir Road NW, Washington, D.C 20007.

Global Hypocenter data base, USGS-NEIC, Box 25046 MS 967, Denver Federal Center, Denver, CO 80225.

Bureau Gravimétrique International, 14 Avenue E. Beulin, 31500 Toulouse.

___________________
Association EPI

Accueil Retour aux actes

Banques de données

Articles