Conséquences pédagogiques de la vocalisation des ordinateurs

Conséquences pédagogiques
de la vocalisation des ordinateurs

Michel Gauthier

Nous abordons, c'est évident, la troisième phase pédagogique de notre accoutumance à la présence (et à l'emploi) des ordinateurs dans les différentes disciplines de l'enseignement secondaire, et même dans l'enseignement supérieur.

À l'ère « préhistorique », il était urgent de fabriquer ces machines et d'apprendre à les faire marcher. Nous avons eu besoin d'informaticiens, après avoir eu besoin de fabriquer « français ». (Ce qui n'a pas empêché les systèmes d'exploitation, mondialement compatibles, de porter des noms américains).

À l'époque « historique », l'informatique dans l'enseignement secondaire, tout en conservant des arrière-pensées pratiques, est devenue une matière culturelle (comme les mathématiques dans les sections littéraires et artistiques).

Après la boîte métallique, après la boîte à systèmes, on s'est aperçu enfin que les boîtes « programmes » étaient aussi des boîtes vides. Certains enseignants ont été invités à mettre dans l'ordinateur les exercices qu'ils préparaient comme épreuves « sur table » en classe ; d'autres, des méthodes entières, qui étaient déjà accessibles en librairie.

Dans le premier cas, les ordinateurs n'ont eu d'autre fonction que de contrôle, laquelle vient après l'activité naturelle du professeur, qui est d'informer et de former. Ces logiciels « administratifs », préoccupés de notation, ne nous intéressent pas. Les auteurs de certains, même, semblent considérer que noter -mal- ce que les gens n'ont pas appris, ou ne savent pas encore, est un acte pédagogique...

En revanche, et en particulier dans leur application à la pédagogie des langues vivantes, les ordinateurs vocalisés se posent, face à l'enseignant, tantôt dans une position d'outil (faisant ou non partie d'une méthode), tantôt comme rival et substitut de l'enseignant.

Les médias, ne l'oublions pas, avaient commencé à dépasser, avec le son et l'image animée, les limites qu'avait atteintes le papier avec la photo en noir et blanc, puis en couleurs.

Si, dans le salle de classe, la pratique pédagogique d'exploitation des images était restée fondée sur le discours magistral, le discours provenant des appareils sonores prévus par une méthode était destiné, plus ou moins implicitement, à se substituer au maître.

À son tour, dans toutes les disciplines scolaires, l'ordinateur revendique à présent la double fonction d'informer, et de former.

Pour informer, il cherche à assimiler toute la culture du papier, à digérer les textes pour les restituer à la demande ; il a conquis l'image, fixe et animée, en couleurs et en trois dimensions, il invente l'univers tactile et virtuel ; il parle, il rivalise avec la radio, la bande magnétique, le disque et le téléviseur.

Pour former, l'ordinateur pourrait s'inspirer de deux « méthodes » opposées : la méthode « frileuse », et la méthode « dynamique ».

La méthode frileuse est celle de l'huître. Elle consiste à construire une coquille à l'abri de laquelle l'élève pourrait prospérer en sécurité. Telles sont les méthodes programmées, au cheminement linéaire, qui s'appliquent de l'extérieur à n'importe qui, et dans le confort desquelles l'élève croit progresser.

La méthode dynamique construit et durcit le squelette à l'intérieur de la chair active. En langue étrangère, la grammaire se construit chez chaque locuteur à partir de sa pratique personnelle. Les règles se fixent, non seulement selon la fréquence, mais aussi selon la nature des besoins qui les appellent.

Le présent article propose quelques réflexions sur les possibilités qu'offre l'ordinateur doté de vocalisation, de compléter la pratique scolaire de la langue étrangère ou, en dehors de la classe, de remplacer l'absence du maître.

L'ordinateur - Modèle phonétique

Les premiers ordinateurs dotés de la parole, en pédagogie, l'ont été en référence aux magnétophones qui les ont précédés. L'argument commercial portait sur la plus grande qualité sonore, sur l'absence de « souffle », de bruits de fond...

Mais on n'a rien demandé d'autre aux ordinateurs que ce que fournissaient déjà les magnétophones : la restitution de la parole enregistrée (celle du modèle, et celle de l'élève).

Dans les magnétophones, cette parole est présentée comme un modèle phonétique, intonatif et acoustique, que l'élève doit non seulement écouter, et (éventuellement) comprendre, mais surtout imiter. Les magnétophones sont dotés de deux pistes, l'une, ineffaçable, modèle, la piste « maître », et une où l'on peut se réenregistrer indéfiniment, la piste « élève ».

De même la carte vocale des ordinateurs a été dotée d'une entrée micro par laquelle chacun peut enregistrer sa propre voix dans le but de répéter les formulations préenregistrées du même ordinateur, et de comparer les deux prononciations.

Dans un cas comme dans l'autre, la présence du maître est nécessaire pour expliquer les formulations que l'élève ne comprendrait pas. Elle est souvent très utile pour que l'élève prenne conscience des différences que, par définition, son oreille n'entend pas.

Dans ce même emploi pédagogique, on a, en revanche, pu profiter de l'écran de l'ordinateur pour afficher les oscillations de chaque enregistrement, les courbes intonatives, les « formants ». Cet affichage peut être alternatif (les courbes correspondant à la voix du modèle s'effacent pour laisser la place à l'image oscillatoire de la voix de l'élève), ou simultané (les deux courbes apparaissent l'une au-dessous de l'autre).

Je ne suis, personnellement, pas convaincu de l'efficacité (mais persuadé de l'absence d'intérêt) de cette pratique. Chacun de nous, physiologiquement et culturellement, est reconnaissable au « timbre », inaliénable, de sa voix, si particulier que, comme les empreintes digitales, il est une marque d'identité.

Je pense plutôt que l'appareillage technologique cherche à faire passer pour scientifique une confusion entre la phonétique et la phonologie : la première exigeant, à la limite, l'identité des moindres phénomènes acoustiques, sans se préoccuper du sens à transmettre ; la seconde décrit le seuil minimum d'articulation, dans un contexte donné, pour la communication du sens.

Si l'analyse précédente n'est pas erronée, le souci phonétique tend, implicitement, à « déculturer » l'apprenant, et à le dépersonnaliser. Or, ce n'est pas en modifiant le locuteur qu'on lui inculque la langue. C'est la langue qui peut changer de timbre sans changer de nature : la langue française reste la langue française, même avec un accent canadien, ou africain, ou asiatique...

D'autre part, l'approche visuelle de la voix nous éloigne, finalement, de l'écoute de la parole, même dans ses caractéristiques phonétiques. Quant aux caractéristiques phonologiques, totalement - ou presque - oubliées, elle ne représentent, faute d'interlocuteurs, aucune communication, ni actuelle, ni passée. Elles répondent au principe, que je crois inefficace, que l'on peut se préparer à un faire ultérieur par une accumulation antérieure de savoirs.

L'ordinateur et l'expression orale

En revanche, la vocalisation de dialogues me semble plus efficace. Un dialogue présente un cheminement, depuis une situation initiale jusqu'à une conclusion. Dans le dialogue, on peut distinguer un ensemble, qui forme un texte signifiant. Les partenaires du dialogue, d'autre part, n'alternent pas seulement leurs voix : chacun d'eux a une personnalité, sa « prise de parole » s'inscrit dans un contexte, où se manifestent ses préoccupations et sa culture. Ensuite, et de plus, les voix reflètent leurs identités et les intonations traduisent leurs sentiments. Bien sûr, les timbres indiquent le sexe et l'âge ; ils sont également capables de suggérer, ou de donner des indications sur l'origine géographique, et l'enracinement sociologique (provincial, rural...).

Ces réflexions sur la diversité culturelle des voix complète et conforte, d'ailleurs, mes remarques antérieures. Dans un cas, le pédagogue feint de croire qu'il n'existe qu'une seule prononciation possible, dont on trouvera certainement « le modèle » dans une région géographique et dans une catégorie sociale précises. Dans l'autre optique, la langue n'est plus un modèle épuré ; c'est la somme des expériences variées des prises de parole qu'aura faites l'apprenant.

La vocalisation de dialogues repris de textes authentiques exige de diriger avec précision les locuteurs qui seront enregistrés, comme la direction d'acteurs suppose le préalable de l'explication des textes « interprétés ».

Là où les « lecteurs » auraient tendance à prendre, justement, un « ton pédagogique » (en articulant distinctement - trop distinctement), le responsable de la prise de sons doit se conduire en metteur en scène. Il doit leur expliquer la situation, et qui sont les personnages auxquels ils prêtent leurs voix pour interpréter leurs paroles. Il faut aussi savoir enregistrer les silences...

Imaginez un village isolé, en Espagne, en pleine montagne, au début de ce siècle. Il n'y a qu'une seule rue, un raidillon, avec un unique commerçant à mi-pente. En haut, c'est le quartier pauvre ; en bas, les maisons des propriétaires des terres cultivables. Une veuve de ce quartier « riche » a perdu, dans des rixes qui opposent ces deux couches sociales, à vingt ans d'intervalle, son mari, puis son fils aîné. Son second fils fréquente une jeune fille d'un village très éloigné. Mais cette jeune fille a été la fiancée d'un garçon du quartier pauvre, lequel s'est marié (ou que l'on a marié) depuis, mais qui la fréquente toujours. L'épouse, pour faire cesser les relations de son mari avec l'ancienne fiancée, veut faire hâter le mariage prévu avec le fils de la veuve. Elle envoie, chez cette dernière, une amie. On imagine l'embarras de la messagère ; mais aussi l'attente de la veuve, qui ignore les premières fiançailles : « Que vient-elle faire ici ? Que me veut-elle ? D'habitude, nous évitons soigneusement de nous rencontrer à l'épicerie... et aujourd'hui elle vient jusqu'ici! »

Le metteur en scène doit avoir fait cette explication de texte pour conseiller ses acteurs ; et la direction de ces derniers consistera à faire peser les silences entre les répliques apparemment superficielles. Traiter ce dialogue comme une conversation quotidienne et anodine de deux amies qui se verraient tous les jours serait faire preuve d'un manque total de recul et de culture de la part de l'auteur du logiciel vocalisé [1].

Bien d'autres dialogues « authentiques » (insérés dans une action théâtrale ou dans une situation romanesque) appellent, dans leur interprétation, le poids des silences. Ainsi, cette « visite » d'une tour d'un château en ruines qui domine un village et la plaine qui s'étend à l'horizon. Elle, est toujours restée au village ; lui revient d'une année d'absence à la ville où il a commencé des études. Ils sont seuls, là-haut. Apparemment, ils n'ont rien à se dire, et ils n'échangent que des banalités. Et pourtant... Ici non plus, la vocalisation ne doit pas se contenter de donner des « modèles » de prononciation. Quant aux timbres des voix, est-il souhaitable de restituer ceux de telle région précise de l'Espagne ? Les mêmes sentiments peuvent être exprimés par des acteurs différents, et ce sont les idées, les hésitations, les craintes, les remords, les silences qu'il faut donner, non comme pâture et modèles à imiter, mais comme valeurs à commenter. Peu importent la province, la ville, l'époque que traduisent ces voix ; ce qui importe, c'est ce qu'elles expriment : les mots, certes, mais aussi les retenues, les hésitations, les changements de timbre, les silences... À partir de quoi nos élèves commentent, en langue actuelle et courante, ce qu'ils ont compris du passage qui leur a été proposé [2].

Une autre fonction de la vocalisation est de mobiliser plus vivement l'intérêt et l'attention que la lecture muette. On le constate à la fin d'un logiciel dans lequel l'exercice consiste à réduire à l'essentiel les échanges du Petit Prince avec sa rose lorsqu'il se sépare d'elle. Réduire à l'essentiel, c'est, ici, supprimer les termes qui évoquent l'activité du jardinier : l'arrosoir, la cloche, les chenilles, l'air froid de la nuit... Cet essentiel auquel on aboutit, c'est un dialogue de rupture, c'est un aveu d'échec, c'est la confidence d'une double blessure... C'est là, aussi et surtout, que la vocalisation peut obliger le lecteur inattentif à relire et à écouter le magnifique dialogue, résultat de ce qui, auparavant, semblait n'être qu'un jeu [3].

Le dialogue avec l'ordinateur

La troisième étape consiste dans la généralisation des réactions et des réponses vocales de l'ordinateur. L'interactivité (vocale ou non) est une réaction de l'ordinateur à une sollicitation mécanique de l'utilisateur : écran tactile, touches de fonction, souris...

Une des manières, actuellement, pour l'ordinateur, d'être interactif, c'est, à chaque mot d'un texte « cible », sur lequel un élève peut « cliquer », l'ouverture de fenêtres. Ce texte-cible peut être un texte en langue étrangère, ou même en langue maternelle, particulièrement dense : langue de spécialité technologique, ou langue littéraire et poétique.

Dans les fenêtres, Les textes « sources », quand ils sont vocalisés, donnent une impression plus immédiate d'échange, sans contrainte aucune de les écouter jusqu'au bout : le logiciel peut prévoir de diminuer ou d'augmenter le niveau sonore, de couper le son, ou d'afficher ou non ces texte-sources dans leurs fenêtres respectives.

Dans ce même ordre d'idées, l'écran peut afficher aussi des images-cibles. Par exemple, la reproduction d'un tableau d'un peintre. Des surfaces peuvent être sélectionnées pour être interactives ; et ces surfaces correspondent à des objets du tableau ou de l'image, à des personnages remarquables.

L'interactivité adoptée déclenche une réponse vocale. On peut prévoir le temps où, dans les musées, au pied de plusieurs (ou de chaque) tableau(x), un écran tactile déclenchera une explication vocale, dans une langue préalablement choisie dans une liste offerte par l'ordinateur.

On dira que l'ordinateur « dialogue » lorsqu'il produit du langage en réponse à du langage de l'utilisateur. Généralement, l'ordinateur prend l'initiative sous forme de questions. Le dialogue peut être muet, mixte, ou vocal.

Dans le dialogue « muet », les deux partenaires communiquent par écrit. Ce qui suppose, de la part de l'ordinateur, un talent certain pour reconnaître des informations parmi celles que lui fournit l'utilisateur.

Les recherches linguistiques dans l'analyse, par l'ordinateur, des chaînes de caractères écrites par l'utilisateur, avancent lentement. On peut en donner une légère idée.

Il est d'abord essentiel d'accorder à l'ordinateur une marge, sur laquelle les pédagogues peuvent disputer, de tolérances, d'approximations, et d'inexactitudes. Ainsi, les « fautes » diverses : d'accents, d'orthographe, de majuscules, de ponctuation, d'espaces entre les mots, doivent être considérées comme autant de manières de prononcer une langue : la limite de tolérance étant l'obscurcissement absolu du sens. Ces « fautes », recensées, restent en mémoire : l'ordinateur ne les affiche jamais, mais il reconnaît leur sens, leur intention d'expression, et peut ainsi leur apporter une réponse adéquate. Cette réserve doit prévoir, bien sûr, les mots plus ou moins synonymes, les équivalences lexicales et syntaxiques.

La recherche linguistique s'est orientée d'abord vers les équivalences lexicales : « Cette scène se passe-t-elle pendant le jour, ou durant la nuit ? ». Économisant la totalité de la phrase, surtout en langue maternelle, dans laquelle l'utilisateur est censé ne pas user d'une syntaxe inintelligible, l'ordinateur peut être « dressé » à réagir à l'apparition de l'un ou de l'autre de ces deux mots. Dans un second temps, on s'est aperçu qu'il était prudent de tenir compte des négations, qui permettent de poser les équations inverses : non (ou « ne... pas ») + jour = nuit. Dans un troisième temps, l'expérience a montré qu'il est prudent, également, d'associer aux mots-clés imposés ou proposés dans la question, des synonymes : jour = clarté, ou lumière, ou non (ou ne) + ténèbres, ou non (ou ne) + obscurité, ou non (ou ne) + nuit ... etc. [4].

Dans le dialogue mixte, et sur la base de cette même analyse des réponses écrites de l'élève, la réponse de l'ordinateur est vocale.

Dans le dialogue vocal, il faut que l'ordinateur reconnaisse du sens dans l'expression orale, prévue ou imprévue, d'une voix connue ou particulière...

Par ailleurs, l'écran de l'ordinateur peut afficher, en même temps qu'il les prononce, la forme écrite de ses question et réponses. Pourquoi ne pas afficher ce qu'il comprend, ou croit entendre, ce qui supprimerait les malentendus de certaines de ses réponses ?

Ces possibilités technologiques ne se contentent pas de surclasser tous les outils précédents, papier, bandes magnétiques, disques divers... L'ordinateur ajoute aux fonctions connues cette faculté extraordinaire de se faire passer pour le professeur, et donc d'être capable de se substituer à lui en cas de défaillance. La maladie, l'éloignement, l'isolement, peuvent affecter les études d'un élève ou d'un étudiant. La réussite aux examens est un autre moyen d'être privé d'un enseignant admiré.

Lorsque l'ordinateur sera devenu vocalement capable, non seulement d'interactivité, mais aussi de communicativité, il pourra rivaliser avec le professeur, comme « modèle » de diction (déjà les outils construits dans le pays dont il enseigne la langue l'y aident), mais surtout comme interlocuteur, dans le double sens de la forme dialoguée, et du contenu des informations échangées.

Même « muet », un ordinateur peut être « dressé », par un logiciel adéquat, à répondre à toute sollicitation, à satisfaire toute demande d'information de la part de l'élève, à encourager et à complimenter ce dernier. Cet ordinateur dialogue cependant « en langage » (écrit).

Mais si, de plus, il est doté d'une voix particulière, d'un âge donné, masculine ou féminine, avec ses intonations spécifiques et inimitables, alors cet ordinateur devient un véritable partenaire domestique.

Cette perspective n'est-elle pas consolante pour les anciens « cancres », rebutés par l'école, et qui se paient à domicile un maître qui, comme un esclave (ce qui fut le premier emploi du « pédagogue »), est toujours à sa disposition pour lui communiquer, sans honte publique et sans contrôle administratif, tout son savoir, et son savoir-penser ?

Cette perspective n'est-elle pas consolante, également, pour ceux qui ont connu un excellent maître, qu'ils ont vénéré, mais dont ils ont perdu l'enseignement parce que l'institution leur a accordé un diplôme ?

Michel Gauthier
Professeur de Linguistique - Paris V

Paru dans la Revue de l'EPI n° 75 de septembre 1994.
Vous pouvez télécharger cet article au format .pdf (100 Ko).

NOTES

[1]. Demander le catalogue de la SARL « M.I.R.E.I.L.L.E » (Méthode Informatique Rapide pour l'Explication Interactive de Littératures en Langues Étrangères), 47 Boulevard Guy Marie Riobé, 45000 Orléans. Tél : 38 53 88 72 et Fax : 38 53 09 51. Les logiciels sont vocalisés avec carte Sound Blaster 16. Plusieurs logiciels sont accessibles, sur rendez-vous, à la médiathèque de la Cité des Sciences de la Villette (Mme Muller 40 05 70 54). Les logiciels muets peuvent être consultés sur rendez-vous au Laboratoire de Pédagogie Expérimentale et de Linguistique Appliquée de l'Institut Universitaire de Technologie de Paris. S'adresser à « Mireille ». Le titre du premier logiciel évoqué est : « Las vecinas », extrait de « Bodas de sangre » de Federico García Lorca. Entraînement à la traduction, texte muet: 340 F; texte vocal. 490 Fr. Double entraînement à la traduction et au commentaire : version muette, 725 F; version vocale, 990 F.

[2]. Ce logiciel « Mireille » (note 1) s'intitule : « Raquel », extrait du roman de Casado Nieto : « Un lugar en el tiempo ». Mêmes conditions que précédemment, « Las vecinas », extrait de « Bodas de sangre » (même note 1)

[3]. Ce logiciel « Mireille » (note 1) s'intitule « Le Petit Prince I ». Le texte, extrait du roman de Saint Exupéry, est destiné à être réduit par l'élève. Prix : texte et commentaires muets, en français : 400 F. Texte français muet et commentaires muets en anglais, ou allemand ou espagnol, ou italien : 490 F ; texte français vocalisé et commentaires muets en anglais, ou allemand, ou espagnol, ou italien : 590 F.
(« Le Petit Prince II » est un commentaire fondé sur l'explication mot à mot du texte : « Le Petit Prince I »).

[4]. Ce logiciel « Mireille » (voir note 1) s'intitule « La documentación », d'après le roman de R. Solis : « Un lugar en el tiempo ».(muet 340 F).

___________________
Association EPI

Sommaires des Revues