Informatique, orthographe et langues naturelles

Maurice Nivat
 

   Une chose est particulièrement agaçante et nuit, je pense, beaucoup à l'image de l'informatique, accréditant l'idée qu'elle n'est qu'un bricolage pas très scientifique. C'est que les correcteurs d'orthographe font des fautes et voient des fautes là où il n'y en a pas.

   Il me parait nécessaire d'inclure dans un premier enseignement d'informatique tel que celui qui sera délivré en terminale S des explications à ce phénomène qui pourraient prendre deux ou trois heures.

1. Qu'est ce que le français ?

   La première question à se poser devant un texte, avant de songer à en vérifier l'orthographe et de corriger les fautes éventuelles qu'il contient est : est-ce que c'est du français ? 
Et la question est beaucoup moins simple qu'il n'y parait.

*Ekri vékom vouvou lé
est du français phonétique, prononcé à la française, il se comprend parfaitement, c'est une phrase correcte mal, même très mal, orthographiée.

*Ekii vékom vou veu
n'est pas du français car il y a une grave erreur de syntaxe, le verbe vouloir n'est pas conjugué comme il faut. Noter quand même que la phrase est compréhensible, avec un peu d'effort et qu'on l'admettra, en la corrigeant, dans la bouche de quelqu'un qui apprend notre langue et ne maîtrise pas encore la conjugaison.

   La question « est-ce du français ? » est si peu simple qu'il n'y est jamais répondu complètement et que d'une certaine façon il n'est pas possible d'y répondre : tous les écrivains, de Rabelais, Ronsard ou Molière à Claudel, Céline, Sartre ou Aragon, ont écrit des phrases qui n'étaient pas françaises avant qu'ils les aient écrites et le sont devenues parce qu'ils les ont écrites. La langue change et s'enrichit chaque jour et ses frontières sont très imprécises.

   Si on cherche à savoir si quelque chose est français ou non on peut simplement se demander si « ça se dit » ou si « ça ne se dit pas ». Par exemple je puis dire, à coup sûr :
 Monsieur X est un homme de poids.

   Et sans doute aussi, mais vous voyez tout de suite que c'est moins évident :
 Monsieur X est un homme de grand poids.

   Je ne pense pas que l'on puisse dire :
*Monsieur X est un homme de petit poids.

   Toute langue est faite de syntaxe, des règles de grammaire permettent de former des phrases et de dire si une phrase est bien formée ou non. La syntaxe est en général assez bien définie, on l'apprend à l'école et des grammairiens s'en occupent.

   Et elle est aussi faite de sémantique : une phrase, même syntaxiquement bien formée, n'est du français que si elle a un sens.
Les deux phrases suivantes ont-elles un sens ?
 Monsieur X est un homme de poix
 Monsieur X est un homme de pois
(la poix est cette substance que les défenseurs d'un château jetaient, fondue, sur leurs assaillants, le pois est la légumineuse bien connue).

   La réponse, un peu de Normand, est oui et non.

   Si vous entendez M. X est un homme de poids, vous comprenez généralement qu'il s'agit de poids et non de poix ou de pois. Car l'expression homme de poids est un élément du vocabulaire et à des chances de figurer parmi les entrées de votre dictionnaire avec une définition comme « homme dont l'avis compte » ou « homme qui peut peser sur des décisions ». Il est effectivement dans le Robert méthodique avec comme définition « homme influent ».

   Ce n'est que dans des contextes très particuliers que homme de pois et homme de poix peuvent prendre sens. Évidemment le correcteur d'orthographe qui ignore le contexte va rejeter dans cette phrase les orthographes poix et pois pour ne retenir que l'orthographe poids.

   Olivier Bonami, linguiste, membre de l'IUF m'a fourni le petit texte suivant dans lequel « homme de pois » prend sens :
« Paul est un maraîcher qui cultive des petits pois depuis 15 ans, au point qu'il est réputé auprès des restaurateurs de la région comme étant le meilleur fournisseur pour les jardinières de légume du printemps. Cette année, la région a décidé de favoriser la culture des haricots verts, sous l'influence d'un fabricant de conserves qui en fait une grosse consommation. La plupart des collègues de Paul se sont mis à cultiver des haricots, mais on ne se refait pas : Paul est un homme de pois, et il le restera jusqu'à la retraite. »
Et l'on peut remarquer que dans ce texte il n'est pas évident que l'on puisse écrire homme de petit pois au lieu de homme de pois.

   La sémantique n'est pas du tout descriptible comme la syntaxe et l'analyse sémantique qui permettrait au correcteur d'orthographe que c'est bien homme de pois que vous avez voulu écrire n'est pas aujourd'hui possible, ou du moins elle serait tellement coûteuse qu'on l'imagine mal incorporée à un correcteur d'orthographe.

   Pour réfléchir à la question qu'est-ce que le français on peut se demander combien il y a de fautes dans la phrase
 Ekri vékom vouvou lé
qui est phonétiquement correcte mais écrite n'importe comment. Et regardez ce que le correcteur de Word qui a souligné en rouge Ekri, vékom, vouvou au fur et à mesure propose comme remplacement. De fait le correcteur ne propose rien qui fasse sens car la découpe de la phrase en mots n'est pas bonne.

   L'exercice n'est pas vain dans la mesure où le langage des SMS est aussi un langage phonétique.

2. Vocabulaire

   Le français est construit comme toute langue avec un corpus de mots donnant naissance à un nombre supérieur de formes fléchies, puisque substantifs et adjectifs peuvent porter la marque du féminin et/ou celle du pluriel et les verbes se conjuguent. Vérifier qu'un mot, une suite de lettres, appartient bien au dictionnaire des formes est visiblement ce qu'il y a de plus simple et tous les correcteurs d'orthographe le font.

   Mais évidemment ils ne peuvent rien en cas d'homophonie.

   Sur les quatre expressions :
 Un car de flics
*Un car de vin
*Un quart de flics

 Un quart de vin
les deux qui n'ont pas de sens et qui sont précédées d'un astérisque ne déclenchent aucun rejet de la part de mon correcteur.

   Les deux phrases absurdes :
*J'ai bu un car de vin
*Un quart de flics stationnent dans la rue

sont aussi admis par mon correcteur.

   Et là on n'y peut pas grand-chose.

   Nous avons vu que homme de poids doit être considéré comme un élément du vocabulaire admis, rien n'empêche d'écrire
*Homme de petit poids
qui, je pense, ni ne se dit ni ne s'écrit vraiment.

   Le rejet de la phrase
*Monsieur X est un homme de petit poids
est subtil, car la phrase est tout aussi bien formée que la phrase
 Monsieur X est un homme de grand poids
et elle est même compréhensible comme voulant dire :
Monsieur X ne pèse pas lourd. Simplement elle ne se dit pas.

   Maurice Gross a passé sa vie à étudier des phénomènes de ce genre et a conclu que le fait que l'expression « homme de Subst », où Subst est un substantif, est française ou non devrait être considérée comme relevant du dictionnaire, car la longue liste des substantifs pouvant apparaître dans une telle expression est un peu étrange, certains sont dans cette liste quand des synonymes très voisins n'y sont pas, ce qui exclut une règle sémantique pour décider de l'appartenance ou non d'un substantif à cette liste. Compiler cette liste n'est pas une mince affaire, et ce sont toutes les expressions figées comme celles-ci dont la liste devrait être dressée dans les dictionnaires du français. L'ampleur de la tâche apparaît quand on se rend compte qu'alors que le français emploie de cinquante à soixante mille mots le nombre d'expressions figées est certainement de plusieurs centaines de milliers.

   Et cela se complique encore quand on veut rajouter un adjectif.

   Les expressions
homme de loi, homme d'état, homme d'église, homme de paille
sont figées, au sens de Maurice Gross, car on ne peut rajouter d'adjectif portant sur loi, état, église ou paille.

   Homme de poids est figé car on ne peut rajouter les adjectifs que l'on veut, petit est par exemple à exclure.

   À vrai dire, bien que Maurice Gross ait entamé avec l'équipe du laboratoire d'automatique documentaire et linguistique qu'il dirigeait la compilation des expressions figées de la langue française, une liste complète n'existe pas.

   Et pourtant notre pauvre correcteur d'orthographe en a absolument besoin car il devra écrire :
 des hommes de loi sévères
Et rejeter :
*des hommes de lois sévères
*des hommes de loi sévère.

   Le potache à qui l'on demande de savoir l'orthographe a tout autant que le correcteur d'orthographe besoin de cette liste pour écrire correctement sous la dictée
Je me suis trouvé en présence d'hommes de loi sévères.

   Il y a une espèce de miracle (j'entends par là phénomène inexpliqué à ce jour) dans le fait qu'un locuteur Français connaisse en fait pratiquement toutes les expressions figées, même si la liste n'en a jamais été dressée par personne, et en plus fluctue au cours du temps, certaines disparaissant quand d'autres se créent. C'est le mystère de la langue qui fait que nous reconnaissons comme françaises et arrivons presque toujours à orthographier correctement des phrases que non seulement nous n'avons jamais entendu prononcer mais que nous comprenons mal.

3. Syntaxe

   C'est aussi la grammaire que l'on passe un temps considérable à enseigner à nos enfants dès leur entrée à l'école primaire à l'âge de six ans.

   La phrase a une structure qui se représente bien comme un arbre et qui permet de décomposer la phrase en syntagmes, syntagmes nominaux, syntagmes verbaux, compléments de diverses natures.

   L'analyse syntaxique est la recherche de la structure d'une phrase, structure qu'il est nécessaire de connaître pour comprendre la phrase et aussi pour l'orthographier et respecter les règles d'accord. L'accord consiste à faire porter par un adjectif, un pronom ou un participe passé les mêmes marques du féminin et/ou du pluriel que le substantif auquel il se rapporte. Tout cela est bien dur pour les enfants et aussi pour beaucoup d'adultes ! Et bien dur pour les correcteurs d'orthographe ou plutôt impossible s'ils corrigent on line, c'est-à-dire corrigent un mot dès qu'il est écrit, car il est facile de se rendre compte sur des exemples que la structure de le phrase dépend de toute la phrase et non pas seulement de son début.
*De sévère hommes de loi
déclenche mon correcteur qui souligne en vert sévère et hommes, mais
*De farouche et sévères hommes de loi
ne le déclenche pas !

4. Sémantique

   Nous avons déjà vu que les deux phrases
*J'ai bu un car de vin
*Un quart de flics stationne dans la rue

contiennent chacune une faute grossière : la première parce qu'un car ne se boit pas, qu'il soit de flics ou de touristes. La seconde parce que sans doute si l'on peut imaginer un quart de flic (qui aurait été découpé en morceau, par exemple après l'explosion d'une bombe) on le voit mal stationner dans la rue.

   Ce sont des considérations sémantiques qui font rejeter ces deux orthographes.

   Il faut bien voir alors que l'immense majorité des suites de mots formant des phrases syntaxiquement correctes n'ont aucun sens, bien qu'il faille être très prudent. Il peut suffire qu'un poète (Paul Éluard) écrive que
la terre est bleue comme une orange
pour que la terre puisse, contre toute intuition, être considérée comme aussi bleue qu'une orange.

   Laurence Danlos, professeur de linguistique à Paris Diderot m'a fourni la phrase
*j'ai pris comme désert un éclair au chocolat
qui contient une faute (désert au lieu de dessert) que probablement aucun des correcteurs d'orthographe actuels, même le plus sophistiqué d'entre eux, n'est capable de déceler.

5. Conclusion

   Le grand paradoxe dans tout cela est que l'algorithme dont les élèves entendent le plus souvent parler, à l'apprentissage duquel ils consacrent le plus de temps sur les bancs des écoles, et dont on exige qu'ils le maîtrisent parfaitement, celui de l'orthographe, n'est complètement décrit nulle part et comporte qu'on le veuille ou non une large part d'incertitude.

   Deux ou trois heures de cours où l'on dirait aux élèves ce que sont le vocabulaire, la syntaxe et la sémantique et ce qui, dans l'algorithme de l'orthographe, relève de l'une ou de l'autre seraient, à mon avis, bien utiles.

   D'autant plus que ces notions sont essentielles à l'activité de recherche que ce soit dans une base de données ou sur le net et à la compréhension du fonctionnement des moteurs de recherche. Se rendre compte que la langue naturelle contient des redondances et des ambiguïtés permettrait aussi de comparer la langue naturelle aux langages symboliques de programmation et à mieux comprendre leur raison d'être. Intermédiaires entre les langages tout à fait artificiels de programmation et les langues naturelles, il y a les langages d'interrogation de bases de données, comme SQL, qui ont une syntaxe qui les rapproche des langages de programmation et une sémantique plus voisine de celle d'une langue vernaculaire. Interroger le net amène aussi à poser le problème de la sémantique : en fait cela se fait presque en langage naturel, en tout cas on peut taper dans la fenêtre du moteur de recherche utilisé n'importe quoi, et les réponses sont fonction du sens que le moteur attribue à ce que l'on a tapé, sens qui n'est pas vraiment défini (il y a bien un algorithme utilisé par le moteur pour attribuer ce sens, mais il est inconnu de l'immense majorité des utilisateurs, caché pour des raisons de secret industriel, si bien que tout ce que peuvent faire les utilisateurs c'est le reconstituer approximativement à partir de l'expérience) Toujours dans la même veine, il ne serait pas inutile non plus de comparer langages de programmation, langues naturelles et langage mathématique. Ce dernier peut être considéré comme formé d'un grand nombre d'abréviations permettant de ne pas trop se répéter, mais nombre d'abréviations posent problème : que veut dire, par exemple simplifier une expression arithmétique, chose qui est demandée aux élèves très souvent, tant au collège qu'au lycée, et dont j'ai eu tout le loisir de constater en 40 ans d'enseignement qu'elle n'a rien d'évident aux yeux des élèves.

   In fine, parti de simples remarques sur les correcteurs d'orthographe, je m'aperçois que la sémantique (la plus naïve, je n'ai pas du tout abordé le problème de la sémantique formelle) qui intervient très souvent nécessite sans doute plus de trois heures de cours.

Maurice Nivat
Membre correspondant de l'Académie des Sciences

___________________
Association EPI
Juin 2010

Accueil Informatique et TIC Articles