Informatique, orthographe et langues naturelles Maurice Nivat Une chose est particulièrement agaçante et nuit, je pense, beaucoup à l'image de l'informatique, accréditant l'idée qu'elle n'est qu'un bricolage pas très scientifique. C'est que les correcteurs d'orthographe font des fautes et voient des fautes là où il n'y en a pas. Il me parait nécessaire d'inclure dans un premier enseignement d'informatique tel que celui qui sera délivré en terminale S des explications à ce phénomène qui pourraient prendre deux ou trois heures. 1. Qu'est ce que le français ? La première question à se poser devant un texte, avant de songer à en vérifier l'orthographe et de corriger les fautes éventuelles qu'il contient est : est-ce que c'est du français ? *Ekri vékom vouvou lé *Ekii vékom vou veu La question « est-ce du français ? » est si peu simple qu'il n'y est jamais répondu complètement et que d'une certaine façon il n'est pas possible d'y répondre : tous les écrivains, de Rabelais, Ronsard ou Molière à Claudel, Céline, Sartre ou Aragon, ont écrit des phrases qui n'étaient pas françaises avant qu'ils les aient écrites et le sont devenues parce qu'ils les ont écrites. La langue change et s'enrichit chaque jour et ses frontières sont très imprécises. Si on cherche à savoir si quelque chose est français ou non on peut simplement se demander si « ça se dit » ou si « ça ne se dit pas ». Par exemple je puis dire, à coup sûr : Et sans doute aussi, mais vous voyez tout de suite que c'est moins évident : Je ne pense pas que l'on puisse dire : Toute langue est faite de syntaxe, des règles de grammaire permettent de former des phrases et de dire si une phrase est bien formée ou non. La syntaxe est en général assez bien définie, on l'apprend à l'école et des grammairiens s'en occupent. Et elle est aussi faite de sémantique : une phrase, même syntaxiquement bien formée, n'est du français que si elle a un sens. La réponse, un peu de Normand, est oui et non. Si vous entendez M. X est un homme de poids, vous comprenez généralement qu'il s'agit de poids et non de poix ou de pois. Car l'expression homme de poids est un élément du vocabulaire et à des chances de figurer parmi les entrées de votre dictionnaire avec une définition comme « homme dont l'avis compte » ou « homme qui peut peser sur des décisions ». Il est effectivement dans le Robert méthodique avec comme définition « homme influent ». Ce n'est que dans des contextes très particuliers que homme de pois et homme de poix peuvent prendre sens. Évidemment le correcteur d'orthographe qui ignore le contexte va rejeter dans cette phrase les orthographes poix et pois pour ne retenir que l'orthographe poids. Olivier Bonami, linguiste, membre de l'IUF m'a fourni le petit texte suivant dans lequel « homme de pois » prend sens : La sémantique n'est pas du tout descriptible comme la syntaxe et l'analyse sémantique qui permettrait au correcteur d'orthographe que c'est bien homme de pois que vous avez voulu écrire n'est pas aujourd'hui possible, ou du moins elle serait tellement coûteuse qu'on l'imagine mal incorporée à un correcteur d'orthographe. Pour réfléchir à la question qu'est-ce que le français on peut se demander combien il y a de fautes dans la phrase L'exercice n'est pas vain dans la mesure où le langage des SMS est aussi un langage phonétique. 2. Vocabulaire Le français est construit comme toute langue avec un corpus de mots donnant naissance à un nombre supérieur de formes fléchies, puisque substantifs et adjectifs peuvent porter la marque du féminin et/ou celle du pluriel et les verbes se conjuguent. Vérifier qu'un mot, une suite de lettres, appartient bien au dictionnaire des formes est visiblement ce qu'il y a de plus simple et tous les correcteurs d'orthographe le font. Mais évidemment ils ne peuvent rien en cas d'homophonie. Sur les quatre expressions : Les deux phrases absurdes : Et là on n'y peut pas grand-chose. Nous avons vu que homme de poids doit être considéré comme un élément du vocabulaire admis, rien n'empêche d'écrire Le rejet de la phrase Maurice Gross a passé sa vie à étudier des phénomènes de ce genre et a conclu que le fait que l'expression « homme de Subst », où Subst est un substantif, est française ou non devrait être considérée comme relevant du dictionnaire, car la longue liste des substantifs pouvant apparaître dans une telle expression est un peu étrange, certains sont dans cette liste quand des synonymes très voisins n'y sont pas, ce qui exclut une règle sémantique pour décider de l'appartenance ou non d'un substantif à cette liste. Compiler cette liste n'est pas une mince affaire, et ce sont toutes les expressions figées comme celles-ci dont la liste devrait être dressée dans les dictionnaires du français. L'ampleur de la tâche apparaît quand on se rend compte qu'alors que le français emploie de cinquante à soixante mille mots le nombre d'expressions figées est certainement de plusieurs centaines de milliers. Et cela se complique encore quand on veut rajouter un adjectif. Les expressions Homme de poids est figé car on ne peut rajouter les adjectifs que l'on veut, petit est par exemple à exclure. À vrai dire, bien que Maurice Gross ait entamé avec l'équipe du laboratoire d'automatique documentaire et linguistique qu'il dirigeait la compilation des expressions figées de la langue française, une liste complète n'existe pas. Et pourtant notre pauvre correcteur d'orthographe en a absolument besoin car il devra écrire : Le potache à qui l'on demande de savoir l'orthographe a tout autant que le correcteur d'orthographe besoin de cette liste pour écrire correctement sous la dictée Il y a une espèce de miracle (j'entends par là phénomène inexpliqué à ce jour) dans le fait qu'un locuteur Français connaisse en fait pratiquement toutes les expressions figées, même si la liste n'en a jamais été dressée par personne, et en plus fluctue au cours du temps, certaines disparaissant quand d'autres se créent. C'est le mystère de la langue qui fait que nous reconnaissons comme françaises et arrivons presque toujours à orthographier correctement des phrases que non seulement nous n'avons jamais entendu prononcer mais que nous comprenons mal. 3. Syntaxe C'est aussi la grammaire que l'on passe un temps considérable à enseigner à nos enfants dès leur entrée à l'école primaire à l'âge de six ans. La phrase a une structure qui se représente bien comme un arbre et qui permet de décomposer la phrase en syntagmes, syntagmes nominaux, syntagmes verbaux, compléments de diverses natures. L'analyse syntaxique est la recherche de la structure d'une phrase, structure qu'il est nécessaire de connaître pour comprendre la phrase et aussi pour l'orthographier et respecter les règles d'accord. L'accord consiste à faire porter par un adjectif, un pronom ou un participe passé les mêmes marques du féminin et/ou du pluriel que le substantif auquel il se rapporte. Tout cela est bien dur pour les enfants et aussi pour beaucoup d'adultes ! Et bien dur pour les correcteurs d'orthographe ou plutôt impossible s'ils corrigent on line, c'est-à-dire corrigent un mot dès qu'il est écrit, car il est facile de se rendre compte sur des exemples que la structure de le phrase dépend de toute la phrase et non pas seulement de son début. 4. Sémantique Nous avons déjà vu que les deux phrases Ce sont des considérations sémantiques qui font rejeter ces deux orthographes. Il faut bien voir alors que l'immense majorité des suites de mots formant des phrases syntaxiquement correctes n'ont aucun sens, bien qu'il faille être très prudent. Il peut suffire qu'un poète (Paul Éluard) écrive que Laurence Danlos, professeur de linguistique à Paris Diderot m'a fourni la phrase 5. Conclusion Le grand paradoxe dans tout cela est que l'algorithme dont les élèves entendent le plus souvent parler, à l'apprentissage duquel ils consacrent le plus de temps sur les bancs des écoles, et dont on exige qu'ils le maîtrisent parfaitement, celui de l'orthographe, n'est complètement décrit nulle part et comporte qu'on le veuille ou non une large part d'incertitude. Deux ou trois heures de cours où l'on dirait aux élèves ce que sont le vocabulaire, la syntaxe et la sémantique et ce qui, dans l'algorithme de l'orthographe, relève de l'une ou de l'autre seraient, à mon avis, bien utiles. D'autant plus que ces notions sont essentielles à l'activité de recherche que ce soit dans une base de données ou sur le net et à la compréhension du fonctionnement des moteurs de recherche. Se rendre compte que la langue naturelle contient des redondances et des ambiguïtés permettrait aussi de comparer la langue naturelle aux langages symboliques de programmation et à mieux comprendre leur raison d'être. Intermédiaires entre les langages tout à fait artificiels de programmation et les langues naturelles, il y a les langages d'interrogation de bases de données, comme SQL, qui ont une syntaxe qui les rapproche des langages de programmation et une sémantique plus voisine de celle d'une langue vernaculaire. Interroger le net amène aussi à poser le problème de la sémantique : en fait cela se fait presque en langage naturel, en tout cas on peut taper dans la fenêtre du moteur de recherche utilisé n'importe quoi, et les réponses sont fonction du sens que le moteur attribue à ce que l'on a tapé, sens qui n'est pas vraiment défini (il y a bien un algorithme utilisé par le moteur pour attribuer ce sens, mais il est inconnu de l'immense majorité des utilisateurs, caché pour des raisons de secret industriel, si bien que tout ce que peuvent faire les utilisateurs c'est le reconstituer approximativement à partir de l'expérience) Toujours dans la même veine, il ne serait pas inutile non plus de comparer langages de programmation, langues naturelles et langage mathématique. Ce dernier peut être considéré comme formé d'un grand nombre d'abréviations permettant de ne pas trop se répéter, mais nombre d'abréviations posent problème : que veut dire, par exemple simplifier une expression arithmétique, chose qui est demandée aux élèves très souvent, tant au collège qu'au lycée, et dont j'ai eu tout le loisir de constater en 40 ans d'enseignement qu'elle n'a rien d'évident aux yeux des élèves. In fine, parti de simples remarques sur les correcteurs d'orthographe, je m'aperçois que la sémantique (la plus naïve, je n'ai pas du tout abordé le problème de la sémantique formelle) qui intervient très souvent nécessite sans doute plus de trois heures de cours. Maurice Nivat ___________________ |
Informatique et TIC | Articles |