Logiciel et environnement de traitement statistique R :
quelles ressources pour les utilisateurs francophones ?

Mehdi Khaneboubi
 

Résumé
Le but de ce texte est de présenter de façon synthétique les ressources utiles pour former et se former à l'usage du logiciel
R et du langage S. Il présente des ressources en ligne et en bibliothèque disponibles en français. Au travers de ces ressources on voit apparaître les communautés francophones qui utilisent R. Les sciences humaines y sont peu représentées, pourtant R présente des singularités propices à un enseignement inspiré des théories constructivistes.

Mots-Clés : R, logiciel de traitement statistique, ressources bibliographiques, communauté de pratique.

Introduction

   R est un logiciel et un langage de traitements statistiques. Il s'agit d'un langage orienté objet issu du langage S. Le langage S a été développé par les laboratoires Bell à la fin des années 70 (Chambers, 2001). « Le langage R est un environnement libre distribué sous licence GPL, qui est parfois qualifié de "clone libre" de S. Plus précisément, il s'agit d'un projet différent, basé sur le langage S (...) » (Chambers, 2001). En 1996, deux chercheurs de l'Université d'Auckland, Ross Ihaka et Robert Gentleman (1996) ont conçu R en se basant sur le langage S et le langage SCHEME issu du LISP. On pourra s'informer sur les différences entre R et S en consultant la foire aux questions du site du projet R (Hornik, 2008). On utilise dans ce qui suit le terme de « code S » pour faire référence à des scripts ou au langage de programmation utilisé dans et par R et on fait référence au « logiciel R ». Les différences entre le code S et le code R étant ténues il s'agit essentiellement d'éviter l'équivoque entre le langage et le logiciel.

R un logiciel adapté à l'enseignement

   Dans l'avant-propos d'un ouvrage qui traite de l'analyse des données avec R, Jean-Paul Benzecri raconte comment les statisticiens utilisaient les ordinateurs dans les années 60 (Murtagh, 2005). Depuis cette époque, l'augmentation des puissances de calculs des ordinateurs a généré des nouveaux usages des statistiques. Désormais ceux qui utilisent les statistiques peuvent accorder davantage d'importance à l'interprétation des résultats et à la formalisation des données plutôt qu'aux calculs.

   Depuis les années 60, les logiciels de traitements statistiques se sont aussi diversifiés et multipliés. Il n'est pas aisé d'en établir une typologie exhaustive. Stéphane Tuffery (2007) fait notamment une distinction entre les logiciels multi-techniques comme R ou SPSS et les logiciels spécialisés dans une technique particulière. Une autre distinction pourrait être faite selon le degré de compétence en programmation requis pour les utiliser. Dans cette perspective on pourra classer dans la catégorie « clé en mains » des logiciels comme Sphinx, SPSS, Modalisa ou les ensembles de macros pour tableur comme Xlstat, Statbox ou ooostat. Ce type de logiciel est parfois qualifié de « cliquodrôme » par certains informaticiens. Dans la catégorie des logiciels nécessitant des compétences en programmation, y compris des compétences peu poussées, on peut classer Excel, R et SAS. Quant aux logiciels comme Trideux, DtmVic ou C.H.I.C. on peut les qualifier de logiciels ad hoc.

   R présente des avantages multiples. Tout d'abord les représentations graphiques sont extrêmement personnalisables. En outre il dispose d'une importante communauté de développeurs issus des milieux académiques qui publient des mises à jour fréquemment et développent un grand nombre des algorithmes qui sont absents des grands logiciels commerciaux.

   À l'origine R était un logiciel ad hoc destiné à l'enseignement et à l'apprentissage des statistiques. Trois caractéristiques techniques font de R un logiciel particulier dans ses usages et adapté à l'enseignement. Tout d'abord R s'utilise dans une console. Contrairement à la majorité des logiciels de statistiques par défaut R pour GNU/linux n'a pas d'interface graphique et son interface graphique sous Windows et MacOS est particulièrement spartiate. En outre R permet de travailler les données d'une façon singulière. Comme il s'agit d'un langage orienté objet on peut manipuler facilement ces objets. Cela permet de traiter les données ou les résultats de calculs d'une façon très souple. De ce fait on ne visualise pas les données comme dans un tableur. Cet aspect nécessite de connaître les données et les opérations à effectuer. Enfin R est un langage de programmation qui est interprété et non compilé : les commandes entrées par l'utilisateur dans la console sont aussitôt exécutées et leur résultat est affiché si nécessaire. C'est donc un outil qui est conçu pour rétroagir avec l'utilisateur. Ces trois caractéristiques permettent d'envisager un enseignement et un apprentissage des statistiques avec R de façon constructiviste. D'une part parce que l'apprentissage d'un langage de programmation implique la pratique d'algorithmique (Baron, 1994, 50) mais aussi parce que R offre la possibilité de mettre en oeuvre des résolutions de problèmes aussi bien canoniques que globaux. Dans des conditions didactiques maîtrisées, R permettra probablement de répondre en partie aux questions qui se sont posées et qui se posent encore à propos des tableurs (Baron, 2006).

   Un des inconvénients de ce type d'application est qu'elle nécessite une longue période d'apprentissage. Pour s'initier ou accompagner une formation beaucoup de ressources en anglais sont disponibles. La plupart des ouvrages sont en anglais et sont publiés chez Springer et chez Chapman and Hall. Chez Springer une collection est même consacrée à R. En langue française les ouvrages sont peu nombreux (en janvier 2009). Les ressources sur le net sont plus nombreuses. L'objet de cet article est de présenter les ressources disponibles sur le net et en bibliothèque pour les utilisateurs francophones et notamment pour ceux qui sont issus des Sciences Sociales et qui sont peu familiers avec la programmation. Quelles sont les particularités des ressources qui portent sur R ? Quels types d'informations et de connaissances sont mis en valeur par leurs auteurs ?

Recherche de ressources bibliographiques

   J'ai constitué une base de données bibliographiques avec le logiciel Wikindx en cherchant à recenser des ressources autour de R (Khaneboubi, 2008) et en particulier en essayant d'être systématique avec les ressources francophones. Lors du travail de collecte de références bibliographiques toujours en cours, j'ai notamment cherché à repérer les ressources francophones. Pour trouver des ouvrages francophones j'ai effectué une recherche bibliographique sur les sites suivants : Amazon.fr, Googlebooks, le site des éditions Dunod, le site des Presses Universitaires de Rennes, le site des éditions Technip. Pour trouver des ressources en ligne, j'ai commencé par explorer le site du Comprehensive R Archive Network [1] (CRAN), le forum consacré à R du Centre de Coopération Internationale en Recherche Agronomique pour le Développement [2] (CIRAD), les liens depuis la notice du logiciel de framasoft [3] et les liens depuis l'article francophone de Wikipédia [4].

   Cette contribution présente donc trois types de ressources documentaires : des ouvrages, des documents disponibles sur le web et ce que je nomme des ressources dynamiques (forum, canal irc, wiki et listes de discussions). Nous allons d'abord présenter un classement des ouvrages et de documents au format pdf dits aboutis sur le web (qui ne soient pas des notes personnelles ni des supports de cours) puis des documents moins aboutis et des ressources dynamiques.

Résultats

Documents d'initiation

   Les documentations d'initiation ont un schéma général de présentation en commun ainsi que des thèmes abordés récurrents. Le plus souvent, ils présentent les grandes lignes de l'utilisation courante de R : installation, consultation de l'aide, configuration du répertoire de travail, installation de librairies. Ensuite, on trouve généralement des explications sur comment importer, exporter et manipuler des données, les principes d'usage et de nature des objets, des arguments et des fonctions graphiques. Il est fréquent que l'on trouve des exemples d'usage de R sur des statistiques univariées et/ou bivariées. Enfin, il est d'usage de rédiger une présentation des principes élémentaires de programmation en S.

   Ainsi le document intitulé R pour les débutants (Paradis, 2002), fréquemment cité et disponible sur le site du projet, suit ce schéma. C'est aussi le cas du document récent intitulé R pour les sociologues (et assimilé) (Barnier, 2008a) où figure une présentation de la librairie odfWeave qui permet de générer automatiquement des documents open office writer contenant du code S qui sera mis en forme par R, ainsi qu'un chapitre complet présentant les ressources utiles pour un utilisateur débutant. Un ouvrage récent intitulé Statistiques avec R (Cornillon et al., 2008) publié aux Presses Universitaires de Rennes présente une structure un peu différente des autres documents. Il se compose en deux parties. On trouve tout d'abord une présentation des principes élémentaires d'usages de R et du langage S. Dans sa deuxième partie, cet ouvrage présente une série de fiches qui sont des résumés des méthodes statistiques les plus utilisées (régression logistique, ACP, AFC, ACM, Classification Ascendante Hiérarchique...) et leurs applications pas à pas avec R. L'aspect synthétique et appliqué de cet ouvrage est particulièrement utile pour un débutant peu familier avec la programmation.

   L'unique document en français que j'ai trouvé traitant exclusivement de programmation est intitulé Introduction à la programmation en S (Goulet, 2007). Il présente en détail comment programmer en langage S. En revanche, il ne présente que peu d'exemples d'usage de méthodes statistiques pour les Sciences Humaines et Sociales, il intéressera plus ceux qui veulent traiter des données quantitatives et construire des modèles de mathématiques financières. Les documentations d'initiations ont un schéma général de présentation en commun ainsi que des thèmes abordés récurrents. Le plus souvent, ils présentent les grandes lignes de l'utilisation courante de R : installation, consultation de l'aide, configuration du répertoire de travail, installation de librairies. Ensuite, on trouve généralement des explications sur comment importer, exporter et manipuler des données, les principes d'usage et de nature des objets, des arguments et des fonctions graphiques. Il est fréquent que l'on trouve des exemples d'usage de R sur des statistiques univariées et/ou bivariées. Enfin, il est d'usage de rédiger une présentation des principes élémentaires de programmation en S. En revanche, il ne présente que peu d'exemples d'usage de méthodes statistiques pour les Sciences Humaines et Sociales, il intéressera plus ceux qui veulent traiter des données quantitatives et construire des modèles de mathématiques financières. Brise Glace-R : (ouvrir la voie aux pôles statistiques) (Robinson & Schloesing, 2008) est un texte disponible sur le site du projet écrit par des auteurs issus respectivement du département de mathématiques et statistique de l'Université de Melbourne et du département de biostatistique de l'Université de Lille 2. Ce document récent de 135 pages, présente R en s'adressant plutôt à des biostatisticiens. Trois exemples d'utilisation complète sont faits sur les régressions linéaires, les classifications hiérarchiques et les modèles non linéaires.

   De façon générale, ce type de textes a la même structure que les ouvrages de références en anglais (cf. Verzani & Ripley, 2002 ; Dalgaard, 2008 ; Venables, 2005).

Document sur les statistiques présentant des exemples avec R ou S

   Cette partie présente des ouvrages et des documents en ligne propre au champ des statistiques. L'unique ouvrage figurant dans le catalogue en ligne des éditions Dunod et comportant des exemples en langage S est intitulé Le modèle linéaire par l'exemple : Régression, analyse de la variance et plans d'expériences illustrés avec R, SAS et Splus (Azaïs & Bardet, 2005). Cet ouvrage présente de façon détaillée différents éléments d'usages des régressions linéaires. Les exemples avec R sont souvent succincts mais les auteurs s'adressent plus à des statisticiens confirmés et habitués à utiliser des logiciels de traitements statistiques. L'autre ouvrage francophone que j'ai trouvé traitant de statistiques en langage S est intitulé Analyser les séries chronologiques avec S-Plus : Une approche paramétrique (Ferrara & Guégan, 2002). Il s'agit d'un ouvrage traitant de façon détaillée les possibilités qu'offre S-plus pour manipuler les séries chronologiques.

   Parmi les ouvrages que j'ai consultés un ouvrage intitulé Data Mining et statistique décisionnelle : L'intelligence des données (Tuffery, 2007) édité par les éditions Technip consacre un chapitre à la présentation de plusieurs logiciels de data mining et de traitement statistique. Les commandes les plus importantes de R sont indiquées. En outre une brève mais précise description des particularités de R par rapport à d'autres instruments est faite.

Ressources dynamiques et supports d'enseignements

Support de cours et pages personnelles

   Le pôle bio-informatique lyonnais de l'Université Lyon I a réalisé une ressource inévitable (Dufour et al., 2008) pour les utilisateurs francophones de R. Elle réunit un grand nombre de supports de cours traitant de nombreux champs de la statistique et de leur application avec R. Ces pages traitent un spectre très large d'utilisations de R. Outre les méthodes statistiques les plus fréquentes on trouve des documents d'initiation à des librairies particulières et notamment à la librairie sweave qui permet de compiler des documents latex comportant du code S.Un autre réservoir de support de cours utile à un utilisateur francophone est disponible sur le web. On y trouve les supports de cours d'André Bouchier (2007) enseignant à l'INRA de Montpellier. Parmi les caractéristiques distinctives de cette ressource en ligne y figurent des documents à propos de l'usage de statistiques multivariées avec R ainsi qu'un document intitulé R et base de données qui peut permettre de s'initier au data mining avec R. Un document moins abouti que les deux précédents mais tout aussi utile est la page intitulée Statistiques avec R (Zoonekynd, s.d.). La partie francophone de ce site est à l'abandon mais présente un grand nombre de mises en pratique de R pour les statistiques descriptives. Les exemples sont approfondis et complets. En revanche, il s'agit des notes personnelles de l'auteur lors de son apprentissage à R, les textes en français ne sont donc pas totalement aboutis.

   Introduction à l'environnement de programmation statistique (Brostaux, s.d.) est un document de 22 pages rédigé après 2002 par un universitaire issu des Sciences Agronomiques. Ce document présente les commandes élémentaires ainsi que les premier usages graphiques. Un exemple de régression linéaire y est présenté. La page web intitulée L'environnement logiciel statistique R (Preux, 2006) centralise informations et supports d'un séminaire qui s'est tenu en 2006. L'auteur de ses pages est issu du champ de l'informatique. Économétrie des Marchés Financiers avec R (Herlemont, s.d.) intéressera notamment ceux qui sont impliqué dans le champ de la finance. Elle regroupe des supports d'enseignement autour de l'économétrie des marchés financiers et de R. Son auteur est bien entendu issu du champ des mathématiques financières. Enfin, R graph gallery (François, 2005) est un site web cherchant à collectionner les graphiques réalisés avec R, une applet igoogle a même été développé.

Ressources dynamiques

   Les ressources dynamiques ne sont pas nécessairement très actives ni très alimentées elles sont néanmoins incontournables lorsque des problèmes techniques se présentent lors de l'apprentissage du logiciel.

   Le forum du CIRAD (2004) est la ressource dynamique francophone la plus active concernant R. Les questions de débutant obtiennent généralement une réponse dans la journée. Le deuxième instrument qui permet de trouver une aide technique contextualisée est la liste de discussion de la librairie ade4 nommée adelist (Chessel et al., 2008). Ade4 est une librairie développée par le pôle bio-informatique lyonnais de l'Université Lyon I qui est adaptée pour réaliser des analyses multivariées. La liste de diffusion traite donc des fonctions de cette librairie. Il y a approximativement environ 400 inscrits et une dizaine de messages par mois.

   Une ressource utile pour effectuer des traitements statistiques à propos des modèles linéaires et s'initier aux commandes élémentaires du langage S, est l'espace consacré à R sur le biostat wiki (Biostat wiki, 2006). Malheureusement ce wiki n'est plus alimenté depuis 2007. Enfin comme tout logiciel libre qui se respecte, R dispose d'un canal irc sur le serveur freenode, il existe donc aussi le canal francophone Rfr qui est peu actif.

Perspectives

   Il existe donc relativement peu de ressources francophones en comparaison avec les ressources anglophones. On a trouvé quatre ouvrages en français portant sur R. Deux grands genres dominent le milieu : les documents portant sur R exclusivement et les documents de statistiques comportant des exemples avec R. Les bibliographies des documents en français sont souvent peu fournies voir inexistantes et citent généralement les ouvrages principaux anglophones. La plupart des documents en français élaborés (qui ne sont pas des notes personnelles mises en ligne ou des supports de cours) ont moins de deux ans, et le document le plus ancien date de 2002. Enfin on notera qu'il n'existe pas de livre de statistiques descriptives avec des exemples en langage S (en janvier 2009). Il existe un plus grand nombre de ressources sur le web. Les ressources francophones dynamiques sont moins actives que les ressources anglophones exception faite du forum du CIRAD. Les auteurs francophones sont le plus souvent issus du champ des bio-statistiques en premier lieu et des mathématiques financières en second lieu. Seul un auteur est issu des Sciences Humaines.

   Parmi le grand nombre de logiciels de traitements statistiques (dont on trouvera une liste dans l'encyclopédie Wikipédia [5]) R a un statut particulier car il fait partie des logiciels libres rivalisant avec les logiciels propriétaires. Il s'agit d'une réussite comparable à celles d'autres logiciels libres comme Ubuntu, Open office ou Firefox. Il est prometteur pour deux types d'utilisations à mon sens. Tout d'abord R est très adapté aux chercheurs et aux étudiants en Sciences Sociales pour une utilisation de recherche assez classique. Mais surtout R est un instrument adéquat pour enseigner les mathématiques. En particulier pour élaborer des situations d'enseignements centrées sur les apprenants.

   On mentionnera, pour finir, l'existence d'un autre logiciel libre de traitement statistique présenté comme very user friendly : Gretl [6].

Mehdi Khaneboubi
EDA Université Paris Descartes
khaneboubi@gmail.com

Bibliographie

Azaïs, J.-M., Bardet, J.-M. (2005). Le modèle linéaire par l'exemple : Régression, analyse de la variance et plans d'expériences illustrés avec R, SAS et Splus, Paris, Dunod.

Baron, G.-L. (1994). L'informatique et ses usagers dans l'éducation, Note de synthèse pour l'habilitation à diriger des recherches, Paris : Université René Descartes.

Baron, G.-L. (2006). « De l'informatique à "l'outil informatique" : considérations historiques et didactiques sur les progiciels : le cas particulier des logiciels de traitement de tableaux », in L.-O. POCHON, Progiciels, apprentissages scolaires et pratiques professionnelles, Neuchâtel : Institut Roman de Documentation Pédagogique.

Cornillon, P.-A., Guyader, A., Husson, F., Jégou, N., Josse, J. & Kloareg, M. (2008). Statistiques avec R, Rennes : Presse Universitaire de Rennes.

Dalgaard, P. (2008). Introductory Statistics with R, (2nd éd.), New York, Springer.

Ferrara, L. & Guégan, D. (2002). Analyser les séries chronologiques avec S-Plus : Une approche paramétrique, Rennes, Presse Universitaire de Rennes.

Murtagh, F. (2005). Correspondence Analysis and Data Coding with JAVA and R, Boca Raton, Chapman & Hall/CRC.

R development core team (2008). R : A Language and Environment for Statistical Computing, 3-900051-07-0.

Tuffery, S. (2007). Data Mining et statistique décisionnelle : L'intelligence des données. (2nd ed.) Paris, Technip.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S., (Fourth Edition), New York, Springer.

Verzani, J. (2005). Using R for Introductory Statistics, Boca Raton, FL : Chapman & Hall/CRC.

Sitographie

Barnier, J. (2008a). R pour les sociologues (et assimilés).
Consulté le 18/12/2008, http://alea.fr.eu.org/j/intro_R.html.

Barnier, J. (2008b). Analyse de réseaux avec R.
Consulté le 18/12/2008, http://alea.fr.eu.org/j/pdf/reseaux_R.pdf.

Barnier, J. (2008c). Tout ce que vous n'avez jamais voulu savoir sur le χ² sans jamais avoir eu envie de le demander.
Consulté le 18/12/2008, http://alea.fr.eu.org/j/pdf/khi2.pdf.

Bouchier, A. (2007). Statistiques et logiciels R : Documents et supports de cours.
Consulté le 22/12/2008, http://rstat.ouvaton.org/.

Brostaux, Y. (2008). Introduction à l'environnement de programmation statistique R.
Consulté le 22/12/2008, http://www-spiral.lip6.fr/~safey/Enseignements/R/Documents/Brostaux-Introduction-au-R.pdf.

Chambers, J. (2001). The S System.
Consulté le 14/12/2008, http://cm.bell-labs.com/cm/ms/departments/sia/S/.

Biostat wiki (2006). GNU R.
Consulté le 21/12/2008, http://www.biostat.envt.fr/wiki/index.php/GNU_R.

CIRAD (2004). Groupe des utilisateurs du logiciel R.
Consulté le 22/05/2009, http://forums.cirad.fr/logiciel-R/index.php.

Dufour, A.-B., Chessel, D., Lobry, J. R., Mousset, S. & Dray, S. (2008). Notes de cours, illustrations, exercices, problèmes, fiches de Travaux Dirigés Jeux de données pour la pratique de la statistique.
Consulté le 14/12/2008, http://pbil.univ-lyon1.fr/R.

François, R. (2005). R graph gallery.
Consulté le 21/12/2008, http://addictedtor.free.fr/graphiques/index_fr.php.

Goulet, V. (2007). Introduction à la programmation en S, CRAN.
Consulté le 21/12/2008, http://cran.r-project.org/doc/contrib/Goulet_introduction_programmation_S.pdf.

Herlemont, D. (s.d.). Économétrie des Marchés Financiers avec R.
Consulté le 14/12/2008, http://www.yats.com/doc/r-trading-projet-index.html.

Hornik, K. (2009). The R FAQ.
Consulté le 26/06/2009, http://cran.r-project.org/doc/FAQ/R-FAQ.html.

Khaneboubi, M. (2009). TRndx: Bibliographical references database about the statistical software and language R, tuxfamily.org.
Consulté le 26/06/2009, http://rndx.tuxfamily.org.

Ogasawara, O. (2008). R Graphical Manual, Japan : IMS Lab Inc.
Consulté le 14/12/2008, http://bm2.genes.nig.ac.jp.

Paradis, E. (2002). R pour les débutants. Cran, 1re édition.
Consulté le 22/05/2009, http://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf.

Preux, P. (2006). L'environnement logiciel statistique R.
Consulté le 21/12/2008, http://www.grappa.univ-lille3.fr/~ppreux/ensg/ed/R.

Robinson, A. & Schloesing, A. (2008). Brise Glace-R : (ouvrir la voie aux pôles statistiques).
Consulté le 21/12/2008, http://cran.r-project.org/doc/contrib/IceBreak_fr.pdf.

Wikipédia (s.d). Comparaison de logiciels de statistiques.
Consulté le 04/012009, http://fr.wikipedia.org/wiki/Comparaison_de_logiciels_de_statistiques.

Zoonekynd, V. (s.d). Statistiques avec R.
Consulté le 21/12/2008, http://zoonek2.free.fr/UNIX/48_R_2004/all.html.

NOTES

[1] http://cran.r-project.org/other-docs.html#nenglish, consulté en décembre 2008.

[2] http://forums.cirad.fr/logiciel-R, consulté en décembre 2008.

[3] http://www.framasoft.net/article1954.html, consulté en décembre 2008.

[4] http://fr.wikipedia.org/wiki/R_(logiciel), consulté en décembre 2008.

[5] http://fr.wikipedia.org/wiki/Comparaison_de_logiciels_de_statistiques, consulté en décembre 2008.

[6] http://gretl.sourceforge.net, consulté en mai 2009.

___________________
Association EPI
Juin 2009

Accueil Linux et Logiciels libres Articles