Aller au contenu

Éléments d'analyse statistique avec R

Lorsqu'il s'agit d'implémenter les méthodes statistiques, R est de loin l'outil le plus complet et le plus puissant pour ce faire. Dans cette formation, je vous présente les éléments de base du langage R. R est un logiciel libre pour le calcul statistique et la visualisation de données. R est de loin l'outil de statistique le plus complet et le plus puissant. Il s'exécute sur les UNIX, Windows et MacOS.

En 1993, Ross Ihaka et Robert Gentleman travaillent sur un projet de recherche à l'université d'Auckland (Nouvelle-Zélande). Il faudra ttendre 2001 pour voir la première version officielle de R plubliée.

R est un langage de programmation dédié à l'implémentation des méthodes statistiques et à la visualisation de données. Tout comme Python R se confond avec le logiciel, l'interpréteur de commandes. Vous l'aurez compris R est un langage interprété.

R est principalement utilisé par les statisticiens, les data miners ou encore les data scientists.

Le projet CRAN

Le développement du langage R est piloté par le CRAN (Comprehensive R Active Network).

Fonctionnalités

Les traitements de données
R propose de nombreuses fonctions pour importer, nettoyer, manipuler et transformer des données. Les dataframes, par exemple, sont une structure de données clé pour travailler avec des ensembles de données tabulaires.

La statistique descriptive
R offre des fonctionnalités puissantes pour effectuer des analyses statistiques descriptives. Cela inclut le calcul de moyennes, médianes, écarts-types, et la génération de tableaux de fréquence.

La visualisation de données
R est particulièrement réputé pour ses capacités de visualisation de données. La librairie ggplot2, par exemple, permet de créer des graphiques de grande qualité avec une syntaxe expressive.

R est très utilisé pour construire des graphiques de données très avancés grâce à sa librairie ggplot2. D'aucuns considèrent R comme l'outil de visualisation le plus puissant.

Les tests statistiques
R propose une large gamme de tests statistiques pour évaluer des hypothèses sur les données. Cela inclut les tests tels que le test t, le test de chi-carré, le test de Wilcoxon, et bien d'autres.

Le machine learning
R propose plusieurs packages dédiés au machine learning, tels que caret, randomForest, glmnet, xgboost, etc. Ces packages offrent des implémentations de divers algorithmes d'apprentissage supervisé et non supervisé. R est également utilisé pour la préparation des données, l'évaluation des modèles, et la création de visualisations liées au machine learning.


Envie d'apprendre le langage R, rendez-vous dans la prochaine section pour la mise en place de l'environnement.