Aller au contenu

Les fondements de la visualisation de données


Les données constituent une mine d'or pour les entreprises. Elles en génèrent énormement accumulé beaucoup de données et souhaitent les exploiter afin de tirer de la valeur, c'est tout l'objet de la data monetization.

Définition

La visualisation de données consiste à présenter les données de manière visuelle et synthétique. Cela fait partie des compétences de base de l'analyste de données.

png

Le terme visualisation fait tout de suite penser aux graphiques (les diagrammes en bâtons, des nuages de points entre autres). Mais la visualisation de données ne se résume pas à la construction de graphiques. Je vous propose cette définition.

Visualiser des données = Présenter des données

Il s'agit de présenter les données sous une forme simplifiée, facile et rapide à

Ces données peuvent être présentées sous forme de graphiques mais pas que. Il y a aussi les KPis, les tableaux, les diagrammes. Ces différents éléments sont assemblés dans un tableau de bord.

Matplotlib est la principale librairie Python dédiée à la visualisation de données. Dans cet article je vous propose de redécouvrir quelques graphiques classiques

Les types de graphiques classiques

0. Table de données

Les tables de données sont également des visualisations de données. Attention, les tableaux de données brutes sont exclus. Il s'agit des tables aggrégées.

1. Diagramme en secteurs

Il faut faire extrêmement attention lorsque vous utilisez ce graphique, il peut rapidement devenir illisible. En effet à partir d'un certain nombre de modalités ce graphique n'est plus lisible et il est difficile de comparer les données, Il faudra privilégier les diagrammes en bâtons.

2. Diagramme à barres

Il faut toujours trier les données de préférence par les valeurs ou par ordre alphabétique par exemple. L'idée est de faciliter la lecture du visuel à l'utilisateur. Il est préférable d'utiliser une couleur unique je trouve plus agréable à l'oeil.

3. Histogramme

L'histogramme c'est un peu l'équivalent du diagramme en bâtons pour les données continues. Vous avez peut-être déjà entendu dire histogramme pour les données qualitatives, c'est un abus de langage.

4. Boîte à moustache

Utiliser Ce graphique vous permet d'identifier rapidement la présence de valeurs atypiques dans vos données.

  • Identifier les valeurs abérantes
  • Déterminer la symétrie
  • Comparer la distribution entre deux variables

En mettant côte à côte la boîte à moustaches de plusieurs variables, on peut facilement comparer leurs échelles de grandeur.

5. Nuage de points

Un nuage de points permet d'identifier les liens de corrélations entre deux variables numériques.

6. Carte de chaleur

C'est le visuel utilisé pour représenter une matrice de corrélations par exemple.

7. Courbe

Ce type de graphique est généralement utilisé pour représenter l'évolution d'une mesure en fonction du temps. Comment évolue les ventes dans le temps par exemple.

8. Nuage de points 3D

Les outils de visualisation

png

  • Power BI
  • Tableau Software
  • Qlik View
  • Excel
  • Plotly

Le cabinet Gartner a publié en Mars 2022 un classement des outils png


Comme je l'ai dit dans mon introduction, la visualisation va au delà des graphiques traditionnels. Un tableau croisé dynamique est un visuel dans ce sens où il présente la donnée. Les cartes (KPIs) c'est

J'ai entendu quelqu'un dire que R était l'outil le plus puissant et le plus complet pour construire des graphiques. Quel est votre avis sur le sujet ?

Partagez sur les réseaux sociaux

Commentaires