Réalisation d’une dataviz à partir de données

Retour à la visualisation

Recherche des données

Pour réaliser une datavisualisation à partir de données il est nécessaire, avant toute chose, de disposer.... de données !

De nombreux jeux de données ouvertes, sur des thèmes variés, sont disponibles sur le site français data.gouv.fr.

Ces jeux de données sont téléchargeables sous différents formats (CSV, JSON, etc.).

Il est important de faire attention à choisir un format compatible avec l’utilisation que l’on souhaite faire des données. Parce que l’on souhaitait traiter les données dans un tableur, nous nous sommes ici dirigés vers un format csv.

Si dans un premier temps, nous n’avions pas d’idée précise quant au thème de notre dataviz, nous savions en revanche que nous ne souhaitions pas nous diriger vers une infographie de type “cartographie” mais davantage vers l’illustration d’une évolution ou d’une comparaison entre plusieurs données.

Nous nous sommes ainsi dirigés vers le jeu de données suivant : Temps de parole des hommes et des femmes à la télévision et à la radio - Moyenne par années et par chaîne.

Il est disponible sur data.gouv.fr (thématique Culture, Communications) et produit par l’INA.

Traitement dans le tableur

Le jeu de données une fois téléchargé au format csv et affiché dans un tableur se présente ainsi :

Il présente, sur 700 lignes, le temps de parole des femmes sur les chaînes de télévision et de radio françaises.

Les données ainsi mises en forme indiquent le temps de parole des femmes à la radio et à la télé dans le même tableau. Les chaînes publiques et privées sont mélangées.

Il est donc nécessaire de reprendre ces données et les organiser de façon à pouvoir ensuite créer une datavisualisation qui aurait pour but de comparer d’une manière claire et visuelle plusieurs données.

Dans un premier temps, nous avons choisi de supprimer la colonne “speech rate” qui correspondait au temps de discours des femmes, pour ne garder que celle correspondant à leur temps d’intervention “expression rate”. Cela dans le but de ne pas surcharger la dataviz en en compliquant la lecture par un surplus d’information.

Aussi, certaines chaînes ont commencé à être analysées à partir de 1995, quand d’autres l’ont été bien plus tard.

Pour homogénéiser le tout, nous avons choisi de supprimer les données correspondant aux années antérieurs à 2000 (on utilisera pour ça les filtres du tableurs qui permettent une sélection rapide des données à supprimer) :

(Icône de l’outil Filtre sur Google Sheets)

(Icône de l’outil Filtre sur OpenOffice Calc)

(L’outil Filtre du tableur fait apparaître une petite flèche à côté du libellé de la colonne ; elle permet l’affichage d’une liste déroulante qui indique l’intégralité des données disponibles dans cette colonne et permet de sélectionner celles que l’on désire voir s’afficher.)

Utilisation d’un tableau croisé dynamique

Une fois les données traitées dans le tableur, nous avons choisi d’utiliser un tableau croisé dynamique, de façon à choisir quelles données nous voulions exprimer en fonctions desquelles.

(Sur OpenOffice Calc : Insertion -> Tableau croisé dynamique, sur Google Sheets ; Données -> Tableau croisé dynamique)

Nous avons finalement décidé de créer trois graphiques différents :

Les deux derniers graphiques sont des graphiques en barre, ce qui permet de constater facilement et d’un premier coup d’oeil les différences entres ces différentes chaînes :

Affichage

Après ces traitements avec les tableaux croisés dynamiques nous avons constitué des fichiers CSV (sur GoogleSheet ; Fichier -> Télécharger -> Valeurs séparées par des virgules (.csv, Feuille Active), sur OpenOffice Calc, choisir le format au moment de l’enregistrement du fichier).

Les graphiques ont été constitués avec Chart.js (cette fonction (voir le lien) permettant de traiter les CSV en PHP).