Open data

Données massives

  • L’expression big data, souvent traduite en français par données massives ou par mégadonnées, désigne l’accroissement inédit du nombre et de la variété d’informations disponibles, ainsi que la vitesse de leur mise à disposition sous forme numérique.
  • Le big data se caractérise généralement par trois propriétés, appelés 3V en référence à la première lettre de chacune des caractéristiques qui sont : le volume, la variété et la vélocité.
  • Ces données sont regroupées en ensembles partageant des caractéristiques communes, que l’on appelle des jeux de données.
  • L’interconnexion des systèmes et la puissance des machines modernes permet de disposer d’un accès toujours plus vaste à des jeux de données toujours plus importants.
  • Certaines des données du big data sont mises à disposition du plus grand nombre. On parle dans ce cas d’open data ou de données ouvertes.
  • Un format ouvert est un protocole d’échange dont les spécifications techniques sont rendues publiques, sans restriction d’accès ni de mise en œuvre.
  • Le partage des jeux de données contribue à rendre l’information accessible et à développer la connaissance citoyenne sur toutes sortes de sujets.
  • Les jeux de données ont la plupart du temps une forme tabulaire : ce sont des données regroupées en lignes dans un tableau, dont les colonnes en représentent les différentes caractéristiques.
  • Le format le plus approprié pour proposer des données tabulaires en open data est le format CSV, où les valeurs sont généralement séparées par des virgules, des points virgules ou des tabulations. Le nom CSV est l’abréviation de « Comma Separated Values ».

nom,âge,ville
Jeanne,18,Toulouse
Victor,33,Le Havre

  • Les données au format CSV sont organisées en lignes dont la première peut éventuellement être un en-tête contenant le nom des caractéristiques individuelles, appelées champs dans le langage des bases de données.
  • Il existe également des formats permettant de stocker des informations et des ensembles de données avec une composante hiérarchique : parmi les plus répandus figurent JSON (JavaScript Object Notation) et XML (Extensible Markup Language).

<bibliotheque>
<ouvrage langue="fr">
<titre>Les Misérables</titre>
<auteur>Victor Hugo</auteur>
<nbtomes>3</nbtomes>
</ouvrage >
</bibliotheque>

  • La plateforme officielle des donnés publiques françaises en ligne est accessible à l’adresse https://www.data.gouv.fr. Cette plateforme répertorie globalement l’ensemble des jeux de données publiques rendues disponibles par l’administration française.

Caractéristiques des données ouvertes

  • La page d’un jeu de données ouvertes précise en marge droite le producteur, c’est le producteur qui fixe par l’intermédiaire d’une licence les conditions d’utilisation du jeu de données proposé.
  • Un descriptif documentaire accompagne généralement les jeux de données : il peut préciser le périmètre des informations collectées, en indiquant ce qui a été inclus ou éventuellement exclu du jeu de données.
  • Les jeux de données sont souvent accompagnés d’un descriptif technique, précisant le format informatique employé, détaillant les noms des variables utilisées, ou encore les unités de valeurs caractérisant les informations contenues dans les jeux de données.
  • La page présentant le jeu de données des prénoms mentionne un certain nombre de contributions communautaires basées totalement ou partiellement sur la réutilisation de ce jeu de données.
  • Les données les plus volumineuses nécessitent un traitement par des bases de données ou programmes informatiques adaptés.
  • La qualité des jeux de données peut s’avérer très variable d’un producteur à l’autre. Certains jeux de données comportent un nombre plus ou moins importants de fautes de frappe, de doublons, ainsi que des formatages de données non conformes aux pratiques usuelles.
  • Il est donc nécessaire d’analyser le jeu de données avant de l’exploiter.
  • Dans le cas des données tabulaires, on peut notamment être amené à : supprimer d’éventuels doublons, harmoniser des données, supprimer des colonnes dont on n’a pas l’usage, transformer des données (arrondir des valeurs numériques, réduire une date complète à sa seule année, extraire le département d’un code postal).

Analyse d’un jeu de données : les prénoms

  • Les possibilités de traitement d’un jeu de données dépendent des outils avec lesquels nous accédons à ces données.
  • Le format CSV étant un format de texte brut, n’importe quel éditeur de texte basique peut l’ouvrir pour nous donner accès à son contenu.
  • Lors d’une première ouverture on peur relever la présence d’une première ligne d’en-tête :

ANNAISS;MNAISS;CODCOM;LBCOM;SEX;PRN;NRB

  • Nous pouvons identifier le caractère « ; » comme le caractère utilisé pour séparer les différents champs qui constituent la donnée stockée dans une ligne.
  • Pour comprendre la signification des champs, nous pouvons consulter les données des premières lignes.
  • Il est également possible de déduire de quelle manière est trié le fichier.
  • L’emploi d’un tableur est bien plus adapté à la manipulation de données tabulaires, il permet aisément de trier les données par prénom, puis par ville et par année.
  • Une opération de tri peut révéler des disparités dans le traitement de l’information ou des doublons.
  • Nous pouvons exploiter l’outil grapheur intégré à la plupart des tableurs afin de réaliser des visualisations.
  • Nous pourrions importer le fichier CSV dans un système de gestion de base de données.
  • Nous pourrions également utiliser un langage informatique et, le cas échéant, un module dédié pour faciliter l’accès aux données contenues dans le fichier (comme le module csv du langage Python.
  • Il existe aussi différents outils en ligne (c’est-à-dire accessibles sur Internet) capables de traiter d’une manière ou d’une autre des fichiers CSV, pour effectuer des opérations de tri, de sélection, et de représentation graphique des données.