Nouvelle checklist automatique OpenData Dataset Quality

Par Fabrice Bonny, le 24 juin 2013, dans .

Comme vous le savez, Temesis a sorti il y a plus d’un an une checklist Opquast dédiée à la qualité des sites de mise à disposition de données open data. Cette checklist a reçu un écho très favorable, et pas qu’en France. Nous sommes notamment allé la présenter à Open data on the Web à Londres, et elle a été fort bien accueillie. Nous avons décidé d’aller plus loin, nous proposons maintenant la première version d’une nouvelle checklist permettant de vérifier automatiquement la qualité des métadonnées associées à vos jeux de données. Cette checklist est disponible dans Opquast desktop (pour tester un jeu de données individuel) et dans Opquast reporting, pour tester plusieurs centaines/milliers de jeux de données issus de différents sites.

Quel standard implémenter ?

Le monde d’OpenData est en pleine standardisation. La simple définition des métadonnées d’un jeu de données (dataset) peut se faire avec au moins 4 espaces de nommage différents. Plusieurs tentatives d’uniformisation sont en cours mais aucune ne semble clairement se détacher du lot. Google, par exemple, propose un espace de nommage en RDF ou via des micro-formats.

Par ailleurs, un standard de fait existe à travers l’outil CKAN, qui est utilisé sur plusieurs grands sites Open data nationaux (UK, US…). Au moment même de la rédaction de nos tests, les membres du G8 signaient un accord de standardisation d’OpenData… qu’aucun des huit pays membres ne respecte pour l’instant. Si vous ajoutez que l’existant est déjà très fourni et ne va pas être réécrit, nous avions beaucoup de choses à prendre en compte.

Un premier essai en version beta.

L’approche a donc été dictée par le pragmatisme. Après avoir fait le tour de ce qui est réellement utilisé par les plateformes OpenData des membres du G8 ainsi que par celle de l’Union Européenne, seule cette partie des spécifications a été mise en place dans nos outils opquast Desktop et Opquast Reporting. Donc ne comptez pas voir la prise en compte des microformats, par exemple, dans cette première version. Tout ceci sera implémenté au fur et à mesure de son apparition dans le monde réel et pas uniquement à travers des brouillons de normes.

Et le mode d’emploi ?

Vous voulez tester cette checklist sur vos jeux de données, rien de plus simple :

  1. Installez la dernière version de l’extension Opquast desktop, extension Open source pour Firefox.
  2. Allez dans les checklists et activez la checklist Open data
  3. Rendez-vous sur la page HTML présentant le jeu de données (et pas sur le jeu de données en RDF lui-même)
  4. Appuyer sur lancer
  5. Récupérez les résultats

Une petite démo en vidéo ?

Open data : vérification rapide des metadonnées from Opquast on Vimeo.

Explorer et analyser plusieurs jeux de données à la fois

Vous voulez analyser automatiquement la cohérence des métadonnées sur plusieurs dizaines, centaines ou milliers de données. vous voulez comparer des sites entre eux, appelez-nous, Opquast reporting sait maintenant faire tout cela. Si vous trouvez des bugs ou avez des demandes d’amélioration, laissez des commentaires ou appelez-nous.

Dernière chose : merci à Pascal Romain, expert Open data et chef de projet Datalocale, de nous avoir éclairé sur les standards de métadonnées actuels.