Surveillance de la toile des catalogues CSW

Benoît DAVID - 3 avril 2017

Actualités

Introduction

L'objectif de ce site, géré par Benoît DAVID (MEDDE/CGDD/DRI/MIG), est de permettre à la MIG de surveiller le fonctionnement et le contenu d'un certain nombre de catalogues CSW constituant l'épine dorsale de l'infrastructure nationale d'information géographique instituée par les articles L127-1 à 10 du code de l'environnement transposant la directive européenne Inspire.
Il est développé sous la forme de différents prototypes de manière itérative. Son utilisation est avant tout destinée à la MIG ; il est publié sur Internet dans une volonté de transparence mais sans aucun engagement de service. Attention il est probable qu'il reste des erreurs. Je vous remercie d'être indulgent et de me les signaler.

A ce stade, la surveillance est organisée en 3 parties.

1) Tableau de bord d'un géocatalogue

Ce premier outil a pour objectifs :
  1. d'afficher pour une moisson (c'est à dire le contenu d'un géocatalogue donné à une date donnée) quelques indicateurs agrégés selon une nomenclature d'organismes,
  2. d'effectuer une désagrégation des indicateurs selon la nomenclature jusqu'à l'organisme individuel,
  3. de naviguer dans les ressources affectées aux organismes.
Ces indicateurs par organisme ou groupe d'organismes sont les suivants : Pour les moissons postérieures au 1/4/2015, les services de consultation et de téléchargement suivants sont exclus du calcul des nombres et pourcentages de ressources consultables/téléchargeables : Le règlement métadonnées Inspire définit un mécanisme de ressources couplées permettant d'identifier les services qui servent les données mais ce mécanisme est encore peu mis en oeuvre. Ainsi le tableau de bord est fourni en 2 versions. La version stricte du tableau de bord fournit les nombres qui reflètent la mise en oeuvre de ce mécanisme. Dans la version souple du tableau de bord, on considère aussi qu'une série de données est consultable si la fiche contient une URL associée à un protocole contenant la chaîne "WMS" et qu'elle est téléchargeable si la fiche contient une URL associée à un protocole contenant une des chaînes "WFS", "WCS" ou "DOWNLOAD".
Cette dernière version est celle qui est appliquée dans le rapportage officiel.

A partir du tableau, lorsqu'une ligne correspond à un groupe d'organismes, il est possible de naviguer sur ses constituants et, lorsqu'une ligne correspond à un seul organisme, d'afficher la liste des ressources affectées à cet organisme.
La notion d'organisme correspond à la notion d'"organisation responsable de l'établissement, de la gestion, de la maintenance et de la diffusion des séries et services de données géographiques" définie par le règlement Inspire sur les métadonnées.
Pour construire les indicateurs, lorsqu'une ressource est affectée à plusieurs organismes, les règles suivantes sont appliquées :
  1. si les noms d'organismes sont concaténés dans un même champ alors la ressource est affectée au premier organisme cité,
  2. si les organismes sont cités dans des champs différents alors la ressource est affectée à chacun des organismes ayant le rôle le plus important (voir explication détaillées ici), avec un poids égal à l'inverse du nombre d'organismes affectataires,
Attention, ces règles d'affectation des ressources aux organismes sont différentes de celles utilisées pour le rapportage officiel Inspire.

Dans le tableau de bord, le nombre de séries de données associées à un groupe d'organismes est calculé en affectant les poids indiqués ci-dessus ; cela explique que ces nombres ne sont généralement pas des nombres entiers. Par contre, le nombre de séries de données associées à un organisme individuel n'est pas affecté de poids et cela explique que ces nombres sont toujours des nombres entiers. Il en est de même pour les nombres d'ensembles de séries de données et de services.

Les lignes à la fin du tableau correspondent à des ressources qui n'ont pas été affectées à un organisme du référentiel d'organismes.

Les différents moissons proposées sont listées ici.

Référentiel d'organismes

Pour constituer ces tableaux un référentiel d'organismes a été constitué afin de mettre en correspondance les différents libellés utilisés dans les géocatalogues pour un même organisme et de définir un libellé préférentiel.
De plus ce référentiel structure hiérarchiquement les organismes selon la nomenclature définie ici.
Ce référentiel peut être consulté ici sans les synonymes et ici avec les synonymes en italique.
Ce référentiel est provisoire et n'est pas un référentiel officiel.

L'utilitaire accessible ici permet de visualiser pour quelles ressources les différents noms d'un organisme sont utilisés.

2) Suivi du nombre de ressources exposées dans des catalogues : gcatstat

Des fluctuations importantes du nombre de ressources exposées par certains catalogues constituent un indice de dysfonctionnement notamment du moissonnage entre catalogues.
Un besoin simple est donc d'historiser le nombre de ressources exposées par certains catalogues et d'en réaliser une viusalisation.
C'est l'objectif de gcatstat qui interroge quotidiennement des catalogues pour enregistrer jour après jour le nombre de ressources exposées, puis propose de visualiser les résultats sur http://gcatstat.docinspire.eu/.
Pour faciliter la détection des fluctuations, un graphe simple d'évolution dans le temps du nombre de ressources peut être affiché en cliquant sur le nom de chacun des catalogues.
Evidemment, toute variation ne correspond pas à un dysfonctionnement mais peut conduire à mener des investigations plus approfondies.

3) Suivi des interactions entre géocatalogues : gcatmon

Cette troisième partie répond à un besoin plus sophistiqué : l'infrastructure nationale d'information géographique est répartie et s'appuie sur un ensemble de catalogues CSW qui coopèrent au travers de moissonnages. Le Géocatalogue est le catalogue central chargé de moissonner l'ensemble des métadonnées afin de constituer au niveau national un point d'accès unique. Les métadonnées du Géocatalogue relevant dInspire sont à leur tour moissonnées par le géoportail euopéen.

Pour surveiller le fonctionnement de la toile des catalogues, il est donc indispensable de percevoir cette toile et de surveiller le fonctionnement des interactions entre catalogues. Pour cela gcatmon compare le contenu de différents catalogues au travers des identifiants des fiches de MD qu'ils contiennent.
La page http://geocat.docinspire.eu/gcatmon/ propose différentes visualisations simples de ces interactions à différentes dates afin d'en suivre les évolutions.

Divers