Modéliser vos données dans OpenSpending

Pour charger vos données dans OpenSpending, vous devez construire un modèle de vos données. Un modèle définie comment les données seront comprises par OpenSpending. L’application représente les propriétés des données en termes de dimensions. Modéliser les données consiste à lister les dimensions que vous souhaitez inclure dans le jeu de données OpenSpending et définir pour chaque dimension la ou les colonnes correspondantes dans le jeu de données d’origine.

###Dimensions obligatoires : montant et date

Chaque modèle nécessite au moins deux dimensions : un montant et une date. Elles spécifient la taille de la transaction et le moment de sa réalisation. Le montant et la date sont associés à des indicateurs spécifiques. Le montant est représenté par un indicateur de mesure et le temps est représenté par une date. Des dimensions génériques ne peuvent pas représenter ces valeurs particulières.

Lorsque vous modélisez vos données, ce n’est pas une mauvaise idée de commencer par les dimensions obligatoires. Tout d’abord, cliquez sur le menu Dimensions & Measures au sein de la page Manage the dataset de votre jeu de données.

Dimensions obligatoires

Après, cliquez sur Add Dimension pour faire apparaître le panneau Add new dimension. Cliquez sur la case correspondant à Date. Vous verrez la fenêtre Name automatiquement complétée avec la date, comme ci-dessous. Cliquez sur le bouton vert Add.

Ajouter une nouvelle dimension

Le prochain écran que vous verrez vous donnera des informations sur la signification du temps. Dans la liste déroulante à coté de Column, sélectionnez la colonne de vos données qui représentera la valeur du temps.

Temps

Quand vous avez identifié la colonne du temps, cliquez sur Add Dimension encore une fois pour ajouter le montant. Cette fois-ci, sélectionnez la case correspondant à Measure, qui sera automatiquement complétée sous le nom “montant” et cliquez sur Add. Choisissez la colonne représentant la valeur de la transaction dans la liste déroulante à côté de Column.

###Autre dimension indispensable: l’identifiant

Il y a une autre dimension nécessaire au fonctionnement du modèle: la dimension (ou groupe de dimensions) dont la valeur identifie de manière unique chaque entrée de données, la clé.

Une entrée peut être identifiée aussi par une combinaison de plusieurs colonnes, une dimension composée. Étant donné que les clés peuvent être composées, le type “dimension composée” doit être utilisé pour les répresenter, même si votre clé en l’occurrence n’est pas composée.

La dimension clée peut être assignée en cliquant sur Add Dimension et ensuite en sélectionnant le bouton radio Dimension.

Ajoutez le nom de votre clé, par exemple “clé”, dans la case appropriée. Cliquez sur Add. Cochez la case include in unique afin d’identifier cette dimension en tant que partie de votre clé.

On passe maintenant à la liste de Fields, qui contient deux rangées nommées name (nom) et label (étiquette). Une dimension composée peut contenir un nombre arbitraire de champs (fields), chacun ayant un nom et un type et pouvant être associé à une colonne dans vos données. Cela nous permet d’expliquer le sens du mot “composé” dans ce contexte: les dimensions sont “composées” car elles regroupent plusieurs colonnes de données dans une seule propriété du jeu de données.

Dimensions composées

Une dimension composée nécessite au moins deux champs, name et label. Ces derniers doivent être de type id et string. Le nom de la dimension est utilisé afin de fournir à cette dernière une URL opérationnelle et l’étiquette (label) est utilisée pour présenter la dimension au sein de l’interface.

Pour créer une dimension composée minimale, il suffit d’associer la même colonne de vos données d’origine avec le nom (name) et l’étiquette (label). Choisissez la colonne appropriée pour chacun et laissez les options sous “types” unchangées.

###Mesures et autres dimensions

Avec un montant, une date et un identifiant, votre modèle est suffisamment riche. Toutefois, un modèle parfaitement abouti devrait inclure une dimension pour chaque caractéristique importante du jeu de données d’origine. Suivre certaines conventions est alors utile.

Une pratique courante dans la présentation des jeux de données d’origine est la segmentation de l’information qui caractérise chaque donnée sur de multiples colonnes. L’information concernant un compte associé à une transaction peut être réparti entre une colonne “Compte” qui identifie le montant chiffré et une colonne “Description du compte” qui donne une description écrite. L’image ci-dessous illustre cette pratique avec les colonne “Head-account” et “Sub-account”.

![Head-accounts et sub-accounts]({{ site.baseurl }}/img/blog/2013/08/image_9.png)

Les dimensions composées d’OpenSpending sont conçues pour modéliser ce type d’informations éparpillées. Pour ce faire, ajoutez une nouvelle dimension composée et associez chaque colonne à l’un des champs de la dimension. Essayez de faire correspondre une colonne aux commentaires très détaillés à label et une colonne plus concise à name. Dans l’image ci-dessous “Head-account” correspond à name et “Head-account description” à label.

Head-account

Certaines colonnes de votre base de données sont plus indépendantes, représentant certaines propriétés particulières de chaque donnée. Par exemple, une colonne qui attribue à chaque transaction une catégorie rentre dans ce cadre. Dans l’image ci-dessous, les colonnes Reporting Type, Revenue/Expenditure et Recurrent/Investment sont de ce type.

![Propriétés des données]({{ site.baseurl }}/img/blog/2013/08/image_11.png)

Les colonnes indépendantes qui spécifient des propriétés ou des catégories sont mieux modélisées avec des dimensions d’attribut. Un attribut est essentiellement une dimension qui ne connaît qu’un seul champ, quel que soit son type. Pour créer un attribut, sélectionnez simplement la case Attribute quand vous ajoutez une dimension.

Attribute

###Pour finir : sauvegarder et charger

Lorsque chaque dimension a été spécifiée et reliée aux colonnes dans les données source, cliquez sur Save Dimensions pour sauvegarder votre modèle. En cas d’erreurs, un message apparaîtra, vous demandant de corriger certains paramètres. S’il n’y a pas d’erreurs, vous serez rédirigé vers le Dashboard, où vous pourrez charger vos données.

Une fois que les données ont été téléchargées, le modèle que vous avez créé sera figé et vous n’aurez plus la possibilité de l’éditer. C’est pourquoi il est préférable de tester le modèle avant de télécharger les données. Pour ce faire, cliquez sur Test a sample dans votre tableau de sources de données. Attendez quelques secondes et rechargez la page. Si vous voyez un message indiquant COMPLETE sur un fond vert, alors votre modèle est prêt. Si vous voyez un message indiquant ERRORS, des corrections sont nécessaires.

Sauvegarder et charger

Si votre modèle ne contient plus d’erreurs, cliquez sur Load pour charger le jeu de données source et lui appliquer le modèle. Vous pouvez ensuite retourner sur la page d’accueil du jeu de données en cliquant sur son nom en haut de l’écran et créer des visualisations ou explorer le jeu de données.

 

Suivant:[Créer une visualisation]

 

Précédent: [Créer un jeu de données sur OpenSpending]