Le catalogue de formats de données d'archivage du CECO

La rédaction du Catalogue des formats de données d'archivage est un projet coordonné par le CECO, avec un groupe de travail réunissant des représentants d'archives cantonales, et la participation des commissions Normes et standards et eArchive de l'AAS.
Leur travail a consisté à établir les critères de sélection d'un format d'archivage puis à examiner plusieurs formats de données au regard de ces critères. Une particularité par rapport à d'autres listes de formats (comme celle du projet français PIL@E): les critères sont ici pondérés les uns par rapport aux autres.
Pour un aperçu rapide, voir la matrice résumant les résultats de l'analyse.

Petite note en aparté: si la question des critères de choix des formats d'archivage vous intéresse, lisez le rapport d'Interpares Sélection de formats de fichiers numériques pour préservation à long terme, qui analyse les approches relativement diverses de grandes institutions anglo-saxonnes.

Les formats standards pour l'archivage de données aux Archives fédérales

Les Archives fédérales ont diffusé en 2007 une liste de formats de fichiers adaptés à l'archivage recommandés pour l'usage au sein de l'administration fédérale.
Le nombre de formats acceptés est très réduit, à savoir un format par type de données, comme TIFF pour les images ou PDF/A pour les documents bureautiques. Pourquoi ces restrictions alors que plusieurs formats peuvent remplir les critères d'archivage pour un même type de données? Le but est de minimiser les besoins de gestion de la préservation (repousser au plus tard les migrations) et de pouvoir traiter autant que possible les fichiers archivés en masse.

Les AFS favorisent l'usage de ces formats par les services producteurs, aussitôt que possible dans le cycle de vie des données. La procédure en place exige d'ailleurs des producteurs que les données soient converties dans le format idoine avant un éventuel versement (les AFS conseillent les services sur les outils et processus de conversion). Cela permet bien sûr aux Archives de faire l'économie de cette opération, mais d'autres arguments entrent aussi en compte: le producteur connaît le contenu et peut identifier les éléments d'informations pertinents, il détermine ses besoins futurs d'usage des données archivées et peut examiner le résultat des conversions en ce qui concerne le contenu informatif (la validation des formats demeurant une tâche des AFS).

A ce propos, la présentation donnée montrait quelques exemples impressionnants d'erreurs survenues lors de conversions, illustrant le risque que ce processus fait courir à l'intégrité des archives: données corrompues, caractères inexistants, mauvaise résolution d'image etc.
L'attente d'éventuelles erreurs souligne la nécessité du contrôle qualité et conduit à mettre en place un système permettant de gérer différentes versions d'un même document et de conserver l'original avec le résultat de la conversion.

Cette liste et les procédures qui l'accompagnent soulageront-elles les AFS de tout souci de préservation? Malheureusement, il leur faudra rattraper un certain passif: l'état actuel de leurs fonds numériques recense quarante-trois formats de fichiers différents, dont seulement neuf sont considérés comme formats d'archivage.