Les formats pérennes à l'honneur à Berne
Par Sous la poussière, mardi 6 mai 2008 à 12:26 :: Archives électroniques :: #105 :: rss
Le Centre de coordination pour l'archivage à long terme de documents électroniques (ou plus simplement CECO - KOST en allemand) a organisé le 24 avril aux Archives fédérales suisses une après-midi de discussions sur les formats d'archivage, pour inaugurer son Catalogue de formats de données d'archivage.
Quatre exposés étaient présentés, ayant pour thèmes la conception du catalogue du CECO (Georg Büchler, CECO), les formats d'archivage aux Archives fédérales (Urs Meyer, Archives fédérales), les formats bureautiques basés sur XML: ODF vs. OOXML (Xander Kämpfer, Unité de stratégie informatique de la Confédération) et le format PDF/A (Hans Bärfuss, PDF Tools AG).
Je ne résumerai pas ici les deux derniers, les informations étant largement disponible par ailleurs (voir par exemple la revue de presse de Thierry Stoehr sur OOXML et le site du PDF/A Competence Center). Vous serez en revanche peut-être intéressés par ces quelques notes sur les deux autres.
Le catalogue de formats de données d'archivage du CECO
La rédaction du Catalogue des formats de données d'archivage est un projet coordonné par le CECO, avec un groupe de travail réunissant des représentants d'archives cantonales, et la participation des commissions Normes et standards et eArchive de l'AAS.
Leur travail a consisté à établir les critères de sélection d'un format d'archivage puis à examiner plusieurs formats de données au regard de ces critères. Une particularité par rapport à d'autres listes de formats (comme celle du projet français PIL@E): les critères sont ici pondérés les uns par rapport aux autres.
Pour un aperçu rapide, voir la matrice résumant les résultats de l'analyse.
Petite note en aparté: si la question des critères de choix des formats d'archivage vous intéresse, lisez le rapport d'Interpares Sélection de formats de fichiers numériques pour préservation à long terme, qui analyse les approches relativement diverses de grandes institutions anglo-saxonnes.
Les formats standards pour l'archivage de données aux Archives fédérales
Les Archives fédérales ont diffusé en 2007 une liste de formats de fichiers adaptés à l'archivage recommandés pour l'usage au sein de l'administration fédérale.
Le nombre de formats acceptés est très réduit, à savoir un format par type de données, comme TIFF pour les images ou PDF/A pour les documents bureautiques. Pourquoi ces restrictions alors que plusieurs formats peuvent remplir les critères d'archivage pour un même type de données? Le but est de minimiser les besoins de gestion de la préservation (repousser au plus tard les migrations) et de pouvoir traiter autant que possible les fichiers archivés en masse.
Les AFS favorisent l'usage de ces formats par les services producteurs, aussitôt que possible dans le cycle de vie des données. La procédure en place exige d'ailleurs des producteurs que les données soient converties dans le format idoine avant un éventuel versement (les AFS conseillent les services sur les outils et processus de conversion). Cela permet bien sûr aux Archives de faire l'économie de cette opération, mais d'autres arguments entrent aussi en compte: le producteur connaît le contenu et peut identifier les éléments d'informations pertinents, il détermine ses besoins futurs d'usage des données archivées et peut examiner le résultat des conversions en ce qui concerne le contenu informatif (la validation des formats demeurant une tâche des AFS).
A ce propos, la présentation donnée montrait quelques exemples impressionnants d'erreurs survenues lors de conversions, illustrant le risque que ce processus fait courir à l'intégrité des archives: données corrompues, caractères inexistants, mauvaise résolution d'image etc.
L'attente d'éventuelles erreurs souligne la nécessité du contrôle qualité et conduit à mettre en place un système permettant de gérer différentes versions d'un même document et de conserver l'original avec le résultat de la conversion.
Cette liste et les procédures qui l'accompagnent soulageront-elles les AFS de tout souci de préservation? Malheureusement, il leur faudra rattraper un certain passif: l'état actuel de leurs fonds numériques recense quarante-trois formats de fichiers différents, dont seulement neuf sont considérés comme formats d'archivage.
Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.