Возможность использования формата PDF/A как контейнера для сдаточного информационного пакета в модели электронного архива OAIS
Автор Наталья Храмцовская
Данная заметка Криса Эриксон (Chris Erickson) была опубликована 31 августа 2015 года на блоге «Долговременная сохранность имеет значение» (Digital Preservation Matters, http://preservationmatters.blogspot.com/ )
В заметке рецензируется статья Ян Ханя (Yan Han – на фото, из Университета Аризоны, США) «Уходя от TIFF и JPEG2000: PDF/A как контейнер для сдаточного информационного SIP-пакета в модели OAIS» (Beyond TIFF and JPEG2000: PDF/A as an OAIS Submission Information Package Container), опубликованная в журнале «Высокие библиотечные технологии» (Library Hi Tech), том 33, выпуск 3, издательство Emerald, 2015, ISSN: 0737-8831, см. http://www.emeraldinsight.com/doi/abs/10.1108/LHT-06-2015-0068?journalCode=lht . Краткое содержание доступно по адресу http://www.emeraldinsight.com/doi/abs/10.1108/LHT-06-2015-0068 . Мне показалась любопытной сама идея использование формата PDF/A для подобных целей.
PDF/A может применяться просто как файловый формат, но его также можно использовать в качестве контейнера для сдаточного информационного SIP-пакета в модели электронной архивной информационной системы OAIS (иначе говоря, как контейнер, в котором документы и их метаданные передаются в электронный архив – Н.Х.). Открытые стандарты на форматы PDF/A могут «упростить процесс и снизить расходы на оцифровку, существенно повысить производительность и позволить с большей уверенностью заниматься обеспечением долговременной сохранности и доступа». Формат PDF/A может быть также использован в качестве контейнера для архивного информационного AIP-пакета (в модели OAIS – это способ хранения электронных архивных материалов в самом электронном архиве. AIP-пакет по структуре может совпадать с SIP-пакетом, но может и отличаться от него – Н.Х.).
Тремя основными целями формата PDF/A являются:
•Предложить способ отображения документов, не зависящий от инструментов и систем, использованных для его создания;
•Предложить способ фиксирования контекста и истории электронных документов в метаданных;
•Описать способ представления логической структуры электронных документов в соответствующих стандарту файлах.
Типичный сдаточный SIP-пакет представляет собой структуру, содержащую следующую информацию:
•Контент:
◦Мастер-файлы сохраняемых объектов (например, TIFF-файлы графических изображений);
◦Файлы (обычно меньшего разрешения, сжатые и, как следствие, существенно меньшего объёма – Н.Х.) для удобства доступа (например, файлы в формате PDF или JPG / JPG2000);
◦Иной контент (например, результаты распознавания текста).
•Описание для целей обеспечения долговременной сохранности:
◦Метаданные для долговременной сохранности из заголовков TIFF-файлов;
◦Другие структурные и технические метаданные;
◦Файлы с контрольными суммами.
•Сведения о пакете (packaging information):
◦Имена папок и файлов, структурные метаданные.
•Описательная информация:
◦Описательные метаданные, имевшиеся в электронной системе управления, каталоге или в текстовых/XML-файлах.
«Ключевых требованием формата PDF/A является само-описание и самодостаточность объектов, с тем, чтобы их можно было воспроизвести одинаковым образом с использованием различного программного обеспечения на различных платформах». Сюда входит вся информация, необходимая для отображения контента PDF/A-файла (тексты, изображения, шрифты и цветовые профили).
Форматы для мастер-файлов должны быть непроприетарными, открытыми, документированными международными стандартами и широко используемыми. Файлы должны быть в незашифрованном и несжатом (либо сжатом без потерь) виде. Автор статьи рекомендует использовать PDF/A в качестве предпочтительного формата для текстовых и графических файлов, и, возможно, в качестве SIP-контейнера. Автор показывает, что PDF/A – более подходящий файловый формат, чем предпочитаемые в настоящее время форматы TIFF и JPEG2000.
У формата PDF/A есть ряд проблемных вопросов с именованием и реализацией. Наиболее острой является потребность в надежном программном обеспечении с открытым исходным кодом для создания файлов в формате PDF/A и их проверки на соответствие спецификациям формата.
Крис Эриксон (Chris Erickson)
Источник: блог Digital Preservation Matters
Опубликовал: Александр Абрамов (info@ict-online.ru)
Ключевые слова: автоматизация, организация документооборота