Page 1

Metadaten Standards Seminar „Archivierung im digitalen Zeitalter“ Universität Basel, 2 Mai 2011 Dietrich Rordorf dietrich.rordorf@stud.unibas.ch


Literaturangaben 1. PREMIS Editorial Committee. PREMIS Data Dictionary for Preservation Metadata, Version 2.1, January 2011; available online http://www.loc.gov/standards/premis/v2/premis-2-1.pdf 2. Metadata, available online http://en.wikipedia.org/wiki/Metadata 3. Beispiel von Dublin Core Metadaten anhand von: DĂ­az, D.D.; Converso, A.; Sharpless, K.B.; Finn, M.G. 2,6Dichloro-9-thiabicyclo[3.3.1]nonane: Multigram Display of Azide and Cyanide Components on a Versatile Scaffold. Molecules 2006, 11, 212-218; http://dx.doi.org/10.3390/11040212 4. Preservation and the OAIS Model; available online http://mandate.cdlr.strath.ac.uk/preservationoais.htm 5. Consultative Committee for Space Data Systems. Reference Model for an Open Archival Information System (OAIS), January 2002; available online http://public.ccsds.org/publications/archive/650x0b1.PDF 6. ICTU. Digital Preservation Testbed White Paper: XML and Digital Preservation, September 2002; available online http://www.digitaleduurzaamheid.nl/bibliotheek/docs/white-paper_xml-en.pdf 7. SGML, available online http://en.wikipedia.org/wiki/Standard_Generalized_Markup_Language 8. Extensible Markup Language (XML), http://www.w3.org/XML/

2


Inhalt •

Rekapitulation: Was sind Metadaten?

Kleines Beispiel von Metadaten (Dublin Core vs. andere Standards)

Metadaten zur Archivierung: PREMIS

Erhaltung Digitaler Dokumente mit XML

3


Was sind Metadaten? •

Metadaten sind “Daten über Daten” (deskriptiv)

Metadaten beschreiben den Kontext von einem Dokument

Kontext beinhaltet: – Angaben über das Dokument (Titel, Schlagwörter, etc.) – Angaben über Erstellungsprozess / Veröffentlichung (Autoren, Art der Daten / Datenformat, Datum, etc.) – Angaben über den Status (z.B. Relevante Angaben zur Archivierung) – etc.

Quelle: http://itmanagement.earthweb.com/cnews/article.php/3878261/Tech-Comics-Whats-Metadata.htm

4


Kriterien von Metadaten •

Metadaten im Dokument vs. Metadaten ausserhalb des Dokuments werden im Dokument selber im Dokument (Titel und Autor) das Archiv, Dateipfad)

Statische Metadaten

finden keine Erwähnung

erwähnt

(Datum des Eingangs in vs. Dynamische Metadaten

ändern sich über Zeit nicht

werden laufend aktualisiert

(Titel und Autor) (Datum der letzten erfolgreichen Migration; aktueller Dateipfad!, Zugriffsstatistiken) • Strukturelle Metadaten: Metadaten über den Aufbau eines Dokuments, z.B. Angaben über Gliederung eines Buches in Kapitel.

5


Inhalt •

Rekapitulation: Was sind Metadaten?

Kleines Beispiel von Metadaten (Dublin Core vs. andere Standards)

Metadaten zur Archivierung: PREMIS

Erhaltung Digitaler Dokumente mit XML

6


Kleines Beispiel zu Metadaten •

Was? Forschungsartikel, online Publikation Titel: 2,6-Dichloro-9-thiabicyclo[3.3.1]nonane: Multigram Display of Azide and Cyanide Components on a Versatile Scaffold

Wo? Publiziert in Fachzeitschrift Molecules

Wann? Volume 11, Ausgabe 4 (April 2006), online publiziert am 27 März 2006

Wer? Autoren: David D. Díaz, Antonella Converso, K. B. Sharpless, M. G. Finn

etc.

7


Anwendungsbeispiel •

Die gleiche online Version des wissenschaftlichen Artikels

Metadaten in Dublin Core Format / Standard

Metadaten In HTML codiert (in Quellcode von Website eingebettet)

Für Web-Spiders, Suchmaschinen, Literatur Datenbanken, etc.

Website

HTML Quellcode

8


Anwendungsbeispiel

Dublin Core: minimalster Kompromiss (kleinster gemeinsamer Nenner)

9


Zus채tzliche Metadaten, Hier in PRISM

10


Inhalt •

Rekapitulation: Was sind Metadaten?

Kleines Beispiel von Metadaten (Dublin Core vs. andere Standards)

Metadaten zur Archivierung: PREMIS

Erhaltung Digitaler Dokumente mit XML

11


Einordnung in das OAIS

Quelle: http://mandate.cdlr.strath.ac.uk/preservationoais.htm

12


OAIS Information Packages •

Submission Information Package (SIP), enthält Angaben über das Dokument welche vom Autor bzw. dem Deposit-System dem Archiv übergeben werden

Archival Information Package (AIP), enthält alle archivierungsrelevanten Angaben zum Dokument

Dissemination Information Package (DIP), enhät Angaben die dem Endnutzer durch das Archiv zur Verfügung gestellt werden

13


Aufbau eines Information Packages

14


PREMIS • 230-Seitiges „Vokabular“ von Metadaten für Archivierung digitaler Objekte • PREMIS ist mit OAIS Model kompatibel • «Buchführung» eines Archivs (Dokumentation der Prozesse im Archiv) • Aus PREMIS Bericht:

The PREMIS Data Dictionary defines “preservation metadata” as the information a repository uses to support the digital preservation process. […] metadata supporting the functions of maintaining viability, renderability, understandability, authenticity, and identity in a preservation context.

15


Daten Modell Übergeordnete Entität (z.B. Buch); meist ein Set von Objects

Dokumentation von Copyrights und Lizenzierung, v.a. bezüglich Fragestellung: darf Archiv ein Objekt ändern (z.B. migrieren), darf ein Archiv Ein Objekt der Öffentlichkeit bereitstellen?

Personen Personengruppen bestimmte Software

Einzelnes digitales Objekt z.B. einzelnes Kapitel von einem Buch als PDF

Archiveingang Migration Löschung etc. Quelle: PREMIS Data Dictionary for Preservation Metadata, Version 2.1, January 2011

16


Daten Modell Bezüglich „Digitales Objekt“ unterscheidet PREMIS zwischen: Bitstream Ein Bitstream sind Daten innerhalb eines Files (einer Datei) welche aus archivalischer Sicht gemeinsame Charakteristiken haben. Ein Bitstream kann nur durch hinzufügen von Struktur in eine eigenständige Datei überführt werden, und/oder durch die Überführung des Bitstreams in ein bestimmtes Dateiformat.

File Benannte und geordnete Sequenz von Bytes. Ein File hat ein Dateityp (z.B. PDF), Zugriffsberechtigungen und Charakteristiken vom Filesystem wie Grösse (in Bytes) oder Datum der letzten Änderung.

Representation Eine Representation ist ein Set von zusammengehörenden Dateien (Files), inklusive struktureller Metadaten, welche gemeinsam eine übergeordnete Entität bilden.

17


Daten Modell Zu jedem Typ (Object, Rights, Event, Agent) schreibt PREMIS ein Metadaten Vokabular vor.

18


Vokabular Object objectIdentifier, objectIdentifierType, objectIdentifierValue, objectCategory, preservationLevel, preservationLevelValue, preservationLevelRole , preservationLevelRationale, preservationLevelDateAssigned, significantProperties, significantPropertiesType, significantPropertiesValue, significantPropertiesExtension, objectCharacteristics, compositionLevel, fixity, messageDigestAlgorithm, messageDigest, messageDigestOriginator, size, format, formatDesignation, formatName, formatVersion, formatRegistry, formatRegistryName, formatRegistryKey, formatRegistryRole, formatNote, creatingApplication, creatingApplicationName, creatingApplicationVersion, dateCreatedByApplication, creatingApplicationExtension, inhibitors, inhibitorType, inhibitorTarget, inhibitorKey, objectCharacteristicsExtension, originalName, storage, contentLocation, contentLocationType, contentLocationValue, storageMedium, environment, environmentCharacteristic, environmentPurpose, environmentNote, dependency, dependencyName, dependencyIdentifier, dependencyIdentifierType, dependencyIdentifierValue, software, swName, swVersion, swType, swOtherInformation, swDependency, hardware, hwName, hwType, hwOtherInformation, environmentExtension, signatureInformation, signature, signatureEncoding, signer, signatureMethod, signatureValue, signatureValidationRules, signatureProperties, keyInformation, signatureInformationExtension, relationship, relationshipType, relationshipSubType, relatedObjectIdentification, relatedObjectIdentifierType, relatedObjectIdentifierValue, relatedObjectSequence, relatedEventIdentification, relatedEventIdentifierType, relatedEventIdentifierValue, relatedEventSequence, linkingEventIdentifier, linkingEventIdentifierType, linkingEventIdentifierValue, linkingIntellectualEntityIdentifier, linkingIntellectualEntityIdentifierType, linkingIntellectualEntityIdentifierValue, linkingRightsStatementIdentifier, linkingRightsStatementIdentifierType, linkingRightsStatementIdentifierValue

19


PREMIS Beispiel Ein Zeitungsartikel bestehend aus Text (XML Datei A) und einem Bild (eine JPEG Datei) wird in ein Archiv eingereicht. Zus채tzlich wird eine vollst채ndige Kopie des Zeitungsartikel als PDF eingereicht. Der Ingest Prozess des Archivs konvertiert die XML Datei A anhand einer XML Software in ein standardisiertes XML Format (XML Datei B). Zus채tzlich konvertiert der Ingest Prozess das Bild mit Hilfe einer Grafiksoftware vom propriet채ren JPEG Format in eine Archiv-gerechte TIFF Datei.

20


PREMIS Beispiel Ein Zeitungsartikel bestehend aus Text (XML Datei A) und einem Bild (eine JPEG Datei) wird in ein Archiv eingereicht. Zus채tzlich wird eine vollst채ndige Kopie des Zeitungsartikel als PDF eingereicht. Der Ingest Prozess des Archivs konvertiert die XML Datei A anhand einer XML Software in ein standardisiertes XML Format (XML Datei B). Zus채tzlich konvertiert der Ingest Prozess das Bild mit Hilfe einer Grafiksoftware vom propriet채ren JPEG Format in eine Archiv-gerechte TIFF Datei.

21


PREMIS Beispiel Intelectual Entity

Zeitungsartikel

1 Representation PDF Datei XML B + TIFF)

XML A + JPEG

2 3 1

Objects (Files) XML A JPEG

PDF Datei

2 3

XML B TIFF

22


PREMIS Beispiel Agent

Autor / User

XML Software

Events

Einreichung XML Konversion

Entity / ObjectZeitungsartikel 1 XML2Datei A

Grafiksoftware

Bild Konversion

JPEG Datei

Rep.

3 Event Outcome

-

XML Datei B

TIFF Datei

23


Inhalt •

Rekapitulation: Was sind Metadaten?

Kleines Beispiel von Metadaten (Dublin Core vs. andere Standards)

Metadaten zur Archivierung: PREMIS

Erhaltung Digitaler Dokumente mit XML

24


Preservation Strategies •

Erhaltung der Technologie Erhaltung des ganzen Computer-Systems

Analogisierung digitale Dokumente werden analogisiert, z.B. auf Papier gedruckt

Emulation / Virtual Machines Simulation von früherer Software/Hardware auf zeitgenössischen Rechnern

Encapsulation („Kapselung“) Dokument im original Format + Instruktion wie Daten zu interpretieren sind

Migration Dokumente werden regelmäßig auf zeitgenössische Formate migriert

Überführung der Daten in XML Format

25


Vorteile von XML •

XML (Extensible Markup Language)

Weiterführung von SGML (Standardized General Markup Language, 1980er), und GML (IBM Generalized Markup Language, 1960er)

XML ist ein offener Standard

XML ist als ASCII oder Unicode Text gespeichert (einfachstes Dateiformat)

XML verbindet Inhalte und Struktur, Metadaten können zusammen mit Inhalt in einer XML Datei gespeichert werden

vom Menschen lesbar

vom Computer auswertbar

26


XML Technologies •

XML speichert Metadaten, Inhalte und Struktur mit Hilfe von <tags>

Mit DTD (Document Type Definition) lassen sich XML Standards erarbeiten (wie hat eine XML Datei auszuschauen)

Mit XSL (Extensible Stylesheet Language) lassen sich Instruktionen erarbeiten wie ein XML Dokument z.B. in eine HTML oder eine PDF Datei überführt werden kann

Mit XSLT (XSL Transformations) lassen sich Instruktionen erarbeiten, wie ein XML Format in ein anderes XML Format überführt werden kann

27


XML Technologies DTD

XML DTD XSLT

XML

XSL

HTML

Konversion XSLFO

PDF

28


Wieso XML für Archivierung? •

XML ist durch Einfachheit sehr langlebig

DTD bietet flexible und einfache Möglichkeit von Bildung von Standards (DTD für Bücher, DTD für wissenschaftliche Artikel, DTD für Finanztransaktionen, etc.)

XSLT bietet uns flexible Möglichkeit XML Dateien einfach zu migrieren

Nachteil: grosser Kostenfaktor um XML herzustellen.

Aber: XML Herstellung kann als eine einmalige Migration betrachtet werden (spätere Migrationen mit XSLT sind dann nur noch eine Formsache)

29


Danke f端r die Aufmerksamkeit!

Metadaten Standards für die Archivierung im digitalen Zeitalter  
Advertisement