Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Jede Textdatei, die im sFTP-Unterordner des Recordsets vorhanden ist, wird in Bezug auf Kodierung, Dateiformat und Komprimierung validiert. Diese Überprüfung basiert auf den Dateierweiterungen. Sollte die Validierung auf eine unbekannte Dateierweiterung stoßen, wird ein Fehler zurückgegeben. Derzeit werden die Dateiformate CSV, TSV, XLS, XLSX und XML angenommen, als Codierung wird UTF-8 erwartet.

Code Repository

Structural Normalization

Um möglichst viele Datenformate akzeptieren zu können, normalisiert dieser Schritt die vielen verschiedenen Formate und Strukturen in ein einfaches, flaches JSON-Format. Diese Normalisierung wird durch jeweils separate Dienste je nach Dateiformat durchgeführt.

...

Dieser Service nutzt die XSLT-Konfiguration, um ein beliebiges XML in ein einfaches JSON-Format zu transformieren.

RDF Resource and Property Mapping

In diesem Schritt wird das ursprüngliche Datenmodell auf Memobase RDF auf einer property by property Basis abgebildet. Ein einzelner Metadatensatz von der Datengeberin wird in der Regel in mehrere RDF-Ressourcen übersetzt (Record, Instantiation digitalObject, Instantiation physicalObject). Dieser Service verwendet eine als YAML serialisierte Mapping-Konfiguration, um eine Key-Value-Map-Eingabe in die RDF-Ressourcen von Memobase RDF zu mappen. In diesem Schritt ist es nicht möglich, die Werte der Felder zu ändern. Er bildet jedes Feld der Eingabestruktur auf eine RDF-Ressource oder Eigenschaft ab. Zudem können fixe Werte zu allen Datensätzen hinzugefügt werden (z.B. Zugangsinformationen). Für die Syntax der Mapping-Konfiguration (mapping.yml) siehe: Mapping für die Transformation

Code Repository

Media Resources Integration and Preparation

...

Im dritten und letzten Schritt werden technische Metadaten mittels den Tools Siegfried (MIME-Type und PRONOM-ID), ffmpeg (AV-Metadaten-Extraktion und AV-Validierung) sowie imagemagick (Bild-Metadaten-Extraktion und Bild-Validierung) extrahiert. Fehler bei der Extraktion werden ignoriert, stattdessen wird versucht, so viele Informationen wie möglich zu extrahieren.

Metadata Normalization and Enrichment

...

Code Repository

Metadata Validation

Ein Service, der die Definitionen der Shapes Constraint Language (SHACL) verwendet, um die Form der generierten RDF-Ressourcen zu validieren. Die Sprache verwendet RDF als Syntax, als Syntax wird Turtle empfohlen.