...
Jede Textdatei, die im sFTP-Unterordner des Recordsets vorhanden ist, wird in Bezug auf Kodierung, Dateiformat und Komprimierung validiert. Diese Überprüfung basiert auf den Dateierweiterungen. Sollte die Validierung auf eine unbekannte Dateierweiterung stoßen, wird ein Fehler zurückgegeben. Derzeit werden die Dateiformate CSV, TSV, XLS, XLSX und XML angenommen, als Codierung wird UTF-8 erwartet.
Structural Normalization
Um möglichst viele Datenformate akzeptieren zu können, normalisiert dieser Schritt die vielen verschiedenen Formate und Strukturen in ein einfaches, flaches JSON-Format. Diese Normalisierung wird durch jeweils separate Dienste je nach Dateiformat durchgeführt.
...
Dieser Service nutzt die XSLT-Konfiguration, um ein beliebiges XML in ein einfaches JSON-Format zu transformieren.
RDF Resource and Property Mapping
In diesem Schritt wird das ursprüngliche Datenmodell auf Memobase RDF auf einer property by property Basis abgebildet. Ein einzelner Metadatensatz von der Datengeberin wird in der Regel in mehrere RDF-Ressourcen übersetzt (Record, Instantiation digitalObject, Instantiation physicalObject). Dieser Service verwendet eine als YAML serialisierte Mapping-Konfiguration, um eine Key-Value-Map-Eingabe in die RDF-Ressourcen von Memobase RDF zu mappen. In diesem Schritt ist es nicht möglich, die Werte der Felder zu ändern. Er bildet jedes Feld der Eingabestruktur auf eine RDF-Ressource oder Eigenschaft ab. Zudem können fixe Werte zu allen Datensätzen hinzugefügt werden (z.B. Zugangsinformationen). Für die Syntax der Mapping-Konfiguration (mapping.yml) siehe: Mapping für die Transformation
Media Resources Integration and Preparation
...
Im dritten und letzten Schritt werden technische Metadaten mittels den Tools Siegfried (MIME-Type und PRONOM-ID), ffmpeg (AV-Metadaten-Extraktion und AV-Validierung) sowie imagemagick (Bild-Metadaten-Extraktion und Bild-Validierung) extrahiert. Fehler bei der Extraktion werden ignoriert, stattdessen wird versucht, so viele Informationen wie möglich zu extrahieren.
Metadata Normalization and Enrichment
...
Lokal: Splitten von Entitäten, Normalisierung von Personennamen
Für die Konfiguration siehe: Konfiguration Local TransformsGlobal: Normalisierung von Datumsangaben, Trägertyp, Sprache und Genre
Details zu Trägertyp, Sprache und Genre siehe: Anreicherung Sprache, Genre, Format
Details zu Datumsangaben siehe: Datumsangaben
Metadata Validation
Ein Service, der die Definitionen der Shapes Constraint Language (SHACL) verwendet, um die Form der generierten RDF-Ressourcen zu validieren. Die Sprache verwendet RDF als Syntax, als Syntax wird Turtle empfohlen.