Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Status
colourPurple
titleUNDER construction

Inc drawio
zoom1
simple0
pageId374276107
custContentId618594627
lbox1
diagramDisplayNamepostprocessing-steps.drawio
hiResPreview0
baseUrlhttps://memobase.atlassian.net/wiki
diagramNamepostprocessing-steps.drawio
imgPageId618627505
pCenter0
aspectFxrIFq4vqtaKI8HJX3_7 1
width781
includedDiagram1
aspectHashba6702e1469582dbb70c2cff075c5535736f76fd
linksauto
tbstyletop
height561

Import Process Bridge

Die Import Process Bridge überführt die Daten in eine JSON-LD-Struktur, welche von den nachfolgenden Services für die verschiedenen Endpoints aufbereitet wird. Sie ist damit das Bindeglied zwischen dem ersten Teil des Import-Workflows, welcher ursprünglich als einzigen Endpoint das Fedora-Repository hatte, und dem zweiten Teil - dem “Post-Processing”, der als Quelle die in Fedora gespeicherten Daten hatte. Die Import Process Bridge existiert für alle drei Importworkflows - Dokumente, Bestände und Institutionen.

...

Die durch die Datenpipeline erstellten EDM RDF-XML Dokumente werden im Elasticsearch-Index indexiert (siehe unten Metadaten Ingest). Der Elasticsearch-Index (Indexname oai-v*) ist dann die Grundlage für die /wiki/spaces/MD/pages/366313714 (siehe die Beispielabfrage mit verb ListRecords und einem Set, welches für Europeana erstellt wurde).

Das Mapping der Daten zwischen Memobase RDF und EDM ist aufwendig und benötigt neben den RiCO-Daten weitere Informationen aus den Suchindizes für Institutionen und Bestände. Aus diesen Gründen wurde das Mapping nicht als ad-hoc-Transformation in die OAI-Schittstelle verlegt (wie dies früher bspw. in swissbib SRU gemacht wurde). In anderen, nicht-EDM-bezogenen Fällen kann diese Methode angepasst werden - bspw. indem direkt Memobase RDF in einer XML-Serialisierung ausgeliefert wird.

...

Metadaten Ingest (in Elasticsearch)

[…]

Siehe: Post-Processing Steps (derzeit noch in Erarbeitung)Dieser Service akzeptiert Metadaten im JSON format und indexiert diese in Elasticsearch. Der Service ist optimiert, damit möglichst viele Dokumente gleichzeitig indexiert werden können.