Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 5 Next »

Für Sprache, Genre und Format finden im Import Anreicherungen statt. Diese sind Basis für die Facetten.

Aufbau von Mappings und Labels

Die Anreicherungen werden über CSV files in https://gitlab.switch.ch/memoriav/memobase-2020/services/import-process/import-process-cli/-/tree/master/global-configs/transforms konfiguriert.

Mappings

In den Dateien formats.csv, languages.csv und genres.csv ist das Mapping von Input-Wert zu Wikidata-ID resp. zu fixen Begriffen hinterlegt.

Die Spalten der Tabelle sind fix: "wert","wikidata1","wikidata2","wikidata3","wikidata4","wikidata5", "wikidata6","facette1","facette2","facette3","facette4","facette5","facette6"

  • wert: Enthält die in den gelieferten Daten enthaltenen Werte (nach Normalisierung)

  • wikidata[1-6]: Enthält Wikidata-IDs, zu denen der Wert gemappt werden soll

  • facette[1-6]: Enthält fixe Begriffe, die in den Facetten aufgeführt werden sollen und wird in der Regel verwendet, wenn ein Mapping zu Wikidata nicht möglich ist

Labels

In den Dateien formats_labels.csv, languages_labels.csv und genres_labels.csv sind die Übersetzungen von Wikidata-ID und fixen Begriffen zu den Labels in den drei Sprachen für die Anzeige hinterlegt.

Die Spalten der Tabelle sind fix: "id","de","fr","it"

  • id: Enthält alle Werte, die im entsprechenden Mappingfile in den Spalten wikidata[1-6] oder facette[1-6] enthalten sind

  • de: Enthält das Label auf Deutsch

  • fr: Enthält das Label auf Französisch

  • it: Enthält das Label auf Italienisch

Die Labels aus Wikidata werden automatisch per Script über eine SPARQL Abfrage gesammelt und gespeichert.

Anleitung für Anpassungen

Allgemein zu beachten:

  • Zeichensatz ist UTF-8

  • Als Trennzeichen wird ein Komma verwendet

  • Wenn in den Strings Kommas vorkommen, ist “ als Zeichenketten-Trenner zwingend

Die Bearbeitung in Excel folgt folgendem Ablauf:

  • Daten → Externe Daten abrufen → Aus Text → Datei auswählen und importieren

  • Import-Dialog Schritt 1:

    • Getrennt anwählen

    • Unter Dateiursprung Unicode (UTF-8) anwählen

  • Import-Dialog Schritt 2: Komma als Trennzeichen anwählen

  • Import-Dialog Schritt 3: Alle Spalten als Text kennzeichnen

  • Datei bearbeiten

  • Datei → Speichern unter

    • Speicherort der Datei auswählen

    • Identischer Dateiname wie zuvor angeben

    • Dateityp “CSV UTF-8 (durch Trennzeichen getrennt)” auswählen

    • Datei speichern und vorhandene Datei ersetzen

Zum Abschluss folgt ein Commit auf GitLab gemäss separater Anleitung: /wiki/spaces/MD/pages/290324481.

Nach dem Commit wird die Aktualisierung automatisch über GitLab CI/CD verteilt.

  • No labels