Anreicherung Sprache, Genre, Format

Für Sprache, Genre und Format finden im Import Anreicherungen statt. Diese sind Basis für die Facetten.

Aufbau von Mappings und Labels

Die Anreicherungen werden über CSV Dateien im Repositorium konfiguriert.

Mappings

In den Dateien formats.csv, languages.csv und genres.csv ist das Mapping von Input-Wert zu Wikidata-ID resp. zu fixen Begriffen hinterlegt.

Die Spalten der Tabelle sind fix: "wert","wikidata1","wikidata2","wikidata3","wikidata4","wikidata5", "wikidata6","facette1","facette2","facette3","facette4","facette5","facette6"

  • wert: Enthält die in den gelieferten Daten enthaltenen Werte (nach Normalisierung)

  • wikidata[1-6]: Enthält Wikidata-IDs, zu denen der Wert gemappt werden soll

  • facette[1-6]: Enthält fixe Begriffe, die in den Facetten aufgeführt werden sollen und wird in der Regel verwendet, wenn ein Mapping zu Wikidata nicht möglich ist

Labels

In den Dateien formats_labels.csv, languages_labels.csv und genres_labels.csv sind die Übersetzungen von Wikidata-ID und fixen Begriffen zu den Labels in den drei Sprachen für die Anzeige hinterlegt.

Die Spalten der Tabelle sind fix: "id","de","fr","it"

  • id: Enthält alle Werte, die im entsprechenden Mappingfile in den Spalten wikidata[1-6] oder facette[1-6] enthalten sind

  • de: Enthält das Label auf Deutsch

  • fr: Enthält das Label auf Französisch

  • it: Enthält das Label auf Italienisch

Die Labels aus Wikidata werden automatisch per Script über eine SPARQL Abfrage gesammelt und gespeichert. Entsprechend müssen fehlende Labels in Wikidata und nicht manuell in der CSV-Datei ergänzt werden.

Anleitung für Anpassungen

Allgemein zu beachten:

  • Zeichensatz ist UTF-8

  • Als Trennzeichen wird ein Komma verwendet

  • Wenn in den Strings Kommas vorkommen, ist “ als Zeichenketten-Trenner zwingend

Die Bearbeitung in Excel folgt folgendem Ablauf:

  • Daten → Externe Daten abrufen → Aus Text → Datei auswählen und importieren

  • Import-Dialog Schritt 1:

    • Getrennt anwählen

    • Unter Dateiursprung Unicode (UTF-8) anwählen

  • Import-Dialog Schritt 2: Komma als Trennzeichen anwählen

  • Import-Dialog Schritt 3: Alle Spalten als Text kennzeichnen

  • Datei bearbeiten

  • Datei → Speichern unter

    • Speicherort der Datei auswählen

    • Identischer Dateiname wie zuvor angeben

    • Dateityp “CSV UTF-8 (durch Trennzeichen getrennt)” auswählen

    • Datei speichern und vorhandene Datei ersetzen

Zum Abschluss folgt ein Commit auf GitLab gemäss separater Anleitung: https://ub-basel.atlassian.net/wiki/spaces/MD/pages/290324481.

Anschliessend muss das Team in der UB Basel benachrichtigt werden, das die Konfigurationen aktualisieren kann.

Zukünftig geplant ist, dass nach dem Commit die Aktualisierung automatisch über GitLab CI/CD verteilt wird.