Für Sprache, Genre und Format finden im Import Anreicherungen statt. Diese sind Basis für die Facetten.

Sprache und Format: Anreicherung mit Wikidata IDs und Labels, falls notwendig Anreicherungen mit zusätzlichen fixen Begriffen für die Facette (Andere, etc.)
Genre: Anreicherung von Begriffen aus einer fixen Liste

Aufbau

Die Anreicherungen werden über CSV files in https://gitlab.switch.ch/memoriav/memobase-2020/services/import-process/import-process-cli/-/tree/master/global-configs/transforms konfiguriert.

Mappings

In den Dateien formats.csv, languages.csv und genres.csv ist das Mapping von Input-Wert zu Wikidata ID, resp. zu fixen Begriffen hinterlegt.

Die Spalten der Tabelle sind fix:"wert","wikidata1","wikidata2","wikidata3","wikidata4","wikidata5","wikidata6","facette1","facette2","facette3","facette4","facette5","facette6"

wert: enthält die in den gelieferten Daten enthaltenen Werte (nach Normalisierung)
wikidata[1-6]: enthält Wikidata IDs zu denen der Wert gemappt werden soll
facette[1-6]: enthält fixe Begriffe, die in den Facetten aufgeführt werden sollen und wird in der Regel verwendet, wenn ein Mapping zu Wikidata nicht möglich ist

Labels

In den Dateien formats_labels.csv, languages_labels.csv und genres_labels.csv sind die Übersetzungen von Wikidata ID und fixen Begriffen zu den Labels in den drei Sprachen für die Anzeige hinterlegt.

Die Spalten der Tabelle sind fix:
"id","de","fr","it"

id: enthält alle Werte, die im entsprechenden Mapping file in den Spalten wikidata[1-6] oder facette[1-6] enthalten sind
de: enthält das Label auf Deutsch
fr: enthält das Label auf Französisch
it: enthält das Label auf Italienisch

Die Labels aus Wikidata werden automatisch per Script über eine SPARQL Abfrage gesammelt und gespeichert.

Anleitung für Anpassungen

Allgemein zu beachten:

Zeichensatz ist UTF-8
Als Trennzeichen wird Komma verwendet
Wenn in den Strings Kommas vorkommen, ist “ als Zeichenketten-Trenner zwingend

Bearbeiten in Excel:

Daten/Externe Daten abrufen/Aus Text → Datei auswählen und importieren
Im Import-Dialog Schritt 1:
- Getrennt anwählen
- unter Dateiursprung Unicode (UTF-8) anwählen
Im Import-Dialog Schritt 2: Komma als Trennzeichen anwählen
Im Import-Dialog Schritt 3: Alle Spalten als Text kennzeichnen
Datei bearbeiten
Datei/Speichern unter
- Speicherort der Datei auswählen
- Dateiname identisch wie vorher angeben
- Dateityp CSV UTF-8 (durch Trennzeichen getrennt) auswählen
- Datei speichern und vorhandene Datei ersetzen

Commit auf GitLab, siehe /wiki/spaces/MD/pages/290324481.

Nach dem commit wird die Aktualisierung automatisch über GitLab CI/CD verteilt …

Anreicherung Sprache, Genre, Format

Aufbau

Mappings

Labels

Anleitung für Anpassungen