Für Sprache, Genre und Format finden im Import Anreicherungen statt. Diese sind Basis für die Facetten.
Sprache und Format: Anreicherung mit Wikidata IDs und Labels, falls notwendig Anreicherungen mit zusätzlichen fixen Begriffen für die Facette (Andere, etc.)
Genre: Anreicherung von Begriffen aus einer fixen Liste
...
Aufbau von Mappings und Labels
Die Anreicherungen werden über CSV files in https://gitlab.switch.ch/memoriav/memobase-2020/services/import-process/import-process-cli/-/tree/master/global-configs/transforms Dateien im Repositorium konfiguriert.
Mappings
In den Dateien formats.csv, languages.csv und genres.csv ist das Mapping von Input-Wert zu Wikidata-ID , resp. zu fixen Begriffen hinterlegt.
Die Spalten der Tabelle sind fix: "wert","wikidata1","wikidata2","wikidata3","wikidata4","wikidata5", "wikidata6","facette1","facette2","facette3","facette4","facette5","facette6"
wert: enthält Enthält die in den gelieferten Daten enthaltenen Werte (nach Normalisierung)
wikidata[1-6]: enthält Enthält Wikidata-IDs, zu denen der Wert gemappt werden soll
facette[1-6]: enthält Enthält fixe Begriffe, die in den Facetten aufgeführt werden sollen und wird in der Regel verwendet, wenn ein Mapping zu Wikidata nicht möglich ist
Labels
In den Dateien formats_labels.csv, languages_labels.csv und genres_labels.csv sind die Übersetzungen von Wikidata-ID und fixen Begriffen zu den Labels in den drei Sprachen für die Anzeige hinterlegt.
Die Spalten der Tabelle sind fix:
"id","de","fr","it"
id: enthält Enthält alle Werte, die im entsprechenden Mapping file Mappingfile in den Spalten wikidata[1-6] oder facette[1-6] enthalten sind
de: enthält Enthält das Label auf Deutsch
fr: enthält Enthält das Label auf Französisch
it: enthält Enthält das Label auf Italienisch
Die Labels aus Wikidata werden automatisch per Script über eine SPARQL Abfrage gesammelt und gespeichert. Entsprechend müssen fehlende Labels in Wikidata und nicht manuell in der CSV-Datei ergänzt werden.
Anleitung für Anpassungen
Allgemein zu beachten:
Zeichensatz ist UTF-8
Als Trennzeichen wird ein Komma verwendet
Wenn in den Strings Kommas vorkommen, ist “ als Zeichenketten-Trenner zwingend
Bearbeiten Die Bearbeitung in Excel folgt folgendem Ablauf:
Daten /→ Externe Daten abrufen /→ Aus Text → Datei auswählen und importieren
Im Import-Dialog Schritt 1:
Getrennt anwählen
unter Unter Dateiursprung Unicode (UTF-8) anwählen
Im Import-Dialog Schritt 2: Komma als Trennzeichen anwählen
Im Import-Dialog Schritt 3: Alle Spalten als Text kennzeichnen
Datei bearbeiten
Datei /→ Speichern unter
Speicherort der Datei auswählen
Identischer Dateiname identisch wie vorher zuvor angeben
Dateityp CSV “CSV UTF-8 (durch Trennzeichen getrennt)” auswählen
Datei speichern und vorhandene Datei ersetzen
Zum Abschluss folgt ein Commit auf GitLab , siehe gemäss separater Anleitung: /wiki/spaces/MD/pages/290324481.Nach dem commit wird
Anschliessend muss das Team in der UB Basel benachrichtigt werden, das die Konfigurationen aktualisieren kann.
Zukünftig geplant ist, dass nach dem Commit die Aktualisierung automatisch über GitLab CI/CD verteilt …wird.