Page Comparison

Für Sprache, Genre und Format finden im Import Anreicherungen statt. Diese sind Basis für die Facetten.

Sprache und Format: Anreicherung mit Wikidata IDs und Labels, falls notwendig Anreicherungen mit zusätzlichen fixen Begriffen für die Facette (Andere, etc.)
Genre: Anreicherung von Begriffen aus einer fixen Liste

...

Aufbau von Mappings und Labels

Die Anreicherungen werden über CSV files in https://gitlab.switch.ch/memoriav/memobase-2020/services/import-process/import-process-cli/-/tree/master/global-configs/transforms Dateien im Repositorium konfiguriert.

Mappings

In den Dateien formats.csv, languages.csv und genres.csv ist das Mapping von Input-Wert zu Wikidata-ID , resp. zu fixen Begriffen hinterlegt.

Die Spalten der Tabelle sind fix: "wert","wikidata1","wikidata2","wikidata3","wikidata4","wikidata5", "wikidata6","facette1","facette2","facette3","facette4","facette5","facette6"

wert: enthält Enthält die in den gelieferten Daten enthaltenen Werte (nach Normalisierung)
wikidata[1-6]: enthält Enthält Wikidata-IDs, zu denen der Wert gemappt werden soll
facette[1-6]: enthält Enthält fixe Begriffe, die in den Facetten aufgeführt werden sollen und wird in der Regel verwendet, wenn ein Mapping zu Wikidata nicht möglich ist

Labels

In den Dateien formats_labels.csv, languages_labels.csv und genres_labels.csv sind die Übersetzungen von Wikidata-ID und fixen Begriffen zu den Labels in den drei Sprachen für die Anzeige hinterlegt.

Die Spalten der Tabelle sind fix:
"id","de","fr","it"

id: enthält Enthält alle Werte, die im entsprechenden Mapping file Mappingfile in den Spalten wikidata[1-6] oder facette[1-6] enthalten sind
de: enthält Enthält das Label auf Deutsch
fr: enthält Enthält das Label auf Französisch
it: enthält Enthält das Label auf Italienisch

Die Labels aus Wikidata werden automatisch per Script über eine SPARQL Abfrage gesammelt und gespeichert. Entsprechend müssen fehlende Labels in Wikidata und nicht manuell in der CSV-Datei ergänzt werden.

Anleitung für Anpassungen

Allgemein zu beachten:

Zeichensatz ist UTF-8
Als Trennzeichen wird ein Komma verwendet
Wenn in den Strings Kommas vorkommen, ist “ als Zeichenketten-Trenner zwingend

Bearbeiten Die Bearbeitung in Excel folgt folgendem Ablauf:

Daten /→ Externe Daten abrufen /→ Aus Text → Datei auswählen und importieren
Im Import-Dialog Schritt 1:
- Getrennt anwählen
- unter Unter Dateiursprung Unicode (UTF-8) anwählen
Im Import-Dialog Schritt 2: Komma als Trennzeichen anwählen
Im Import-Dialog Schritt 3: Alle Spalten als Text kennzeichnen
Datei bearbeiten
Datei /→ Speichern unter
- Speicherort der Datei auswählen
- Identischer Dateiname identisch wie vorher zuvor angeben
- Dateityp CSV “CSV UTF-8 (durch Trennzeichen getrennt)” auswählen
- Datei speichern und vorhandene Datei ersetzen

Zum Abschluss folgt ein Commit auf GitLab , siehe gemäss separater Anleitung: /wiki/spaces/MD/pages/290324481.Nach dem commit wird

Anschliessend muss das Team in der UB Basel benachrichtigt werden, das die Konfigurationen aktualisieren kann.

Zukünftig geplant ist, dass nach dem Commit die Aktualisierung automatisch über GitLab CI/CD verteilt …wird.

Versions Compared

Old Version 3

New Version Current

Key

Aufbau von Mappings und Labels

Mappings

Labels

Anleitung für Anpassungen