Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Status
colourPurple
titleunder construction

Grundsätzliche Optionen zur Verbesserung der Datenqualität

...

  • Nutzung besserer Quelldaten aus dem Erschliessungssystem eines Datengebers

  • Maschinelle Bereinigungen und Normalisierungen beim Import (Splitten von Strings, Erkennen von Mustern etc.)

  • Zuordnung zu Vokabularien beim Import

  • Erkennung von Informationen aus Freitextfeldern

  • Vorausgehende Bereinigungsarbeiten bei den Datengebern

...

  • Personen: Noch nichts geplant, ist abhängig vom Vorhandensein identifizierender Merkmale

  • Geografika: Noch nichts, geplant sind Wikidata und/oder GeoNames

  • Sprache: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)

  • Genre: Anreicherung um Begriffe aus einer fixen Liste

  • Format: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)

  • Nutzungsrechte: Anreicherung um eine Information nach einer standardisierten Begriffsliste für die Facette “Weiternutzung”

Angereicherte Informationen werden in ihrer Herkunft ausgezeichnet, um sie von den originalen Angaben der Datengeber unterscheiden zu können.

...

Die individualisierenden Merkmale stehen idealerweise in spezifischen, klar ausgezeichneten Metadatenfeldern. Informationen aus Freitext sind schwieriger zu extrahieren, es sei denn, dass über einen Bestand hinweg konsistente Schreibweisen bzw. eine einheitliche Verwendung von Trennzeichnen vorliegt.

Key Questions:

  • Welche Informationen reichern wir während des Imports womit an?

  • Welche Faktoren sind essenziell, damit eine Anreicherung optimal funktioniert?

  • Was könnten die Datengeber jetzt schon verbessern um künftig Datenanreicherungen zu erleichtern? Siehe dazu auch die Erkenntnisse aus metisgym!

Quellen:

...

Zudem müsste entschieden werden, welche Beziehung eine solche extrahierte Information zum Medienobjekt hat, da wohl eine sichere automatisierte Zuordnung zu subject resp. creator nicht möglich ist.