Datenanreicherungen

Grundsätzliche Optionen zur Verbesserung der Datenqualität

Damit Daten besser verarbeitet und angereichert werden können, sind grundsätzlich verschiedene Möglichkeiten vorhanden:

  • Nutzung besserer Quelldaten aus dem Erschliessungssystem eines Datengebers

  • Maschinelle Bereinigungen und Normalisierungen beim Import (Splitten von Strings, Erkennen von Mustern etc.)

  • Zuordnung zu Vokabularien beim Import

  • Erkennung von Informationen aus Freitextfeldern

  • Vorausgehende Bereinigungsarbeiten bei den Datengebern

Derzeit durchgeführte Bereinigungen und Anreicherungen im Importprozess

Während dem Import werden derzeit folgende Informationen angereichert:

  • Personen: Noch nichts geplant, ist abhängig vom Vorhandensein identifizierender Merkmale

  • Geografika: Noch nichts, geplant sind Wikidata und/oder GeoNames

  • Sprache: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)

  • Genre: Anreicherung um Begriffe aus einer fixen Liste

  • Format: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)

  • Nutzungsrechte: Anreicherung um eine Information nach einer standardisierten Begriffsliste für die Facette “Weiternutzung”

Angereicherte Informationen werden in ihrer Herkunft ausgezeichnet, um sie von den originalen Angaben der Datengeber unterscheiden zu können.

Faktoren, die eine Anreicherung fördern

Zur Anreicherung von Daten ist die korrekte Verlinkung mit zusätzlichen Datenquellen notwendig. Voraussetzung dafür ist, dass ein Begriff eindeutig einem Datensatz zugeordnet bzw. mit diesem verlinkt werden kann. Bei der Identität von Personen bspw. sind individualisierende Merkmale nötig wie ein Identifier einer Normdatenbank (GND, ORCID etc.), ein Geburtsdatum und/oder eine Organisationszugehörigkeit (Affiliation) von grossem Vorteil. Bei Geografika wiederum helfen Kantons- bzw. Länderzuordnungen, um mehrfach verwendete Ortsnamen eindeutig lokalisieren und die Ortsnamen mit Geokoordinaten anreichern zu können.

Die individualisierenden Merkmale stehen idealerweise in spezifischen, klar ausgezeichneten Metadatenfeldern. Informationen aus Freitext sind schwieriger zu extrahieren, es sei denn, dass über einen Bestand hinweg konsistente Schreibweisen bzw. eine einheitliche Verwendung von Trennzeichnen vorliegt. Zudem müsste entschieden werden, welche Beziehung eine solche extrahierte Information zum Medienobjekt hat, da wohl eine sichere automatisierte Zuordnung zu subject resp. creator nicht möglich ist.

Kennzeichnung von Anreicherungen

Die Daten, die Memoriav von den Institutionen erhält, werden nur geringfügig angepasst und ansonsten unverändert gespeichert. Darunter verstehen sich die folgenden Anpassungen:

Die gelieferten Metadaten und Medienobjekte sind Basis für diverse Anreicherungen. Metadaten, die durch einen Anreicherungsprozess ergänzt wurden, werden gekennzeichnet, damit nachvollzogen werden kann, durch welchen Prozess diese Daten erstellt wurden. Anreicherungsprozesse sind u.a.:

  • Anreicherung von Sprachen, Trägerformaten, Genre, Orten, Personen, etc. aus Vokabularen oder fixen Listen.

  • Anreicherungen durch die Extraktion von technischen Metadaten aus den Medienobjekten, sofern dabei Entitäten generiert werden, die auch in den gelieferten Metadaten vorkommen können (d.h. nicht mit gemeint sind die blau markierten properties des digitalObjects https://memobase.atlassian.net/wiki/spaces/MD/pages/336855177/Memobase+RDF#digitalObject).

 

Beispiel für die Anreicherung einer Sprache mit Kennzeichnung (b26 ist der Input-Wert, b27 der angereicherte Wert):

{ "@id": "_:b24", "@type": "https://www.ica.org/standards/RiC/ontology#Activity", "affects": "_:b26", "beginningDate": "2021-27-19T09:27:09+0000", "endDate": "2021-27-19T09:27:09+0000", "performedBy": "_:b25", "resultsIn": "_:b27", "type": "enrichment" }, { "@id": "_:b25", "@type": "https://www.ica.org/standards/RiC/ontology#Mechanism", "name": "LanguagesNormalizer", "performs": "_:b24" }, { "@id": "_:b26", "@type": "https://www.ica.org/standards/RiC/ontology#Language", "name": "français", "type": "content" }, { "@id": "_:b27", "@type": "https://www.ica.org/standards/RiC/ontology#Language", "sameAs": "http://www.wikidata.org/entity/Q150", "name": [ { "@language": "de", "@value": "Französisch" }, { "@language": "fr", "@value": "français" }, { "@language": "it", "@value": "francese" } ], "resultsFrom": "_:b24", "type": "content" },