UNDER CONSTRUCTION
Grundsätzliche Optionen zur Verbesserung der Datenqualität
Damit Daten besser verarbeitet und angereichert werden können, sind grundsätzlich verschiedene Möglichkeiten vorhanden:
Nutzung besserer Quelldaten aus dem Erschliessungssystem eines Datengebers
Maschinelle Bereinigungen beim Import (Splitten von Strings, Erkennen von Mustern etc.)
Zuordnung zu Vokabularien beim Import
Erkennung von Informationen aus Freitextfeldern
Vorausgehende Bereinigungsarbeiten bei den Datengebern
Derzeit durchgeführte Bereinigungen und Anreicherungen im Importprozess
Während dem Import werden derzeit folgende Informationen angereichert:
Personen: Noch nichts geplant, ist abhängig vom Vorhandensein identifizierender Merkmale
Geografika: Noch nichts, geplant sind Wikidata und/oder GeoNames
Sprache: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)
Genre: Anreicherung um Begriffe aus einer fixen Liste
Format: Anreicherung mit Wikidata-IDs und -Labels, teilweise auch um zusätzliche Begriffe für die Facette (Andere, etc.)
Nutzungsrechte: …
Angereicherte Informationen werden in ihrer Herkunft ausgezeichnet, um sie von den originalen Angaben der Datengeber unterscheiden zu können.
Faktoren, die eine Anreicherung fördern
Zur Anreicherung von Daten ist die korrekte Verlinkung mit zusätzlichen Datenquellen notwendig. Voraussetzung dafür ist, dass ein Begriff eindeutig einem Datensatz zugeordnet bzw. mit diesem verlinkt werden kann. Bei der Identität von Personen bspw. sind individualisierende Merkmale nötig wie ein Identifier einer Normdatenbank (GND, ORCID etc.), ein Geburtsdatum und/oder eine Organisationszugehörigkeit (Affiliation) von grossem Vorteil. Bei Geografika wiederum helfen Kantons- bzw. Länderzuordnungen, um mehrfach verwendete Ortsnamen eindeutig lokalisieren und die Ortsnamen mit Geokoordinaten anreichern zu können.
Die individualisierenden Merkmale stehen idealerweise in spezifischen, klar ausgezeichneten Metadatenfeldern. Informationen aus Freitext sind schwieriger zu extrahieren, es sei denn, dass über einen Bestand hinweg konsistente Schreibweisen bzw. eine einheitliche Verwendung von Trennzeichnen vorliegt.
Key Questions:
Welche Informationen reichern wir während des Imports womit an?
Welche Faktoren sind essenziell, damit eine Anreicherung optimal funktioniert?Was könnten die Datengeber jetzt schon verbessern um künftig Datenanreicherungen zu erleichtern? Siehe dazu auch die Erkenntnisse aus metisgym!
Quellen:
Datenqualität und Potenziale: Datenqualität / 2020-04-29 Datenqualität
Bericht aus Projekt metisgym zu grundsätzlichen Anreicherungsüberlegungen: OS 153\swissbib\Kooperationen_Teilprojekte\ZEM-CES\BERI_Metisgym_Abschlussdokumentation_20120512_ghi.pdf