Normalisierung
Die Normalisierung von Datumsangaben ist Teil des Schritts “Metadata Enrichment and Normalization”. Dabei werden die im Mapping generierten rico:DateSet in rico:SingleDate oder rico:DateRange transformiert und die Daten in die korrekten Felder geschrieben.
Generelles
Nur Tagesdaten werden in rico:SingleDate geschrieben, alle anderen Daten werden in rico:DateRange geschrieben.
Wenn möglich werden Daten nach ISO 8601 normalisiert und in rico:normalizedDateValue geschrieben. Ansonsten stehen sie in rico:expressedDate.
Wenn möglich werden qualifizierende Texte in rico:dateQualifier oder rico:certainty geschrieben. Ansonsten werden nicht normalisierbare Datumsangaben und Texte in rico:expressedDate geschrieben.
Häufig vorkommende Texte, die auf eine Schätzung eines Datums hindeuten (ca., um, …) werden in rico:dateQualifier geschrieben.
Häuft vorkommende Texte, die eine Information zur Datierung enthalten (Datiert nach Inschrift, genaues Datum nicht eruierbar, …) werden in rico:certainty geschrieben.
rico:DateSet wird für dct:created/dct:issued höchstwahrscheinlich nicht verwendet. Evtl. ist rico:DateSet für dct:temporal notwendig (zur Zeit nicht implementiert).
Konfiguration
Welche Daten und Texte aus einem string wie behandelt werden, kann mit regex in vier Konfigurationsdateien festgelegt werden.
date-range-matchers.txt: Enthält die Muster, die als rico:DateRange behandelt werden.
single-date-matchers.txt: Enthält die Muster, die als rico:SingleDate behandelt werden.
certainty.txt: Enthält die Muster, die als rico:certainty behandelt werden.
qualifier.txt: Enthält die Muster, die als rico:dateQualifier behandelt werden.
Namen von Monaten
Für die Normalisierung von Daten in Textform zu ISO 8601 werden aktuell die folgenden Namen verstanden und verarbeitet. Der Code kann mit zusätzlichen Varianten ergänzt werden.
Januar, Jan, janvier, janv., gennaio, gen
Februar, Feb, février, févr., febbraio, feb
März, Mär, mars, mars, marzo, mar
April, Apr, avril, avr., aprile, apr
Mai, Mai, mai, mai, maggio, mag
Juni, Jun, juin, juin, giugno, giu
Juli, Jul, juillet, juil., luglio, lug
August, Aug, août, août, agosto, ago
September, Sep, septembre, sept., settembre, set
Oktober, Okt, octobre, oct., ottobre, ott
November, Nov, novembre, nov., novembre, nov
Dezember, Dez, décembre, déc., dicembre, dic
Beispiele
Input | Class | Attributes and Values |
---|---|---|
19230817 | rico:SingleDate | rico:normalizedDateValue: 1923-08-17 |
ca. 1970 er - 1980 er | rico:DateRange | rico:expressedDate: 1970 er - 1980 er rico:qualifier: ca. |
1987 - 1994 | rico:DateRange | rico:normalizedDateValue: 1987/1994 |
1978 | rico:DateRange | rico:normalizedDateValue: 1978 |
1961 ou avant | rico:DateRange | rico:expressedDate: 1961 ou avant |
1930-1939, genaues Datum nicht eruierbar | rico:DateRange | rico:normalizedDateValue: 1930/1939 rico:certainty: genaues Datum nicht eruierbar |
02.10.1999 | rico:SingleDate | rico:normalizedDateValue: 1999-10-02 |
| rico:DateRange | rico:normalizedDateValue: 1996-08-07/12 |
1913 - 1919 (Datiert nach Inschrift) | rico:DateRange | rico:normalizedDateValue: 1913/1919 rico:certainty: Datiert nach Inschrift |
(Keine Datumsangabe) | rico:DateRange | rico:expressedDate: Keine Datumsangabe |
1941 (Um) | rico:DateRange | rico:normalizedDateValue: 1941 rico:qualifier: Um |
Dezember 1996 | rico:DateRange | rico:normalizedDateValue: 1996-12 |
11 avril 1992 | rico:SingleDate | rico:normalizedDateValue: 1992-04-11 |
17-22 ottobre 1930 | rico:DateRange | rico:normalizedDateValue: 1930-10-17/22 |
01 février 1967-02 avril 1967 | rico:DateRange | rico:normalizedDateValue: 1967-02-01/1967-04-02 |
Octobre-novembre 1925 | rico:DateRange | rico:normalizedDateValue: 1925-10/11 |
29 au 31 mars 1926 | rico:DateRange | rico:normalizedDateValue: 1926-03-29/31 |