Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

Version 1 Next »

Normalisierung

Die Normalisierung von Datumsangaben ist Teil des Schritts “Metadata Enrichment and Normalization”. Dabei werden die im Mapping generierten rico:DateSet in rico:SingleDate oder rico:DateRange transformiert und die Daten in die korrekten Felder geschrieben.

Generelles

  • Nur Tagesdaten werden in rico:SingleDate geschrieben, alle anderen Daten werden in rico:DateRange geschrieben.

  • Wenn möglich werden Daten nach ISO 8601 normalisiert und in rico:normalizedDateValue geschrieben. Ansonsten stehen sie in rico:expressedDate.

  • Wenn möglich werden qualifizierende Texte in rico:dateQualifier oder rico:certainty geschrieben. Ansonsten werden nicht normalisierbare Datumsangaben und Texte in rico:expressedDate geschrieben.

    • Häufig vorkommende Texte, die auf eine Schätzung eines Datums hindeuten (ca., um, …) werden in rico:dateQualifier geschrieben.

    • Häuft vorkommende Texte, die eine Information zur Datierung enthalten (Datiert nach Inschrift, genaues Datum nicht eruierbar, …) werden in rico:certainty geschrieben.

  • rico:DateSet wird für dct:created/dct:issued höchstwahrscheinlich nicht verwendet. Evtl. ist rico:DateSet für dct:temporal notwendig (zur Zeit nicht implementiert).

Konfiguration

Welche Daten und Texte aus einem string wie behandelt werden, kann mit regex in vier Konfigurationsdateien festgelegt werden.

date-range-matchers.txt: Enthält die Muster, die als rico:DateRange behandelt werden.

single-date-matchers.txt: Enthält die Muster, die als rico:SingleDate behandelt werden.

certainty.txt: Enthält die Muster, die als rico:certainty behandelt werden.

qualifier.txt: Enthält die Muster, die als rico:dateQualifier behandelt werden.

Namen von Monaten

Für die Normalisierung von Daten in Textform zu ISO 8601 werden aktuell die folgenden Namen verstanden und verarbeitet. Der Code kann mit zusätzlichen Varianten ergänzt werden.

  • Januar, Jan, janvier, janv., gennaio, gen

  • Februar, Feb, février, févr., febbraio, feb

  • März, Mär, mars, mars, marzo, mar

  • April, Apr, avril, avr., aprile, apr

  • Mai, Mai, mai, mai, maggio, mag

  • Juni, Jun, juin, juin, giugno, giu

  • Juli, Jul, juillet, juil., luglio, lug

  • August, Aug, août, août, agosto, ago

  • September, Sep, septembre, sept., settembre, set

  • Oktober, Okt, octobre, oct., ottobre, ott

  • November, Nov, novembre, nov., novembre, nov

  • Dezember, Dez, décembre, déc., dicembre, dic

Beispiele

Input

Class

Attributes and Values

19230817

rico:SingleDate

rico:normalizedDateValue: 1923-08-17

ca. 1970 er - 1980 er

rico:DateRange

rico:expressedDate: 1970 er - 1980 er

rico:qualifier: ca.

1987 - 1994

rico:DateRange

rico:normalizedDateValue: 1987/1994

1978

rico:DateRange

rico:normalizedDateValue: 1978

1961 ou avant

rico:DateRange

rico:expressedDate: 1961 ou avant

1930-1939, genaues Datum nicht eruierbar

rico:DateRange

rico:normalizedDateValue: 1930/1939

rico:certainty: genaues Datum nicht eruierbar

02.10.1999

rico:SingleDate

rico:normalizedDateValue: 1999-10-02

  1. - 12. 8. 1996

rico:DateRange

rico:normalizedDateValue: 1996-08-07/12

1913 - 1919 (Datiert nach Inschrift)

rico:DateRange

rico:normalizedDateValue: 1913/1919

rico:certainty: Datiert nach Inschrift

(Keine Datumsangabe)

rico:DateRange

rico:expressedDate: Keine Datumsangabe

1941 (Um)

rico:DateRange

rico:normalizedDateValue: 1941

rico:qualifier: Um

Dezember 1996

rico:DateRange

rico:normalizedDateValue: 1996-12

11 avril 1992

rico:SingleDate

rico:normalizedDateValue: 1992-04-11

17-22 ottobre 1930

rico:DateRange

rico:normalizedDateValue: 1930-10-17/22

01 février 1967-02 avril 1967

rico:DateRange

rico:normalizedDateValue: 1967-02-01/1967-04-02

Octobre-novembre 1925

rico:DateRange

rico:normalizedDateValue: 1925-10/11

29 au 31 mars 1926

rico:DateRange

rico:normalizedDateValue: 1926-03-29/31

  • No labels