-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathabstract_de.tex
18 lines (10 loc) · 6.72 KB
/
abstract_de.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
\chapter*{Zusammenfassung}
\addcontentsline{toc}{chapter}{Zusammenfassung}
\chapterauthor{Übersetzt von Juliane Stiller}
In den letzten 15 Jahren wurden verschiedene Aspekte von Metadatenqualität untersucht. In verschiedenen Metadatenkollektionen haben Wissenschaftler und Wissenschaftlerinnen Messwerte für etablierte Kennzahlen erfasst. Gemeinsam ist diesen Forschungsprojekten, dass die für die Messungen benötigten Werkzeuge häufig nicht darauf ausgelegt sind in anderen Projekten wiederverwendet zu werden. Die vorliegende Arbeit beschäftigt sich hauptsächlich mit der speziellen Metadatenkollektion von Europeana und untersucht dabei die praktischen Aspekte von Kriterien zur Messung von Metadatenqualität, wie Wiederverwendung, Reproduzierbarkeit, Skalierbarkeit und Anpassungsfähigkeit.
Europeana.eu, die europäische digitale Plattform für kulturelles Erbe, sammelt Metadaten von 58 Millionen kulturellen Objekten, die aus mehr als 3200 Bibliotheken, Museen, Archiven und audiovisuellen Archiven in Europa stammen. Diese Sammlung ist heterogen und besteht aus Objekten in verschiedenen Formaten und Sprachen, deren Beschreibungen durch unterschiedliche Indexierungspraktiken entstanden sind. Oft wurden die Objekte aus ihrem ursprünglichen Kontext genommen. Um nun Dienstleistungen zu entwickeln, mit denen die Daten zugänglich gemacht und genutzt werden können, muss man die Stärken und Schwächen oder anders ausgedrückt die Qualität der Daten kennen. Der Bedarf an qualitativ hochwertigen Daten ist durch deren Einfluss auf die Nutzererfahrung, das Information Retrieval und die Wiederverwendung von Daten in anderen Zusammenhängen motiviert. Im zweiten Kapitel schlägt der Autor eine Methode sowie eine Open Source Lösung vor, um strukturelle Eigenschaften von Daten, wie Vollständigkeit, Multilingualität und Eindeutigkeit, zu messen. Eine weitere Komponente, um Probleme in Daten aufzudecken, ist die Analyse und Veranschaulichung von Dokumentstrukturen.
Ein zentrales Anliegen von Europeana ist es, Nutzern und Nutzerinnen die Möglichkeit zu bieten Kulturgüter unabhängig ihrer Herkunft und Sprache, in der sie beschrieben sind, zu finden. Für ein erfolgreiches sprachübergreifendes Retrieval sind mehrsprachige Metadatenbeschreibungen unerlässlich. Eine Voraussetzung um überhaupt die Metadatenqualität in verschiedenen Sprachen verbessern zu können, ist die quantitative Bestimmung der sprachlichen Vielfalt der Metadaten in Europeana. Um die Mehrsprachigkeit in den Daten erfassen zu können, müssen der komplette Prozess der Datenaggregation abgebildet und auch Prozesse zur Datenverbesserung, wie beispielsweise automatische Datenanreicherungen, berücksichtigt werden. In Kapitel 3 präsentiert der Autor eine Methode, die er zusammen mit Mitgliedern des Europeana Data Quality Committees entwickelt hat, um Mehrsprachigkeit als Aspekt verschiedener Dimensionen von Datenqualität, wie Vollständigkeit, Konsistenz, Konformität und Zugänglichkeit, messen zu können.
Das nächste Kapitel (Kapitel 4) geht darauf ein, wie der oben beschriebene Prozess umgesetzt werden kann und beschreibt die dahingehende Methode und die Ergebnisse ihrer Validierung mit 16 Bibliothekskatalogen. Die Katalogsdatei liegt im Machine Readable Cataloging (MARC21)-Format vor, dem am weitesten verbreiteten Metadatenstandard zur Beschreibung von Büchern. Die Forschung untersucht die strukturellen Merkmale der Daten auf deren Basis häufig auftretende Probleme gefunden und klassifiziert werden. Die häufigsten Probleme sind die Verwendung von undokumentierten Schema-Elementen, falsche Werte an Stellen, an denen ein Wert aus einem kontrollierten Vokabular? hätte übernommen werden sollen oder andere strenge Anforderungen erfüllt werden müssen.
Das nächste Kapitel (Kapitel 4) geht darauf ein, wie das oben beschriebene Konzept skalierbar umgesetzt werden kann und beschreibt die Methode und die Ergebnisse der Validierung von 16 Bibliothekskatalogen. Die Katalogdatensätze liegen in einem maschinenlesbaren Format (MARC21) vor, dem am weitesten verbreiteten Metadatenstandard zur Beschreibung von bibliographischen Einheiten. Die vorliegende Untersuchung ermittelt strukturelle Merkmale der Datensätze und klassifiziert die in diesen häufig auftretenden Probleme. Die häufigsten Probleme sind die Verwendung von undokumentierten Schema-Elementen, falsche Werte an Stellen, an denen ein Wert aus einem kontrollierten Vokabular hätte übernommen werden sollen oder die Missachtung anderer strenger Vorgaben.
Die nächsten Kapitel beschreiben die technischen Aspekte der Forschung. In Kapitel 5 wird ein kurzer Überblick über den Aufbau des erweiterbaren Framework zur Messung von Metadatenqualität gegeben. Dieser unterstützt verschiedene Metadatenschemata und ist flexibel genug, um mit neuen Schemata umgehen zu können. Diese Anwendung muss skalierbar sein, um eine große Anzahl von Metadatensätzen innerhalb einer angemessenen Zeit verarbeiten zu können. Grundlegende Anforderungen, die bei der Entwicklung einer solchen Software berücksichtigt werden müssen, sind i) die Abstraktion des Metadatenschemas (im Rahmen des Messprozesses), ii) der Umgang mit unterschiedlichen Teilen innerhalb von Metadatensätzen, iii) der Messprozess, iv) eine gemeinsame und leistungsfähige Schnittstelle für die einzelnen Metriken und v) die Interoperabilität mit Java- und REST-APIs. In Kapitel 6 wird untersucht welche optimalen Parametereinstellungen für einen lang laufenden Prozess, basierend auf dem Apache Spark Stand-Alone-Modus, nötig sind. Dafür werden die Auswirkungen von vier verschiedenen Parametern gemessen und das Verhalten der Anwendung auf zwei verschiedenen Servern verglichen. Die wichtigste Erkenntnis aus diesem Experiment ist, dass die Zuweisung von mehr Ressourcen nicht unbedingt eine bessere Leistung bedeutet. In einem Umfeld mit begrenzten und geteilten Ressourcen brauchen wir einen Zustand, der "gut genug" ist und anderen Prozessen den Vortritt lässt. Um die optimalen Einstellungen zu finden und die Performance mit verschiedenen Parametern zu messen, sollte ein kleineres Sample herangezogen werden, das in wichtigen Merkmalen dem vollständigen Datensatz ähnelt. Die Einstellungen, die überprüft werden sollten, sind die Anzahl der Rechenkerne, die Speicherzuweisung, die Kompression der Quelldateien und (falls vorhanden) das Auslesen verschiedener Dateisysteme. Als Grundlage der Bewertung können das Standard-Spark-Logging sowie das Event-Logging oder Messpunkte innerhalb der Anwendung verwendet werden.
Das letzte Kapitel (Kapitel 7) erläutert Zukunftspläne, die Anwendbarkeit der Methode auf andere Bereiche wie Wikicite (die offene Datenbank für Zitationsdaten von Wikidata) und Forschungsdaten, sowie Forschungskooperationen mit verschiedenen Kulturerbeinstitutionen.