Learning From the Past of a Digital Library - Using Historical Metadata to Study the Development of Collections.
Lernen aus der Geschichte einer Digitalen Bibliothek - Benutzung historischer Metadaten zur Studie einer digitalen Bibliothek.
- Digital libraries have become a central aspect of our live. They provide us with an immediate access to an amount of data which has been unthinkable in the past. Support of computers and the ability to aggregate data from different libraries enables small projects to maintain large digital collections on various topics. A central aspect of digital libraries is the metadata -- the information that describes the objects in the collection. Metadata are digital and can be processed and studied automatically. In recent years, several studies considered different aspects of metadata. Many studies focus on finding defects in the data. Specifically, locating errors related to the handling of personal names has drawn attention. In most cases the studies concentrate on the most recent metadata of a collection. For example, they look for errors in the collection at day X. This is a reasonable approach for many applications. However, to answer questions such as when the errors were added to the collection we need to consider the history of the metadata itself. In this work, we study how the history of metadata can be used to improve the understanding of a digital library. To this goal, we consider how digital libraries handle and store their metadata. Based in this information we develop a taxonomy to describe available historical data which means data on how the metadata records changed over time. We develop a system that identifies changes to metadata over time and groups them in semantically related blocks. We found that historical meta data is often unavailable. However, we were able to apply our system on a set of large real-world collections. A central part of this work is the identification and analysis of changes to metadata which corrected a defect in the collection. These corrections are the accumulated effort to ensure data quality of a digital library. In this work, we present a system that automatically extracts corrections of defects from the set of all modifications. We present test collections containing more than 100,000 test cases which we created by extracting defects and their corrections from DBLP. This collections can be used to evaluate automatic approaches for error detection. Furthermore, we use these collections to study properties of defects. We will concentrate on defects related to the person name problem. We show that many defects occur in situations where very little context information is available. This has major implications for automatic defect detection. We also show that properties of defects depend on the digital library in which they occur. We also discuss briefly how corrected defects can be used to detect hidden or future defects. Besides the study of defects, we show that historical metadata can be used to study the development of a digital library over time. In this work, we present different studies as example how historical metadata can be used. At first we describe the development of the DBLP collection over a period of 15 years. Specifically, we study how the coverage of different computer science sub fields changed over time. We show that DBLP evolved from a specialized project to a collection that encompasses most parts of computer science. In another study we analyze the impact of user emails to defect corrections in DBLP. We show that these emails trigger a significant amount of error corrections. Based on these data we can draw conclusions on why users report a defective entry in DBLP.
- Digitale Bibliotheken haben sich zu einem zentralen Bestandteil unseres Lebens entwickelt. Sie ermöglichen uns den unmittelbaren Zugriff auf eine vorher unvorstellbare Menge an Informationen. Dank der Unterstützung durch Rechner und der Möglichkeit, Daten (halb)automatisch zu aggregieren, können digitale Bibliotheken beachtliche Größen erreichen, auch wenn sie nur von vergleichsweise kleinen Organisationen bereitgestellt werden. Ein zentraler Aspekt digitaler Bibliotheken sind die Metadaten: Informationen, die die gespeicherten Dokumente beschreiben. Metadaten sind digital verfügbar und können deshalb automatisch ausgewertet werden. In den vergangenen Jahren haben sich viele Studien mit verschiedenen Aspekten der Metadaten beschäftigt. Von zentralem Interesse ist dabei das Auffinden von Fehlern in den Daten, insbesondere im Zusammenhang mit Autorennamen. Diese Studien konzentrieren sich üblicherweise auf die aktuellen Metadaten einer digitalen Bibliothek. Z.B. wird nach Fehlern gesucht, die eine Bibliothek an einem bestimmten Tag X enthielt. In vielen Szenarien ist diese Einschränkung sinnvoll. Soll aber die Frage beantwortet werden, wie die Fehler entstanden sind, die an Tag X gefunden wurden, so muss die Geschichte der Metadaten untersucht werden. In dieser Arbeit beschäftigen wir uns mit der Frage, wie die Geschichte der Metadaten in einer digitalen Bibliothek untersucht werden kann. Hierzu untersuchen wir zunächst, wie digitale Bibliotheken Informationen speichern und aufbewahren. Anhand dieser Information entwickeln wir eine Systematik zum Beschreiben der vorhandenen historischen Informationen, also Informationen darüber, wie sich Metadaten im Laufe der Zeit verändert haben. Basierend auf dieser Systematik stellen wir ein System vor, das Änderungen an Metadaten identifiziert und semantisch zusammenhängende Änderungen in Blöcken zusammenfasst. Es stellte sich heraus, dass historische Metadaten nur für wenige Bibliotheken vorhanden sind. Dennoch ist es uns gelungen, das System zum Erkennen von Änderungen auf eine Reihe großer Kollektionen anzuwenden. Ein zentraler Aspekt dieser Arbeit ist das Identifizieren und Analysieren von Änderungen, die Fehler korrigierten. Diese Änderungen beschreiben die vergangenen Versuche, die Datenqualität einer digitalen Bibliothek zu steigern. Wir stellen ein System vor, das bestimmte Typen von Fehlern automatisch aus der Gesamtmenge aller Änderungen extrahiert und klassifiziert. Basierend auf Korrekturen, die aus dem DBLP-Datensatz extrahiert wurden, erstellen wir Testkollektionen, die insgesamt mehr als 100.000 Fehler-Konstellationen enthalten. Diese Testkollektionen können zum Testen automatischer Fehlersuchverfahren genutzt werden. Darüber hinaus können Korrekturen genutzt werden, um die Eigenschaften von Fehlern zu verstehen. Besonders untersuchen wir hier Fehler im Zusammenhang mit Autorennamen. Wir zeigen, dass viele Fehler in Situationen entstehen, in denen wenig Kontext-Daten zur Verfügung stehen, was erhebliche Auswirkungen auf automatische Fehlerdetektoren haben kann. Wir zeigen außerdem, dass sich Fehler, die aus verschiedenen Kollektionen extrahiert wurden, stark unterscheiden können. In einem kurzen Ausblick untersuchen wir, wie korrigierte Fehler genutzt werden können, um unentdeckte oder zukünftige Fehler zu identifizieren. Neben der Analyse von Fehlern eignen sich historische Metadaten, um die Entwicklung einer digitalen Bibliothek genauer zu untersuchen. In dieser Arbeit zeigen wir anhand exemplarischer Studien, welche Informationen aus historischen Metadaten abgeleitet werden können. Zunächst untersuchen wir die Entwicklung der DBLP-Kollektion über einen Zeitraum von 15 Jahren. Wir konzentrieren uns dabei auf Änderungen der thematischen Abdeckung verschiedener Felder der Informatik. Unter anderem zeigen wir, wie DBLP sich von einem speziellen Projekt zu einer allgemeinen Sammlung entwickelt hat. In einer weiteren Studie untersuchen wir, wie E-Mails von DBLP-Benutzern sich auf das Finden von Fehlern in DBLP auswirken. Wir zeigen, dass viele Fehlerkorrekturen durch Benutzer angeregt werden. Darüber hinaus können wir Rückschlüsse darauf ziehen, was Benutzer dazu bringt, einen Fehler im DBLP-Datenbestand zu melden.
Author: | Florian Reitz |
---|---|
URN: | urn:nbn:de:hbz:385-11295 |
DOI: | https://doi.org/10.25353/ubtr-xxxx-daf0-72ad |
Advisor: | Bernd Walter |
Document Type: | Doctoral Thesis |
Language: | English |
Date of completion: | 2018/04/09 |
Publishing institution: | Universität Trier |
Granting institution: | Universität Trier, Fachbereich 4 |
Date of final exam: | 2017/12/12 |
Release Date: | 2018/04/09 |
Tag: | Disambiguierung von Personennamen digital library; historical metadata; person name disambiguation |
GND Keyword: | Elektronische Bibliothek; Metadaten; Personenname |
Institutes: | Fachbereich 4 / Informatik |
Dewey Decimal Classification: | 0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik |