• Treffer 11 von 831
Zurück zur Trefferliste

Visual Transfer Learning using Knowledge Graphs

  • While humans find it easy to process visual information from the real world, machines struggle with this task due to the unstructured and complex nature of the information. Computer vision (CV) is the approach of artificial intelligence that attempts to automatically analyze, interpret, and extract such information. Recent CV approaches mainly use deep learning (DL) due to its very high accuracy. DL extracts useful features from unstructured images in a training dataset to use them for specific real-world tasks. However, DL requires a large number of parameters, computational power, and meaningful training data, which can be noisy, sparse, and incomplete for specific domains. Furthermore, DL tends to learn correlations from the training data that do not occur in reality, making DNNs poorly generalizable and error-prone. Therefore, the field of visual transfer learning is seeking methods that are less dependent on training data and are thus more applicable in the constantly changing world. One idea is to enrich DL with prior knowledge. Knowledge graphs (KG) serve as a powerful tool for this purpose because they can formalize and organize prior knowledge based on an underlying ontological schema. They contain symbolic operations such as logic, rules, and reasoning, and can be created, adapted, and interpreted by domain experts. Due to the abstraction potential of symbols, KGs provide good prerequisites for generalizing their knowledge. To take advantage of the generalization properties of KG and the ability of DL to learn from large-scale unstructured data, attempts have long been made to combine explicit graph and implicit vector representations. However, with the recent development of knowledge graph embedding methods, where a graph is transferred into a vector space, new perspectives for a combination in vector space are opening up. In this work, we attempt to combine prior knowledge from a KG with DL to improve visual transfer learning using the following steps: First, we explore the potential benefits of using prior knowledge encoded in a KG for DL-based visual transfer learning. Second, we investigate approaches that already combine KG and DL and create a categorization based on their general idea of knowledge integration. Third, we propose a novel method for the specific category of using the knowledge graph as a trainer, where a DNN is trained to adapt to a representation given by prior knowledge of a KG. Fourth, we extend the proposed method by extracting relevant context in the form of a subgraph of the KG to investigate the relationship between prior knowledge and performance on a specific CV task. In summary, this work provides deep insights into the combination of KG and DL, with the goal of making DL approaches more generalizable, more efficient, and more interpretable through prior knowledge.
  • Während es Menschen leicht fällt, visuelle Informationen der realen Welt zu verarbeiten, gestaltet sich dies bei Maschinen deutlich schwieriger, da die Informationen unstrukturiert und komplex sind. Computer Vision (CV) ist der Ansatz der künstlichen Intelligenz, der versucht solche Informationen automatisch zu analysieren, zu interpretieren und zu extrahieren. Neuere CV-Ansätze verwenden aufgrund der sehr hohen Genauigkeit hauptsächlich Deep Learning (DL). Dabei werden nützliche Merkmale aus unstrukturierten Bildern eines Trainingsdatensatzes extrahiert, um diese für bestimmte Aufgaben in der realen Welt zu nutzen. DL erfordert jedoch eine große Menge an Parametern, Rechenleistung und aussagekräftigen Trainingsdaten, die für bestimmte Bereiche verrauscht, spärlich und unvollständig sein können. Daru ̈ber hinaus neigt DL dazu, aus den Trainingsdaten auch Korrelationen zu lernen, die in der Realität nicht vorkommen. Diese Eigenschaften machen DL-Modelle schlecht generalisierbar und fehleranfällig. Deshalb sucht das Forschungsfeld des Visual Transfer Learning nach Methoden, die weniger stark von den Trainingsdaten abhängen und somit besser in der sich ständig verändernden Welt anwendbar sind. Eine dieser Methoden versucht, DL mit Vorwissen anzureichern. Dazu dienen Knowledge Graphs (KG) als leistungsfähiges Werkzeug, da sie Vorwissen auf Basis eines zugrunde liegenden ontologischen Schemas gut formalisieren und organisieren können. Sie beinhalten symbolische Operationen wie Logik, Regeln und Schlussfolgerungen und können von Domänenexperten erstellt, angepasst und interpretiert werden. Aufgrund des Abstraktionspotentials von Symbolen bieten KGs gute Voraussetzungen, ihr Wissen zu generalisieren. Um die Vorteile von KG und DL zu vereinen, wurde schon lange Zeit versucht, explizite Graph- und implizite Vektorrepräsentationen zu kombinieren. Durch die Entwicklung von Knowledge Graph Embedding Methods, bei denen ein Graph in den Vektorraum transferiert wird, eröffnen sich neue Perspektiven für eine Kombination. In dieser Arbeit untersuchen wir die Kombination von KG und DL, um Visual Transfer Learning zu verbessern, anhand der folgenden Schritte: Erstens untersuchen wir die potenziellen Vorteile der Verwendung von in einem KG kodiertem Vorwissen für DL-basiertes Visual Transfer Learning. Zweitens fassen wir Ansätze zusammen, die bereits KG und DL kombinieren, und erstellen eine Kategorisierung auf der Grundlage ihrer allgemeinen Idee der Wissensintegration. Drittens schlagen wir eine neuartige Methode für die spezielle Kategorie der Verwendung des Wissensgraphen als Trainer vor, bei der ein Deep Neural Network (DNN) so trainiert wird, dass es sich an eine durch das Vorwissen eines KG gegebene Darstellung anpasst. Viertens erweitern wir die vorgeschlagene Methode durch die Extraktion von relevantem Kontext in Form eines Subgraphen des KG, um die Beziehung zwischen dem Vorwissen und der Leistung bei einer bestimmten CV-Aufgabe zu untersuchen. Zusammenfassend lässt sich sagen, dass diese Arbeit tiefe Einblicke in die Kombination von KG und DL bietet, mit dem Ziel, DL-Ansätze durch Vorwissen verallgemeinerbarer, effizienter und interpretierbarer zu machen.

Volltext Dateien herunterladen

Metadaten exportieren

Metadaten
Verfasserangaben:Sebastian Monka
URN:urn:nbn:de:hbz:385-1-20922
DOI:https://doi.org/10.25353/ubtr-4056-8d4f-13f1
Gutachter:Achim Rettinger
Betreuer:Achim Rettinger
Dokumentart:Dissertation
Sprache:Englisch
Datum der Fertigstellung:01.12.2023
Veröffentlichende Institution:Universität Trier
Titel verleihende Institution:Universität Trier, Fachbereich 2
Datum der Abschlussprüfung:15.11.2023
Datum der Freischaltung:14.12.2023
Freies Schlagwort / Tag:Artificial Intelligence; Computation and Language; Computer Vision and Pattern Recognition; Machine Learning
GND-Schlagwort:Deep learning; Transfer learning; Wissensgraph
Seitenzahl:xvii, 156 Seiten
Erste Seite:ii
Letzte Seite:156
Institute:Fachbereich 2
Lizenz (Deutsch):License LogoCC BY: Creative-Commons-Lizenz 4.0 International

$Rev: 13581 $