Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten

Bremm, Matthias

Treffer 27 von 36

Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten

In dem Gebiet der Informationsextraktion angesiedelt kombiniert diese Arbeit mehrere Verfahren aus dem Bereich des maschinellen Lernens. Sie stellt einen neuen Algorithmus vor, der teil-überwachtes Lernen mit aktivem Lernen verknüpft. Ausgangsbasis ist die Analyse der Daten, indem sie in mehrere Sichten aufgeteilt werden. Hier werden die Eingaben verschiedener Personen unterteilt. Jeweils getrennt voneinander erzeugt der Algorithmus mittels Klassifizierern Modelle, die aus den individuellen Auszeichnungen der Personen aufgebaut werden. Um die dafür benötigte Datenmenge zu erhalten wird Crowdsourcing genutzt, dass es ermöglicht eine große Anzahl an Personen zu erreichen. Die Personen erhalten die Aufgabe, Texte zu annotieren. Einerseits wird dies initial für einen historischen Textkorpus vorgenommen. Dabei wird aufgeführt, welche Schritte notwendig sind, um die Annotationsaufgabe in Crowdsourcing-Portalen zur Bearbeitung anzubieten und durchzuführen. Andererseits wird ein aktueller Datensatz von Kurznachrichten genutzt. Der Algorithmus wird auf diese Beispieldatensätze angewandt. Durch Experimente wird die Ermittlung der optimalen Parameterauswahl durchgeführt. Außerdem werden die Ergebnisse mit den Resultaten bisheriger Algorithmen verglichen.
This work is placed in the area of information extraction and combines several methods from machine learning. An algorithm is presented which uses semi-supervised learning and active learning. Starting point is the approach on the data, by creating several views on it. The input of different persons is used. Separated from each other the algorithm uses classifiers to generate models, which are built upon the individual annotations of the persons. To create the dataset needed in the algorithm crowdsourcing is used, which allows to incorporate a big amount of persons. Their task is to annotate texts. On the one hand, this is initially done for a historical text corpus. In the course of this it is explained, which steps are necessary, to offer the annotation task in crowdsourcing platforms. On the other hand, a current dataset of a short message service is used. The algorithm is set up to process these example datasets. In experiments optimal parameters for the algorithm are determined. Finally, the results are evaluated in comparison to the results of existing algorithms.

Metadaten
Verfasserangaben:	Matthias Bremm
URN:	urn:nbn:de:hbz:385-1-14086
DOI:	https://doi.org/10.25353/ubtr-xxxx-fab8-515f
Betreuer:	Reinhard Köhler
Dokumentart:	Dissertation
Sprache:	Deutsch
Datum der Fertigstellung:	23.04.2020
Veröffentlichende Institution:	Universität Trier
Titel verleihende Institution:	Universität Trier, Fachbereich 2
Datum der Abschlussprüfung:	18.03.2020
Datum der Freischaltung:	24.04.2020
Freies Schlagwort / Tag:	Crowdsourcing; Informationsextraktion; aktives Lernen; maschinelles Lernen; teil-überwachtes Lernen
GND-Schlagwort:	Information Extraction; Maschinelles Lernen; Mensch-Maschine-Kommunikation; Teilüberwachtes Lernen
Lizenz (Deutsch):	CC BY-NC-ND: Creative-Commons-Lizenz 4.0 International

Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste