• search hit 27 of 36
Back to Result List

Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten

  • In dem Gebiet der Informationsextraktion angesiedelt kombiniert diese Arbeit mehrere Verfahren aus dem Bereich des maschinellen Lernens. Sie stellt einen neuen Algorithmus vor, der teil-überwachtes Lernen mit aktivem Lernen verknüpft. Ausgangsbasis ist die Analyse der Daten, indem sie in mehrere Sichten aufgeteilt werden. Hier werden die Eingaben verschiedener Personen unterteilt. Jeweils getrennt voneinander erzeugt der Algorithmus mittels Klassifizierern Modelle, die aus den individuellen Auszeichnungen der Personen aufgebaut werden. Um die dafür benötigte Datenmenge zu erhalten wird Crowdsourcing genutzt, dass es ermöglicht eine große Anzahl an Personen zu erreichen. Die Personen erhalten die Aufgabe, Texte zu annotieren. Einerseits wird dies initial für einen historischen Textkorpus vorgenommen. Dabei wird aufgeführt, welche Schritte notwendig sind, um die Annotationsaufgabe in Crowdsourcing-Portalen zur Bearbeitung anzubieten und durchzuführen. Andererseits wird ein aktueller Datensatz von Kurznachrichten genutzt. Der Algorithmus wird auf diese Beispieldatensätze angewandt. Durch Experimente wird die Ermittlung der optimalen Parameterauswahl durchgeführt. Außerdem werden die Ergebnisse mit den Resultaten bisheriger Algorithmen verglichen.
  • This work is placed in the area of information extraction and combines several methods from machine learning. An algorithm is presented which uses semi-supervised learning and active learning. Starting point is the approach on the data, by creating several views on it. The input of different persons is used. Separated from each other the algorithm uses classifiers to generate models, which are built upon the individual annotations of the persons. To create the dataset needed in the algorithm crowdsourcing is used, which allows to incorporate a big amount of persons. Their task is to annotate texts. On the one hand, this is initially done for a historical text corpus. In the course of this it is explained, which steps are necessary, to offer the annotation task in crowdsourcing platforms. On the other hand, a current dataset of a short message service is used. The algorithm is set up to process these example datasets. In experiments optimal parameters for the algorithm are determined. Finally, the results are evaluated in comparison to the results of existing algorithms.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Matthias Bremm
URN:urn:nbn:de:hbz:385-1-14086
DOI:https://doi.org/10.25353/ubtr-xxxx-fab8-515f
Advisor:Reinhard Köhler
Document Type:Doctoral Thesis
Language:German
Date of completion:2020/04/23
Publishing institution:Universität Trier
Granting institution:Universität Trier, Fachbereich 2
Date of final exam:2020/03/18
Release Date:2020/04/24
Tag:Crowdsourcing; Informationsextraktion; aktives Lernen; maschinelles Lernen; teil-überwachtes Lernen
GND Keyword:Information Extraction; Maschinelles Lernen; Mensch-Maschine-Kommunikation; Teilüberwachtes Lernen
Licence (German):License LogoCC BY-NC-ND: Creative-Commons-Lizenz 4.0 International

$Rev: 13581 $