Gegenstand der Dissertation ist die Untersuchung der Fragestellung,welchen Einfluss das meist implizit zu Grunde liegende Begriffsverständnis auf die inhaltliche Erschließung von Texten hat. Ausgehend von der Überlegung, dass Begrifflichkeit auf dem Zusammenhang zwischen Sachverhalten beruht, wird die These verfolgt, dass dieser Zusammenhang auch in der schriftlichen Kommunikation wiederzufinden sei. Darauf aufbauend wir eine Vorgehensweise entwickelt, die Texte hinsichtlich auftretender Kommunikationsmuster untersucht, diese extrahiert und anwendet um neue Bezeichner für Begriffe zu identifizieren. Vorteil dieser Vorgehensweise ist, dass keine linguistische Vorverarbeitung und kaum Trainingsdaten nötig sind.
In dem Gebiet der Informationsextraktion angesiedelt kombiniert diese Arbeit mehrere Verfahren aus dem Bereich des maschinellen Lernens. Sie stellt einen neuen Algorithmus vor, der teil-überwachtes Lernen mit aktivem Lernen verknüpft. Ausgangsbasis ist die Analyse der Daten, indem sie in mehrere Sichten aufgeteilt werden. Hier werden die Eingaben verschiedener Personen unterteilt. Jeweils getrennt voneinander erzeugt der Algorithmus mittels Klassifizierern Modelle, die aus den individuellen Auszeichnungen der Personen aufgebaut werden. Um die dafür benötigte Datenmenge zu erhalten wird Crowdsourcing genutzt, dass es ermöglicht eine große Anzahl an Personen zu erreichen. Die Personen erhalten die Aufgabe, Texte zu annotieren. Einerseits wird dies initial für einen historischen Textkorpus vorgenommen. Dabei wird aufgeführt, welche Schritte notwendig sind, um die Annotationsaufgabe in Crowdsourcing-Portalen zur Bearbeitung anzubieten und durchzuführen. Andererseits wird ein aktueller Datensatz von Kurznachrichten genutzt. Der Algorithmus wird auf diese Beispieldatensätze angewandt. Durch Experimente wird die Ermittlung der optimalen Parameterauswahl durchgeführt. Außerdem werden die Ergebnisse mit den Resultaten bisheriger Algorithmen verglichen.