Computerlinguistik und Digital Humanities
Refine
Year of publication
Document Type
- Doctoral Thesis (7)
- Book (2)
- Other (1)
Keywords
- Linguistik (4)
- Sprachstatistik (3)
- quantitative Linguistik (3)
- Bedeutung (2)
- Lexikologie (2)
- Semantik (2)
- Synergetik (2)
- corpus linguistics (2)
- quantitative linguistics (2)
- synergetics (2)
Die vorliegende Arbeit befasst sich mit einer komplexen Fragestellung: Wie geschieht der dynamische Umbau der sprachlichen Strukturen unter der Wirkung der innersprachlichen und außersprachlichen Parameter. Im Fokus der Forschung steht der Mechanismus des Werdens der Sprachstruktur, der hier als ein einziger Modus des Daseins der Sprache betrachtet wird. Als Material der Untersuchung dient die Operationalisierung der Bestandteile der verbalen Wortbildungsprozesse in der deutschen Sprache. Die Auswahl des verbalen Teils des Vokabulars ist dadurch bedingt, dass diese Wortart ein Zentralelement ist, das die ganze Sprachmaterie konsolidiert. Als einer der Schlüsselparameter gilt dabei der Frequenzfaktor, der bisher keinen einheitlichen Status in der Sprachtheorie bekommen hat. Die Suche nach dem Ursprung der Macht dieses Faktors führt unumgänglich über die Grenzen des Sprachsystems hinaus. Die Beobachtungen über das Verhalten des Frequenzfaktors in den Prozessen und Strukturen unterschiedlichster Natur lassen behaupten, dass wir es hier mit einem sehr komplexen Phänomen zu tun haben, das ein Bestandteil des allgemeinen kognitiven Anpassungsmechanismus des Menschen zur Umwelt ist. Als solcher ist er auch ein unveräußerlicher Aspekt der Semiose, des Sprachzeichens.
Die Arbeit untersucht den Zusammenhang zwischen dem sprachlichen Zeichen und den Begriffen. Das Lexikon mit seinen Bedeutungsdefinitionen ist der augenscheinlichste Schnittpunkt zwischen dem Sprach- und dem Begriffssystem. Die Bedeutungsdefinition wird dabei als ein empirisches Datum betrachtet, das formal beschrieben werden kann. Die Bedeutungsanalyse überführt die Bedeutungsdefinition in eine komplexe Ordnungsstruktur. Die Methode wurde aus verschiedenen Begriffstheorien entwickelt, hauptsächlich aus Raili Kauppis Begriffstheorie und der Formalen Begriffsanalyse. Im Ergebnis erhält man aus den Bedeutungen eines Lexikons ein komplexes System von ein- bis n-stelligen Begriffen. Dieses Begriffssystem unterscheidet sich von den bekannten Semantischen Netzen durch einen völligen Verzicht auf von außen auf das System projizierte Relationen, wie den sogenannten semantischen Relationen. Die einzigen Relationen in diesem System sind begrifflich.
The presented research aims at providing a first empirical investigation on lexical structure in Chinese with appropriate quantitative methods. The research objects contain individual properties of words (part of speech, polyfunctionality, polysemy, word length), the relationships between properties (part of speech and polyfunctionality, polyfunctionality and polysemy, polysemy and word length) and the lexical structure composed by those properties. Some extant hypotheses in QL, such as distributions of polysemy and the relationship between word length and polysemy, are tested on the data of Chinese, which enrich the applicability of the laws with a language not tested yet. Several original hypotheses such as the distribution of polyfunctionality and the relationship between polyfunctionality and polysemy are set up and inspected.
Quantitative Untersuchungen im Französischen: Häufigkeitsverteilungen und funktionale Zusammenhänge
(2009)
Die Quantitative Linguistik ist eine relativ junge Disziplin, deren Hauptziel es ist, Gesetzmäßigkeiten zu erforschen, denen sprachliche Phänomene folgen, und gesetzmäßige Zusammenhänge zwischen sprachlichen Variablen zu erklären. Es hat sich inzwischen in einer ganzen Reihe von Untersuchungen immer wieder gezeigt, dass solche Gesetzmäßigkeiten aufgedeckt und erklärt werden können. Die vorliegende Untersuchung stellt einen Beitrag zu dieser Thematik dar. Sie dient der Überprüfung bestimmter lexikalischer und syntaktischer Hypothesen an französischem Sprachmaterial unter der Anwendung quantitativer Methoden. Diese Hypothesen betreffen zweidimensionale Zusammenhänge zwischen den operational definierten quantitativen Eigenschaften der Länge, Frequenz und Polylexie von sprachlichen Einheiten und die Häufigkeitsverteilungen der Einheiten hinsichtlich dieser Eigenschaften. Jede Untersuchungshypothese wird mathematisch modelliert, wobei eine direkte Anwendung der Statistik betrieben wird. D.h.: Bereits existierende theoretische Modelle, die als wahres Bild der zu überprüfenden Hypothesen angesehen werden, werden verwendet. Die Güte der Anpassung des jeweiligen Modells an die empirischen Daten wird aus den Differenzen zwischen den empirischen und den entsprechenden theoretischen Werten abgeschätzt. Bei der empirischen Überprüfung der Hypothesen werden zwei Testverfahren eingesetzt: die Berechnung des Determinationskoeffizienten für die Zusammenhänge zwischen zwei quantitativen Größen und der Chiquadrat-Test für die Verteilungshypothesen. Die durchgeführten Tests bestätigen im Großen und Ganzen die Verträglichkeit der Daten mit den aufgestellten Hypothesen.
Quantitative Studien zur Plansprache Esperanto zu ausgewählten Fragestellungen der Phonologie, Morphologie, Syntax, Lexik, Semantik, Worthäufigkeit und - als Schwerpunkt - Wortbekanntheit wurden durchgeführt. Hauptergebnisse: Die Phonem-Häufigkeitsverteilung des Esperanto kann besonders gut mit dem Yule-Modell beschrieben werden; bei biphonematischer Wertung der Affrikaten ergibt sich eine etwas schlechere Anpassung als bei monophonematischer Wertung. Die Anwendung des klassifikatorischen Schlüssels von Altmann und Lehfeldt bestätigt die Meinung der meisten Autoren, wonach Esperanto agglutinierend mit einigen Merkmalen einer isolierenden Sprache ist. Die bei anderen Sprachen gefundene Gesetzmäßigkeit zwischen Lexermlänge und Polysemie gilt auch für Esperanto. Zur Untersuchung des Zusammenhangs zwischen Wortbekanntheit und Worthäufigkeit sowie zur Untersuchung der Selbsteinschätzung des eigenen Esperanto-Anwendungsvermögens durch seine Sprecher wurde das Verfahren der logistischen Regression (einschließlich statistischer Sicherheit) ausführlich dargestellt und als eine innovative Option auch zur Untersuchung analoger Fragestellungen angeboten. Zu den nachfolgend beschriebenen Haupthypothesen kann auf Grundlage der Untersuchung Folgendes ausgesagt werden (es sei angemerkt, dass die Haupthypothesen- (a) und (b) dabei ausschließlich für solche Esperanto-Sprecher gelten, die ihr Esperanto-Anwendungsvermögen als ausreichend gut einschätzen; die Haupthypothese- (c) gilt auch für solche Esperanto-Sprecher, die ihr Esperanto-Anwendungsvermögen als nicht ausreichend gut einschätzen): (a) Die Häufigkeit der zuverlässig bekannten Wörter entspricht der Häufigkeitsgruppe- 7 aus neun Häufigkeitsgruppen der von der Esperanto-Akademie entwickelten Statistik ("offizielle Basis-Wortwurzelsammlung", BRO; Häufigkeitsgruppe- 1: häufigste Wörter). (b)- Sei- A die Häufigkeit der Esperanto-Wörter, die Menschen mit einer Muttersprache aus dem romanischen oder germanischen Sprachzweig zuverlässig bekannt sind. Sei- B die Häufigkeit der Esperanto-Wörter, die Menschen mit Muttersprache Chinesisch, Japanisch oder aus der finno-ugrischen Sprachfamilie zuverlässig bekannt sind. Die Untersuchung zeigte: Zwischen A und B besteht kein signifikanter Unterschied. Das heißt: Die naheliegende Vermutung, dass Sprecher mit einer Muttersprache aus dem romanischen oder germanischen Sprachzweig (= Quelle der meisten Esperanto-Wörter) einen Vorteil haben und seltenere Esperanto-Wörter vergleichsweise besser kennen als Sprecher mit anderen Muttersprachen, wurde durch die vorliegende empirische Überprüfung nicht bestätigt. (c)- Bei einer statistischen Sicherheit von 95% ist die Selbsteinschätzung des eigenen Esperanto-Anwendungsvermögens durch seine Sprecher auch nach 100- Lernjahren nur 73%. Für eine zuverlässige Anwendbarkeit (also 90% bei 95%- statistischer Sicherheit) konnte keine Lernzeit ermittelt werden.
Es werden die mathematischen Methoden und algorithmischen Verfahren der Clusteranalyse im Hinblick auf Bedeutungsrepräsentationen untersucht. Im Rahmen der deskriptiven und explorativen Datenanalyse werden die Voraussetzungen und Bedingungen des clusteranalytischen Ansatzes und die Möglichkeiten seiner Anwendung diskutiert, die zur adäquaten Ermittlung und Beschreibung von Gruppierungen von Bedeutungspunkten im semantischen Raum verwendet werden, welche nach räumlicher Lage und topologischen Nachbarschaften den Ähnlichkeiten von Bedeutungen sprachlicher Zeichen in Texten entsprechen. Dabei ist die große Anzahl frei wählbarer Parameter und der Einfluß, den jede Wahl eines der bekannten clusteranalytischen Verfahren in Bezug auf die vorauszusetzenden Vorkenntnisse von der Struktur der zu untersuchenden Daten auf die Güte der erwartbaren Ergebnisse hat, eine bekannte Schwäche der Clusteranalyse. Diese generelle Problematik belastet die Abschätzbarkeit von Erfolg und Adäquatheit unüberwachter Klassifikationsverfahren weit über die quantitativ-linguistischen Untersuchungen in der Gebrauchssemantik hinaus. Deshalb wird ein neues Verfahren entwickelt, welches den analysierten Daten in geringerem Maße als bisher Strukturen aufprägt und in höherem Maße als bisher von den analysierten Daten und ihren Strukturen gesteuert wird.
Erlkönig und Mathematik
(2005)
Dieser Band stellt eine Sammlung von neueren korpuslinguistischen Arbeiten aus der Trierer Forschungsgruppe zur quantitativen und systemtheoretischen Linguistik dar " Arbeiten, die zumeist im theoretischen Rahmen der synergetischen Linguistik angesiedelt sind und einen größeren, auf Korpusuntersuchungen beruhenden empirischen Anteil aufweisen. Den Band schließt eine sorgfältige, 500 Titel umfassende Bibliographie. Mit dieser Sammlung wird nur ein kleiner Teil der einschlägigen Forschungsbeiträge veröffentlicht, die in den letzten Jahren in Trier entstanden sind, aber sie bietet einen repräsentativen thematischen und methodischen Überblick über die aktuellen Arbeiten dieser Gruppe.
One of the current issues in psycholinguistics is how the frequency of syntactic structures influences the mental processing of sentences, especially in the case of ambiguous constructions. The present work attempts to shed light on this issue from the perspective of computational and corpus linguistics. Existing theories of human sentence processing assign different roles to frequency, varying from certain 'principle-based' models that completely ignore it to 'experience-based' models relying on frequency alone. The present work develops a frequency-based parsing component that may be combined with other factors influencing disambiguation. This module, named the Optimized Frequency Constraint (OFC), addresses questions largely left open by existing frequency-based models: How are the frequencies of syntactic structures stored mentally? When does the human sentence processing mechanism access this stored information, and in what sequence? OFC is then applied to a range of syntactic constructions in German (licensing, attachment of phrases and relative clauses, word order, etc.) that have been used in psycholinguistic experiments. The settings of OFC's parameters are determined by analyzing German corpus data. The predictions based on OFC are confirmed by the results reported in the psycholinguistic literature in most cases, indicating that OFC offers psychologically valid predictions of the influence of frequency in human parsing.