Das luxemburgischsprachige Oeuvre von Michel Rodange (1827-1876). Editionsphilologische und korpuslinguistische Analyse

The Luxembourgish language oeuvre of Michel Rodange (1827-1876). A text critical and corpus linguistic analysis

  • Die Arbeit setzt sich mit den theoretischen und praktischen Aspekten der Analyse und Edition eines literarisch wichtigen Textes mit Methoden der Digital Humanities sowie der Korpus- und Computerlinguistik auseinander. Als Materialgrundlage dient das luxemburgischsprachige Werk des Michel Rodange. Hierzu gehören die Werke "Renert oder de Fuuss am Frack an a Maansgréisst" - ca. 35.000 Tokens, "Dem Léiweckerche säi Lidd" - ca. 5.000 Tokens, "Dem Grof Sigfrid seng Goldkuemer" - ca. 10.000 Tokens und zwei Gedichte - ca. 500 Tokens. Auf der empirischen Seite handelt es sich um die Erstellung eines elektronischen Korpus mit historisch-kritischen und linguistischen Annotationen und dessen Darstellung im Internet als Webportal. Dabei entsteht eine Wechselwirkung zwischen Theorie und Praxis, so werden die erstellten Annotationen verwendet, um das Werk aus sprach- und literaturwissenschaftlicher Perspektive zu untersuchen; diese Erkenntnisse können dann wiederum bei der Implementierung der Tools eingesetzt werden, um den Korrektheitsgrad der automatischen Annotation zu erhöhen. Die historisch-kritischen Annotationen beinhalten beispielsweise Lesarten, Korrekturen sowie Worterklärungen, wohingegen die linguistischen Annotationen die Orthographie, Morphologie (Wortklassen und Lemmata) und Phraseologie betreffen. Die Annotationen werden in der Markup-Sprache XML kodiert. Der erste Schritt der Erstellung eines elektronischen Korpus ist die Digitalisierung der Texte. Bei den Handschriften geschah dies mithilfe einer manuellen Transkription, bei den Drucken wurde auf eine OCR-Software zurückgegriffen. Es empfiehlt sich, bereits in dieser Phase den Text gut zu strukturieren und mit Annotationen zu versehen. Dabei wurden zunächst Metadaten festgehalten. Anschließend wurden Informationen wie Seitenzahl, Zeilenumbrüche etc. als Annotationen hinzugefügt. Von besonderer Bedeutung für die Erstellung eines Korpus aus einem historisch und literarisch wichtigen Text ist jedoch seine Anreicherung mit historisch-kritischen Kommentaren. Die Untersuchung und Berücksichtigung der literarischen bzw. wissenschaftlichen Gattung historisch-kritische Edition stellt die theoretische Grundlage für solche Annotationen dar. Alle für die Editionswissenschaft relevanten Texthinweise, -bruchstücke und vom Autor durchgestrichene und gelöschte Stellen wurden dokumentiert. Bei schlecht lesbaren Stellen wurden Lesemöglichkeiten vorgeschlagen und die anderer Editionen diskutiert. Die Text Incoding Initiative (TEI) bietet eine Fülle von XML-Elementen, um solche Annotationen zu speichern. Um diese Arbeit nicht manuell ausführen zu müssen, wurde auf Tools wie TUSTEP, oXygen oder Skriptsprachen wie beispielsweise Perl zurückgegriffen. Diese können u. a. die Such- und Ersetzen-Arbeiten mithilfe der Regulären Ausdrücke bedeutend erleichtern. Den nächsten Schritt der Korpus-Erstellung stellt die Tokenisierung dar. Hierbei gehen die historisch-kritischen Annotationen in linguistische Annotationen über. Die Grenzen eines Wortes werden festgelegt und jedes Wort mit seinem eigenen Element versehen. Aus der digitalen Verarbeitung nicht wegzudenken ist dabei die Berücksichtigung und Untersuchung der Sprache des Autors. In diesem Fall wurde auf Aspekte wie die Dichtungsstile des Luxemburgischen im 19. Jahrhundert, die literarischen Gattungen der Texte sowie die Schreibung des Autors geachtet. Der empirische Anteil der Analyse mit EDV-technischen Methoden und die Speicherung der Ergebnisse als Annotationen stellt die wissenschaftliche Basis für die spätere digitale Präsentation dar. In der Arbeit werden die Ergebnisse der quantitativen und qualitativen Analyse der Sprache des Werks mithilfe von selbstimplementierten Programmen diskutiert. Dabei werden die vorhandenen Theorien sowohl der klassischen Linguistik z. B. aus der Morphologie oder der Phraseologieforschung, als auch der Korpuslinguistik besprochen und evaluiert. Die Implementierung und Ergebnisse folgender Programme für das Michel Rodange Korpus werden thematisiert: Tokeniser, FreqList, POS-Trainer, POS-Tagger, Lemmatisierer und Programme zur morphologischen und phraseologischen Analyse des Korpus. Der POS-Tagger kann die Wortarten im Korpus bestimmen. Grundlage dafür sind die sogenannten Hidden Markov Modelle, die auf der Wahrscheinlichkeitstheorie basieren. Der Lemmatisierer und das Programm zur morphologischen Analyse arbeiten hauptsächlich regelbasiert, wohingegen das Programm für die phraseologische Analyse anhand statistischer Verfahren wie dem Z-Test, dem Chi-Quadrat-Test und dem Exakten Test von Fisher implementiert wurde. So widmet sich beispielsweise Kapitel 3.4 dem Output der morphologischen Analyse und diskutiert die Wortbildung. Kapitel 3.6 beschäftigt sich mit der Interpretation der Phraseologismen. Hierbei zeigte sich, dass viele der automatisch identifizierten Phraseologismen aus Michel Rodanges Werken in der Tat ein fester Bestandteil nicht nur der luxemburgischen Sprache und Kultur sind, sondern sich auch in der gesamten westlichen Kultur wiederfinden.
  • The current work focuses on theoretical and practical aspects of the analysis and publication of important literary texts using the methods of digital humanities, as well as corpus and computational linguistics. The oeuvre of Michel Rodange in the Luxembourgish language provides the basic material for this study. This includes the works "Renert oder de Fuuss am Frack an a Maansgréisst" - ca. 40.000 Tokens, "Dem Léiweckerche säi Lidd" - ca. 5.000 Tokens, "Dem Grof Sigfrid seng Goldkuemer" - ca. 15.000 Tokens and two poems - ca. 500 Tokens. On the empirical level the work involves compiling a corpus with text critical and linguistic annotations and its presentation as a web portal. A very interesting interdependency arises at this point between theory and practice. It is possible to use the created annotations in order to investigate the oeuvre from a philological point of view on the one hand; on the other hand one can use this knowledge in the development of tools, which can create similar or new annotations and improve their correctness. The text critical annotations consist of reading variants, corrections and a word glossary, whereas the linguistic annotations are of an orthographical, morphological (also including word classes and lemmata) and phraseological nature. The annotations are codes in XML. The first step in working with one- own corpus is its digitalization. In the case of manuscripts this occurred by means of manual transcription, but the prints were digitized with the help of OCR-software. At this stage the texts were already well organized and enriched with the initial annotations and metadata. At first sight less important but still useful information such as page numbers, line breaks, chapters etc. were marked. However in compiling a corpus from an important literary work the conservation of text critical annotations is of special significance. In order to create such annotations the theoretical principles of textual criticism first needed to be discussed. Then the most important phenomena, such as text fragments, corrections, deletions etc., were documented. For poorly readable areas new interpretations were proposed and those from other editions were compared and discussed. The Text Encoding Initiative (TEI) offers a number of XML-elements to organize such annotations. It was possible to limit much manual work by using tools such as TUSTEP or oXygen as well as scripting languages, e.g. Perl. These provide a powerful technique of "regular expressions", which can automate the search and replacement work at an abstract level. The next and very useful step is tokenization. At this level text critical annotations almost overlap with linguistic annotations. A fuzzy border was defined for tokens and they were marked with their own XML-element. It is essential for further investigation to consider and study the language of the author. For this purpose special attention was paid to poetic styles in the Luxembourgish language of the 19th century, literary genres, and the orthography and spelling of the author. On the empirical level, the analysis of the corpus from a linguistic point of view with the help of corpus linguistics methods, e.g. extraction of multi word units, forms the scientific basis for later digital presentation of the oeuvre. For this purpose a number of tools for analyzing the oeuvre quantitatively as well as qualitatively were designed and developed. The output of these tools is discussed in the current work. Here theories from classical linguistics e.g. morphology, phraseology and corpus linguistics e.g. POS-Taggers, concordances and collocational analysis, were discussed. All in all the following programs were implemented and described: Tokenizer, Frequency List, POS-Trainer, POS-Tagger, Lemmatizer and further programs for word formation and phraseological analysis. The program for morphological analysis and Lemmatizer are basically rule-based, whereas most of the other programs work by means of statistics. Hidden Markov Models, which derive from probabilistic theory, underlie the assignment of part of speech tags to words. For phraseological analysis many current statistical models such as z-score, t-score, mutual information, chi-square-test and fisher- exact test were implemented and tested. Chapter 3.4 is dedicated to the output of the program for morphological analysis and discusses word formation in the oeuvre of Michel Rodange. Chapter 3.6 focuses on the interpretation of the output for collocational- phraseological analysis. As a result of this investigation it became apparent that many automatically identified phraseological units in Michel Rodange- oeuvre are not only a part of Luxembourgish language and culture, but also found in other European cultures.

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar
Metadaten
Verfasserangaben:Joshgun Sirajzade
URN:urn:nbn:de:hbz:385-9144
DOI:https://doi.org/10.25353/ubtr-xxxx-9056-6cee/
Betreuer:Claudine Moulin
Dokumentart:Dissertation
Sprache:Deutsch
Datum der Fertigstellung:04.03.2015
Veröffentlichende Institution:Universität Trier
Titel verleihende Institution:Universität Trier, Fachbereich 2
Datum der Abschlussprüfung:23.01.2013
Datum der Freischaltung:04.03.2015
Freies Schlagwort / Tag:Editionswissenschaft; Michel Rodange; Portal; Renert
Corpus linguistics; Digital Humanities; Historical linguistics; Literary science; Luxembourgish; Michel Rodange; Renert
GND-Schlagwort:Digital Humanities; Historische Sprachwissenschaft; Korpus <Linguistik>; Literaturwissenschaft; Luxemburgisch; Textkritik
Institute:Fachbereich 2 / Germanistik
DDC-Klassifikation:4 Sprache / 40 Sprache / 400 Sprache

$Rev: 13581 $