Suche   SiteMap
Home
A bis Z
BIB-KAT
Andere Bibliothekskataloge
Digitale Medien
Dokumentlieferung
Fachspezifische Informationen
Suchhilfen und Datenbanken
 
Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:hbz:385-1988
URL: http://ubt.opus.hbz-nrw.de/volltexte/2004/198/


Parsing and Quering XML Documents in SML

n.a.

Neumann, Andreas

pdf-Format:
Dokument 1.pdf (1.210 KB) Dokument 2.pdf (60 KB) Dokument 3.pdf (61 KB)

Bookmark bei Connotea Bookmark bei del.icio.us
SWD-Schlagwörter: XML , Syntaktische Analyse , Standard ML , Dokumentverarbeitung , Abfrageverarbeitung
Freie Schlagwörter (Englisch): n.a.
Institut: Informatik
Fakultät: Fachbereich 4
DDC-Sachgruppe: Informatik
Dokumentart: Dissertation
Hauptberichter: Seidl, Helmut; Prof. Dr.
Sprache: Englisch
Tag der mündlichen Prüfung: 11.04.2000
Erstellungsjahr: 2000
Publikationsdatum: 15.06.2004
Kurzfassung auf Englisch: XML (Extensible Markup Language) ist ein sequentielles Format zur Speicherung und Übermittlung strukturierter Daten. Obwohl es ursprünglich für die Dokumentenverarbeitung entwickelt wurde, findet XML heute Verwendung in nahezu allen Bereichen der Datenverarbeitung, insbesondere aber im Internet. Jede XML-Dokumentenverarbeitungs-Software basiert auf einem XML-Parser. Der Parser liest ein Dokument in XML-Syntax ein und stellt es als Dokumentbaum der eigentlichen Anwendung zur Verfügung. Dokumentenverarbeitung ist dann im wesentlichen die Manipulation von Bäumen. Moderne funktionale Programmiersprachen wie SML und Haskell unterstützen Bäume als Basis-Datentypen und sind daher besonders gut für die Implementierung von Dokumentenverarbeitungs-Systemen geeignet. Um so erstaunlicher ist es, dass dieser Bereich zum größten Teil von Java-Software dominiert wird. Dies ist nicht zuletzt darauf zurückzuführen, dass noch keine vollständige Implementierung der XML-Syntax als Parser in einer funktionalen Programmiersprache vorliegt.

Eine der wichtigsten Aufgaben in der Dokumentenverarbeitung ist Querying, d.h. die Lokalisierung von Teildokumenten, die eine angegebene Strukturbedingung erfüllen und in einem bestimmten Kontext stehen. Die baumartige Auffassung von Dokumenten in XML erlaubt die Realisierung des Querying mithilfe von Techniken aus der Theorie der Baumsprachen und Baumautomaten. Allerdings müssen diese Techniken an die speziellen Anforderungen von XML angepasst werden. Eine dieser Anforderungen ist, dass auch extrem große Dokumente verarbeitet werden müssen. Deshalb sollte der Querying-Algorithmus in einem einzigen Durchlauf durch das Dokument ausführbar sein, ohne den Dokumentbaum explizit im Speicher aufbauen zu müssen.

Diese Arbeit besteht aus zwei Teilen. Der erste Teil beschreibt den XML- Parser fxp, der vollständig in SML programmiert wurde. Insbesondere werden die Erfahrungen mit SML diskutiert, die während der Implementierung von fxp gewonnen wurden. Es folgt eine Analyse des Laufzeit-Verhaltens von fxp und ein Vergleich mit anderen XML-Parsern, die in imperativen oder objekt- orientierten Programmiersprachen entwickelt wurden.

Im zweiten Teil beschreiben wir einen Algorithmus zum Querying von XML- Dokumenten, der auf der Theorie der Waldautomaten fundiert ist. Er findet alle Treffer einer Anfrage in höchstens zwei Durchläufen durch das Dokument. Für eine wichtige Teilklasse von Anfragen kann das Querying sogar in einem einzelnen Durchlauf realisiert werden. Außerdem wird die Implementierung des Algorithmus in SML mit Hilfe von fxp dargestellt.
Kurzfassung auf Deutsch: n.a.

Home | Suchen | Veröffentlichen | Hilfe | Viewer