Seite druckenPDF Version herunterladenSeitenstruktur anzeigenSeite durchsuchen
nach oben

Themenvorschläge Diplomarbeiten im Nebula5-Projekt

 Thema #1: Erstellung eines geeigneten Schemas für die interne annotierte Dokumentrepräsentation

Die derzeit verwendete Apache Tika Software analysiert Eingabedokumente verschiedener Art und unterschiedlicher Formate.
Ergebnis der Analyseprozedur ist

  1. eine Menge von dokumentbezogenen Metadaten
  2. eine simplifizierte Transformation des Dokumentes (nach XHTML)

Hierbei wird lediglich die Grobstruktur der Dokumente erhalten.
Fraglich ist nun, ob es eine bessere Alternative gibt, und wie sich diese implementieren und nutzen ließe.

Verknüpft ist dieses Thema mit der automatisierten Herstellung von ODF-Dokumenten aus kombinierten Artefakten des N5-Systems.

 

Thema #2: NLP-Pipeline

Entwicklung einer Alternativlösung zur konventionellen NLP-Pipeline
(zB. ein Netzwerk, welches über ein Schema/eine Ontologie gesteuert wird und verschiedene Komponenten zusammenführt) - hierbei wäre ein Nachweis der Effektivität m.E. schon dadurch erbracht, wenn es gelänge einen Parser und eine semantische Methode so zu verknüpfen, daß Bootstrapping-ähnliche Vorteile entstünden.

Mögliche Technologien:

  1. BPEL
  2. Apache UIMA

 

Thema #3: Archivierung und Repositorybildung

Derzeit begnügen sich die Crawler mit einem exzerpieren von Metadaten und der Speicherung des eigentlichen Contents im Ziel- RDF-Modell.
Für eine spätere Weiterverarbeitung ist es vorstellbar günstig, die eigentlichen Quelldaten nicht in dieser (Roh-)Form zu speichern, sondern so, daß möglichst viel Information erhalten bleibt.

Ein möglicherweise geeigneter Weg wäre hierbei, die Quelldaten als ODF-Dateien (Open Document Format, OASIS Standard) zu speichern, wobei die RDFDocument-ID auch hier als Primärschlüssel dienen könnte.
Im Rahmen einer späteren Weiterverwendung könnten die so gesicherten ODF-Dateien teilweise oder ganz zusammengeführt und dem Benutzer als einheitliches Dokument präsentiert werden, welches er mit einem der vielen kompatiblen Office-Pakete weiter bearbeiten kann.

  1. Eine Aufgabe könnte darin bestehen, eine geeignete Untermenge des ODF-Standards zu finden, die geeignet ist, die meisten "ercrawlten" Informationen beschreiben zu können und gleichzeitig "visuellen Zucker" eliminiert.
  2. Im Rahmen einer anderen Aufgabe könnte ein Verfahren entwickelt werden, geeignete ODF-Dateien in einem Repository abzulegen und bei Bedarf entweder als Liste auszugeben, oder in zusammengeführter Form (Dokument mit Unterdokumenten?)

 

Thema #4: Flache vs. Tiefe Textanalyse

Entwicklung zweier NLP-Module, welches die Aufbereitung von
Dokumenten und Fragen unterstützt. Kern der Arbeit könnte die
Nutzenabwägung zwischen verschiedenen syntaktisch-lexikalischen
("flache" und. "tiefe" Methoden, z.B. Gazetteers vs. Parsing) und
semantischen Verfahren sein.

 

Thema #5: Nutzung von Strukturinformationen

Syntaktische Strukturen und lexikalische Informationen spielen für die natürlichsprachliche Verarbeitung von Texten häufig eine große Rolle.
Fraglich ist, ob dies auch für die Sprachverarbeitung im stark restringierten Umfeld des N5-Systemes gilt.

Ein Beispiel für die Art von Restriktionen, die wirksam sind, kann im Einsatz von "Question Answering" für die Anwendungsuntersützung gesehen werden:
Einerseits könnte ein Question Answering-Modul sinnvoll eingesetzt werden, um Benutzer bei der Informationssuche zu unterstützen (vgl. Ask Jeeves, http://uk.ask.com/ ), andererseits handelt es sich im Ziel-Umfeld nicht um willkürliche, bzw. wirklich "freie" Fragestellungen - sondern lediglich um solche, die "üblicherweise" an Suchmschinen gestellt werden (zusammen mit der damit verbundenen Ergebnis-Erwartungshaltung).

Eine geeignete Arbeit könnte untersuchen, inwiefern ähnliche Einschränkungen auch für die tatsächlich eingesetzte Strukturinformation (Frage und/oder Antwort) gelten.

 

Thema #6 :Evaluation Nebula5 bzw. NLP in Nebula5

Entwicklung eines Evaluationsschemas/ einer  Evaluationsanwendung für die Effektivität der NLP-Pipeline - "Wie erkennt man, ob ein neues Modul eine Verbesserung bewirkt? Welche Wirkungen entfalten sich überhaupt?", etwa unter Verwendung eines Testkorpus/eines standardisierten
Testverfahrens, wobei die Suche selbst primitiv gehalten ist
(Standardanfragen, eigene minimale Query-Komponente).

 

Thema #7: Sicherheitsproblematik

In einem stark fragmentierten, verteilten Umfeld - sowohl in Bezug auf die Technik (verteilte Module) als auch in Bezug auf den organisatorischen Rahmen (unabhängige Institutionen) sind Sicherheit und Datenschutz von primärer Bedeutung.

Der derzeit entwickelte N5-Prototyp setzt einen ersten Entwurf einer Sicherheitsarchitektur um, welches auf den Subjekt-Konzepten Domäne, User, Rolle und Gruppe basiert, hierarchisch organisiert ist und als Universaldeskriptoren URIs einsetzt.

Thema einer wissenschaftlichen Arbeit könnte die Validierung und ggf. die Verbesserung dieser Architektur sein - bis hin zur Konstruktion einer durchführbaren und sicheren Alternative.

 

Thema #8: Verteilungsaspekte (Datenbasis, SOA-Infrastruktur)

(Noch nicht spezifiziert)

Autor: , Stand: 15.07.2010 10:13 Uhr

 Impressum  Datenschutzerklärung