ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Themenbereich 3: Wissensextraktion

Überblick

Die Wissensextraktion ist für Verarbeitung großer Datenmengen von wesentlicher Bedeutung. In vielen Anwendungsbereichen ist die Problematik der großen Datenmengen äußerst aktuell und in manchen Fällen sogar akut, d. h. ein Mangel von Methoden zur Wissensextraktion führt implizit zur Verzögerung der entsprechenden Forschungen.

Der Themenbereich Wissensextraktion unterscheidet zwei große Teilbereiche. Zum einen ist das die Wissensextraktion aus symbolischen Daten (wie zum Beispiel Texte und biologische Sequenzdaten), zum anderen – aus Daten der physikalischen Natur. Zu den letzteren zählen vor allem Bilder, Videos, 3D-Datensätze (z. B. CT-Tomographien, 3D-Mikroskopie) sowie andere Datenquellen, die man als „Messungen“ bezeichnen kann. Aktuelle Forschungen in diesen zwei Gebieten sind recht unterschiedlich ausgeprägt. Bei der Bearbeitung der symbolischen Daten wird meist davon ausgegangen, dass die Inputdaten in einem gewissen Sinn exakt sind, d. h. nicht verrauscht. Somit bestehen die Aufgaben meist darin, Zusammenhänge zu entdecken, die Inputdaten unterschiedlichen Kategorien (Clustern, Topics, Konzepten) zuzuordnen, d. h. die Daten zu interpretieren. Bei der Verarbeitung zum Beispiel von Bildern liegt die Herausforderung bereits darin, eine initiale bedeutungsvolle Information zu extrahieren. Die beiden Bereiche stellen folglich sehr unterschiedliche Anforderungen, so dass auch die aktuellen Forschungsschwerpunkte relativ weit voneinander entfernt liegen.

Die Methoden zur Bearbeitung der symbolischen Informationen konzentrieren sich meist auf die Semantik. Dies führte zum Beispiel zur Entwicklung komplexer hierarchischer (Topic-)Modelle. Weitere Arbeiten konzentrieren sich auf formale Sprachen, Grammatiken, Linguistik etc. oder biologische Annotationsdaten.

In der Computer Vision beobachtet man ebenfalls einen Trend zur Extraktion von Semantik mittels hierarchischer Modelle. Diese Modelle sind aber meist sehr spezialisiert (z. B. für semantische Segmentierung). Eine sehr große Herausforderung liegt in der Datenkompression. Das Problem ist für symbolische Daten weniger stark ausgeprägt, denn solche Daten werden selten (mit Verlusten) komprimiert. Bei der Bearbeitung von Bildern/Videos/3D-Datensätzen besteht dagegen die Notwendigkeit, Datenmengen drastisch zu reduzieren. Allgemeine Methoden zum Beispiel zur Bildkompression sind heutzutage sehr gut ausgearbeitet. Für viele Daten reicht das allerdings bei Weitem nicht aus – hier werden Algorithmen zur semantischen Datenkompression benötigt. An dieser Stelle spielt die Wissensextraktion eine entscheidende Rolle.

Eine weiterer Fokus liegt in der Suche nach effizienten Algorithmen, die in der Lage sind mit großen Datenmengen umzugehen. Leider sind die im Moment in der Bildverarbeitung etablierten Algorithmen für die Bearbeitung großer Datenmengen meist nicht geeignet. Für viele Problemstellungen sind zwar Algorithmen mit polynomialer Laufzeit verfügbar, jedoch ergibt sich ein akuter Forschungsbedarf bezüglich des Ressourcen-Verbrauchs.

Die Forschungsschwerpunkte im Themenbereich Wissensextraktion lauten im Einzelnen:

  • Methodentransfer
  • Effiziente Algorithmen in strukturellen Daten
  • Effiziente Index-basierte Algorithmen für HTS Daten
  • Hierarchische Modelle
  • Maschinelles Lernen in strukturellen Modellen
  • Text Mining Verfahren für Ähnlichkeitsanalyse
  • Ähnlichkeitsnetzwerke – Generierung, Analyse und Einbindung
  • Generative Exploration von metabolischen Netzwerken

Für den Bereich Text Mining befindet sich eine genauere Übersicht über den Bestand an Daten und Tools inklusive ready-to-use Demos auf der Projektwebseite www.urncts.de.

Forschungspartner

  • Professur Bildverarbeitung, Computer Vision Lab, TU Dresden: Prof. C. Rother
  • Professur für Automatische Sprachverarbeitung, Universität Leipzig: Prof. G. Heyer
  • Professur für Bioinformatik, Universität Leipzig: Prof. P. Stadler