ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

BigData-Integration und -Analyse

Während der Begriff Big Data meist mit den Herausforderungen und Möglichkeiten des heutigen Wachstums von Datenvolumen und -geschwindigkeit assoziiert wird, ist dieser auch durch die zunehmende Vielfalt von Daten gekennzeichnet. Das Spektrum an Datenquellen reicht von Sensornetzwerken, Protokollinformationen aus Industriemaschinen bis hin zu Log- und Click-Streams von immer komplexeren Softwarearchitekturen und Anwendungen. Darüber hinaus gibt es einen stetigen Zuwachs kommerzieller bzw. öffentlich verfügbarer Daten wie z.B. Daten aus sozialen Netzwerken wie Twitter oder Open Data. Immer mehr Unternehmen sind bestrebt, alle diese vorhandenen Arten von Daten in ihren Analyseprojekten zu nutzen, um zusätzliche Erkenntnisse zu gewinnen oder neue Funktionen in ihren Produkten zu ermöglichen.
Dem Bedürfnis einer unternehmensweiten, integrierten Sicht aller relevanten Daten wurde klassischerweise mit Hilfe relationaler Data-Warehouse-Infrastrukturen entsprochen. Diese sind jedoch auf Grund der notwendigen Schemadefinitionen als auch der starren und kontrollierten ETL-Prozesse, die wohldefinierte Eingabe- und Zielschemata voraussetzen, nicht flexibel genug, um situationsbezogen Daten unterschiedlichster Struktur aufzunehmen. Von den technischen Herausforderungen abgesehen ist es oftmals gar nicht wünschenswert, alle in einer Big-Data-Landschaft anfallenden Daten zu integrieren, da deren zukünftige Anwendungsfälle zumeist unbekannt sind. Auf Grund dieser Entwicklung hin zu einer agilen und explorativen Datenanalyse entstanden neue Prinzipien des Informationsmanagements wie z.B. Data-Lake-Architekturen oder MAD, die darauf abzielen, Daten jeden Formats in einfacher Weise aufzunehmen (engl. data ingest). Dies erleichtert zwar die Datenübernahme enorm, verschiebt den Integrationsaufwand jedoch nur auf einen späteren Zeitpunkt und macht diesen zum Teil des eigentlichen Analyseprozesses. Gleichzeitig ist der Aspekt der Integration von Daten auch meist der aufwendigste und teuerste Schritt in vielen Datenanalyseprojekten. Aktuellen Studien zufolge verwenden Informationsarbeiter und Data Scientists 50-80% ihrer Zeit mit der Suche und der Integration von Daten, bevor die eigentliche Analyse beginnen kann. Da die exakte Datenintegration als sogenanntes „AI-vollständiges–Problem“ bezeichnet wird, das im Allgemeinen die Validierung durch Menschen erfordert, ist eine Automatisierung dieser Aufgabe nicht absehbar.
Aus diesem Grund werden in ScaDS verschiedene, neue Systeme entwickelt, die im Kern auf die analytische Mächtigkeit relationaler Systeme setzen, diese jedoch um zusätzliche Fähigkeiten erweitern, um zur Anfragelaufzeit Daten aus verschiedensten Quellen (Variety) nutzen zu können: DrillBeyond ermöglicht relational strukturierte Daten mit Informationen aus Millionen von Webtabellen (Dresden Web Table Corpus, https://wwwdb.inf.tu-dresden.de/misc/dwtc/) anzureichern (engl. augmentation). 2) FREDDY ermöglicht es, unstrukturierte Daten die durch Word Embeddings repräsentiert werden im Kontext von Datenbanksystemen zu verwenden, etwa um kNN-Anfrage oder Vergleiche und Gruppierungen von Textwerten zu unterstützen. 3) Das Projekt DeExcelarator beschäftigt sich mit der Extraktion relational strukturierter Daten aus Excel-Tabellen. Dabei liegt die besondere Schwierigkeit darin, dass die Strukturierung der Daten von Nutzer zu Nutzer sehr stark variiert. Hier ist eine Reihe von Machine-Learning-Ansätzen notwendig um automatisch die richtigen Informationen zu extrahieren.

DrillBeyond

Entity-Augmentation-Anfragen (EAQ) liefern, gegeben einer Menge von Entitäten wie z.B. Ländern, Unternehmen, Personen und einem Korpus partiell strukturierter Daten, automatisch die Werte eines Attributs das ebenfalls in der Anfrage spezifiziert sein muss. Am Beispiel kann dies der Umsatz, der CEO oder der Aktienkurs des Unternehmens sein. Diese Informationen sind u.a. in Web-Tabellen zu finden. Bisherige Methoden geben, mittels Aggregation, pro Entität genau einen Wert zurück. Jedoch wird es für den Benutzer eines solchen Systems schwer nachvollziehbar, wie sich die einzelnen Werte über eine Vielzahl von Datenquellen zusammensetzten, was im Kontext weitere Analyseszenarien sehr kritisch zu sehen ist. In DrillBeyond wird daher nicht nur ein Ergebnis pro Entitätsmenge erzeugt, sondert eine gerankte Liste (Top-k) möglicher Ergebnisse. Diese kann der Nutzer manuell inspizieren und damit die Herkunft der Daten verifizieren. Die große Herausforderung besteht vor allem darin, konsistente Ergebnisse zu erzeugen. Bei einer größeren Anzahl von Entitäten ist nicht davon auszugehen, dass eine einzige Web-Tabelle alle notwendigen Informationen, wie z.B. alle Umsätze der angefragten Unternehmen, beinhaltet. Stattdessen muss das finale Ergebnis aus mehreren Webtabellen zusammengesetzt werden. Dabei muss zum Beispiel darauf geachtet werden, dass nicht die Umsätze verschiedener Jahre oder unterschiedliche Währungen miteinander vermischt werden. Zusammengefasst ergibt sich folgendes Problem: gegeben einer EAQ, die aus einer Menge von Entitäten besteht, und einem gesuchten Attribut soll das EAS eine diversifizierte Top-k-Liste alternativer Ergebnisse (engl. augmentations) liefern, die zum einem relevant aber zum anderen auch in sich konsistent und minimal sind. Diese Zielstellung lässt sich algorithmisch auf das Gewichtete Mengenüberdeckungsproblem (engl. weighted set cover problem), eines von Karps ursprünglichen 21 NP-vollständigen Problemen, abbilden. Intuitiv ausgedrückt geht es dabei darum, angesichts eines Universums von Elementen U und einer Menge von Teilmengen dieses Universums S, die alle mit einem Gewicht assoziiert sind, die optimale Menge aus S auszuwählen, so dass alle Elemente in U mit minimalen Kosten abgedeckt sind. Hierfür entwickeln wir verschiedenen Greedy-Algorithmen aber auch einen Ansatz basierend auf evolutionären Algorithmen.

FREDDY (https://wwwdb.inf.tu-dresden.de/research-projects/freddy/)

Word Embeddings kodieren eine Reihe semantischer sowie syntaktischer Eigenschaften und sind daher besonders in der Verarbeitung natürlicher Sprache (NLP) und im Information Retrieval nützlich. Um die reichhaltigen Informationen, die in Worteinbettungen gespeichert sind, darzustellen und für Anwendungsfälle in relationalen Datenbanksystemen zu verwenden, schlagen wir mit FREDDY (Fast WoRd EmbedDings Database Systems) ein erweitertes relationales Datenbanksystem vor, das auf PostgreSQL basiert. Wir entwickeln neue Abfragetypen bilden, mit denen der Benutzer strukturiertes Wissen in den Datenbankbeziehungen zusammen mit großen unstrukturierten Textkorpora analysieren kann, die als Word Embeddings kodiert sind. Unterstützt durch verschiedene Indexstrukturen und Approximationstechniken können diese Operationen schnelle Ähnlichkeitsberechnungen für hochdimensionale Vektorräume (typischerweise 300 Dimensionen) durchführen. Mit einer Webanwendung können diese neuartigen Abfragefunktionen für unterschiedliche Datenbankschemata und verschiedener Word Embeddings untersucht werden.

DeExcelarator

Tabellenkalkulationen sind eines der erfolgreichsten Werkzeuge zur Erstellung von Inhalten. Die einfache Handhabung und die umfangreichen Funktionen ermöglichen es Anfängern und Profis, Daten zu erstellen, zu transformieren, zu analysieren und zu visualisieren. Daher werden große Mengen an Informationen und Wissen in diesem Format gespeichert. Dies erfordert automatische Ansätze zur Untersuchung, Interpretation und Wiederverwendung des Inhalts der Tabellenkalkulation.
Der hohe Freiheitsgrad beim Umgang mit Tabellenkalkulationen-Software führt jedoch vielfältigen und strukturell stark unterschiedlich aufbereiteten Daten. Häufig werden die eigentlichen Daten mit Formatierungen, Formeln, Layout-Artefakten und anderen impliziten Informationen vermischt. Eine vollautomatische Verarbeitung beliebiger Tabellenkalkulationen war daher in der Vergangenheit schwierig zu implementieren, so das menschliche Experten einen erheblichen Teil der Aufgabe noch manuell ausführen musste.
In DeExcelarator-Projekt beschäftigen wir uns hauptsächlich mit Herausforderungen in Bezug auf die Erkennung relationaler Informationen in Tabellenkalkulationen. Hierfür haben wir einen komplexe Verarbeitungs-Pipeline entwickelt die zunächst, mittels eines Klassifikators, jede einzelne Zelle einer Tabellenkalkulation einer bestimmten Klasse, wie z.B. „Data“, „Header“ oder „Metadata“, zuweist. Die einzelnen Zellen werden dann zu größeren Bereichen zusammengefasst. Im Anschluss können mit Hilfe evolutionärer Algorithmen die Bereiche identifiziert werden, die zusammen eine Tabelle ausmachen. Für alle Verarbeitungsschritte sind Trainingsdaten notwendig, die wir uns selbst auf Basis des ENRON-Korpus generiert haben.