ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Themenbereich 2: Datenqualität und -integration

Überblick:

Die Aussagekraft und Glaubwürdigkeit von Analysen in Big-Data-Anwendungen hängt entscheidend von der Qualität der zugrunde liegenden Daten ab. Um die Auswertungsmöglichkeiten zu verbessern und zu neuen Erkenntnissen zu erlangen, ist es in fast allen geplanten Anwendungsbereichen notwendig, unterschiedliche, heterogen strukturierte Daten semantisch korrekt zu integrieren bzw. Daten mit anderen Informationen und Metadaten anzureichern. In Data Warehouses (als klassische Plattform für Business‐Analysen) werden die Aufgaben der Datenqualitätssicherung und Datenintegration im Rahmen sogenannter ETL-Workflows (Extraktions/Transformations/Lade) realisiert, in denen die Daten aus unterschiedlichen Datenquellen extrahiert, anschließend transformiert, bereinigt und schließlich in eine Warehouse‐Datenbank integriert werden. Der ETL‐Prozess ist üblicherweise die mit Abstand aufwändigste Aufgabe im Data Warehousing, insbesondere aufgrund der Notwendigkeit umfassender Bereinigungen und Integrationsaufgaben. Hierzu zählt als wichtiger Schritt das Erkennen und Behandeln von Dubletten in einer oder in verschiedenen Datenquellen (Objekt‐Matching, Entity Resolution), z. B. um unterschiedliche Repräsentationen derselben Kunden oder Produkte zu identifizieren und zu vereinheitlichen.
Gegenüber klassischen Data‐Warehouse‐Ansätzen bilden die Big Data Anwendungen aufgrund des meist sehr hohen Datenvolumens, der weit größeren Vielfalt der Daten sowie der teilweise sehr großen Zahl zu integrierender Datenquellen weitreichende neue Herausforderungen bezüglich Datenqualität und Datenintegration. So sind Auswertungen nicht nur für strukturierte Eingangsdaten, sondern auch auf vielfältigen semi-strukturierten und unstrukturierten Daten zu unterstützen, u. a. aus einer Vielzahl von Web‐Quellen, sozialen Netzwerken, Sensor‐Netzwerken, Dokumenten‐ und Multimedia‐Sammlungen sowie wissenschaftlichen Experimenten und Simulationen. Diese Daten müssen aufwändig bearbeitet werden, um die für die meisten Analysen benötigten strukturierten Informationen zu extrahieren. Außerdem sind z. B. Web‐Daten von einer oft geringen Qualität (unvollständig, widersprüchlich, fehlerhaft), so dass umfassende Data-Cleaning‐Schritte notwendig werden. Besondere Herausforderungen stellen zudem Realzeit‐Analysen, insbesondere auf unterschiedlichen Streaming‐Daten, z. B. zur Verkehrsüberwachung.

Forschungsschwerpunkte:

  • Parallele Ausführung umfassender Datenintegrations-Workflows
  • Lernbasierte Konfiguration von Integrations-Workflows
  • Holistische Integration zahlreicher Datenquellen
  • Echtzeit-Datenintegration / Dynamische Informationsanreicherung

Die Arbeiten werden durch die Professur Datenbanken der Universität Leipzig durchgeführt.

 

Privacy Preserving Record Linkage

Datenintegration und and Data Quality