ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Masterarbeit (Leipzig): Deep Learning for Matching and Deduplication

 

Die Verbesserung der Datenqualität mittels Duplikaterkennung und Datenbereinigung ist ein wichtiger Vorverarbeitungsschritt bevor sinnvolle Datenanalysen durchgeführt werden können. Insbesondere zur Duplikaterkennung wurde an der Universität Leipzig das Dedoop-System entwickelt, welches Duplikate in großen Objektmengen effizient identifizieren kann. Dedoop hilft bei der Konfiguration von Entity Matching Workflows mittels eines GWT-UIs und transformiert diese Workflows in Map-Reduce-Jobs. Dabei werden verschiedene Techniken zur Lastbalancierung von Ähnlichkeitsberechnungen angewendet und durch verschiedene verkettete Map-Reduce Jobs abgebildet.

Eine Schwierigkeit besteht darin verschiedene Techniken miteinander zu kombinieren, zu parametrisieren und deren Ergebnisse zu gewichten. Dafür wurden bereits Lern-basierte Ansätze (Decision Trees, SVM) angewendet mit relativ guten Ergebnissen.

In den letzten Jahren zeigte sich jedoch in anderen Forschungsbereichen wie der Computer Vision und Spracherkennung, dass neuere Deep Learning Ansätze unerwartet Durchbrüche und Qualitätsverbesserungen im Lernen erreichen könnnen.

Die Arbeit soll untersuchen inwieweit Deep Learning-Techniken auch bei der Konfiguration und Gewichtung von Matchverfahren nutzbringend angewendet werden können. Das spannende Thema ermöglicht es einem Studenten sich in das relativ vielversprechende Thema Deep Learning einzuarbeiten und für einen sehr wichtigen Anwendungsbereich zu evaluieren.

 

Kontakt:  

Dr. Eric Peukert

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!