ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Masterarbeit (Leipzig): Skalierbare bildbasierte Deduplikation

Student:

Christopher Rost

Betreuer:

Dr. Eric Peukert (Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!)
Dipl. Medieninform. Christoph Müller (Check24 Vergleichsportal Reise GmbH)

Inhalt:

Digitale Bilder, die ein und dasselbe Realweltobjekt abbilden, werden als Duplikate bezeichnet. Sie können vom Menschen in kürzester Zeit als solche identifiziert werden, unterscheiden sich jedoch in binärer Form sehr stark voneinander. Die automatisierte Erkennung dieser Duplikate anhand von Bildeigenschaften, welche ausschließlich aus den Binärdaten generiert werden, ist schon seit vielen Jahren Forschungsgegenstand. Jedoch unterstützen aktuelle Deduplikationssysteme oftmals nur textuelle Daten im gesamten Matching-Prozess. Die vorliegende Masterarbeit stellt das Konzept eines Systems vor, welches auf einer verteilten Infrastruktur eine bildbasierte Deduplikation großer Mengen von Bildern ermöglicht. Diese Similar Image Matching Suite, kurz SIMaSu, wurde zudem prototypisch unter Verwendung der Nachrichten-basierten Middleware RabbitMQ implementiert. Weiterhin gibt die Arbeit einen Überblick über die aktuell zur Verfügung stehenden Verfahren zur Berechnung von Bildähnlichkeiten. Dazu zählen Perceptual Hash-Technologien, Feature-basierte Verfahren und ein Mean Square Error-Ansatz. Solche Metriken stellen den Kern einer bildbasierten Deduplikation dar. Zusätzlich wurde eine Ähnlichkeitsmetrik konzipiert, welche durch Anwendung der Feature-basierten Technologien SIFT, SURF und ORB einen Ähnlichkeitswert errechnet. In einer abschließenden Evaluation werden für elf ausgewählte Implementationen verschiedener Metriken die Laufzeiten evaluiert, die Invarianzen gegen Bildtransformationen untersucht, sowie die Effektivitäten verglichen. Durch diesen fairen Vergleich werden Entscheidungshilfen für oder gegen die Verwendung einer bestimmten Metrik, sowie der Wahl eines effektiven Grenzwertes zur Klassifikation eines Bildpaares geboten.

Kontakt:

Dr. Eric Peukert (Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!)
Christopher Rost (Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!)