ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Bachelor-/Masterarbeit (Leipzig): Vergleich und Evaluation von RDF-on-Hadoop Lösungen

 

In den letzten Jahren wurden verschiedene Technologien zur Speicherung und Verarbeitung sehr großer Datenmengen wie Apache Hadoop, Spark oder Flink entwickelt. Die Entwicklung von Anwendungen auf Basis dieser Technologien und den zugrundeliegenden Programmiermodellen ist jedoch meist komplex.

Viele Nutzer aus dem Semantic Web Bereich würden gerne RDF-basierte Daten speichern und mittels SparQL abfragen können. Es haben sich mittlerweile erste RDF-on-Hadoop Lösungen entwickelt (HadoopRDF, Jena etc. ) die es erlauben Anfragen zu formulieren, die dann automatisch in Map-Reduce-Jobs übersetzt werden. 

Die Master/Bachelor-Arbeit untersucht existierende Ansätze hinsichtlich ihres Funktionsumfangs und ihrer Eigenschaften. Eine kleine Auswahl von Ansätzen soll auf einem Cluster installiert und hinsichtlich ihrer Performance mit Hilfe eines größeren Benchmarks verglichen werden.

Grundlage für die Arbeit sind RDF und SPARQL-Kenntnisse. Grundkenntnisse im Umgang mit Linux wären wünschenswert.

 

Kontakt:  

Dr. Eric Peukert

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

 

References:

http://de.slideshare.net/RobVesse/quadrupling-your-elephants-rdf-and-the-hadoop-ecosystem 

https://jena.apache.org/documentation/hadoop/ 

https://code.google.com/p/hdrs/ 

http://cs.utdallas.edu/semanticweb/Hadoop-RDF/hadoop-rdf.html