ScaDS Logo


Big Data Reference architectures: Are they really needed?

Reference architectures are a key research topic in business information systems. They try to simplify software development by reusing architectural and software components. But reusability leads also to a trade-off in making reference architectures on a higher level to reuse it in many domains and applications. Or to concentrate them on a subject and hence easier to reuse.

In this blog post we discuss, whether big data references architectures are really needed. Our hypothesis is that current big data reference architectures are not sufficient to provide real benefit for implementing big data projects.

Weiterlesen ...

Big Data Frameworks on highly efficient computing infrastructures

Big Data analysis frameworks on highly efficient computing infrastructures

Big Data is usually used as a synonym for Data Science on huge datasets and dealing with all kinds of obstacles coming with that. Having access to a large amount of data offers a high potential to find more accurate results for many research questions. Moreover, the ability to handle Big Data volumes may facilitate solutions to previously unsolved problems. However, many research groups have not the necessary facilities to run large analysis jobs using computing resources they have access to at their home institution. Furthermore, the installation, administration and maintenance of a complex and agile software stack for data analytics is often a challenging task for domain scientists. One of the key issues of the Big Data competence center ScaDS Dresden/Leipzig is therefore to provide multi-purpose data analytics frameworks for research communities, which can be used directly at the computing resources of the Center for Information Services and High Performance Computing (ZIH). Using the high performance computing (HPC) infrastructure of ZIH, ScaDS Dresden/Leipzig members and collaborating researchers can run their data analytics pipelines massively in parallel on modern hardware. The following general purpose data analytics frameworks are currently available:

  • Apache Hadoop
  • Apache HBase
  • Apache Flink
  • Apache Spark
  • Apache Pig

Weiterlesen ...

OSTMap - Open Source Tweet Map


It is often necessary to build a proof of concept to show the ease and feasibility of Big Data to customers / project promoters or colleagues. With OSTMap (Open Source Tweet Map) mgm partners with the ScaDS to prove that it is possible to accomplish a lot with the right choice of technologies in a short time frame.

Weiterlesen ...

Big Data Cluster in “Shared Nothing” Architecture in Leipzig

The Galaxy Cluster

The state of Saxony funded a notable shared nothing cluster located at the University of Leipzig and the Technical University of Dresden. Here we want to give a short overview on this new “Galaxy” cluster which is a very nice asset for ScaDS.

Shared nothing is probably the most referenced architecture when talking about big data. The idea behind this cluster architecture is to use large amounts of commodity hardware to store and analyze big amounts of data in a highly distributed, scalable and cost effective way. It is optimized for massive parallel data oriented computations using e.g. Apache Hadoop, Apache Spark or Apache Flink.

Cluster Facts Overview:

Weiterlesen ...

Introduction to Privacy Preserving Record Linkage

 Many companies and organizations collect a huge amount of data about people simple by offering their services in form of online applications. Another “more official” way to gather such data is asking the people (by the mean of printed forms) as is the case in hospitals and administration. In both cases each data owner holds information that cover only one or few aspects of each person. However, analyzing such data and mining interesting patterns or improving decision making processes generally require clean and aggregated data, which are held by several organizations. Record linkage operates as a preprocessing step for these tasks with the main goal to find records, stored in different databases, which refer to the same real world object or person. This process finds application in many areas like healthcare, national security or business. In healthcare for example, linking records from two or more hospitals allows the adaptation of disease’s treatment of patients.

The main impediment when linking person related data across many organizations is the privacy aspect.  In several countries processing such data is subject to strict privacy policies, e.g. how and where to store the data and whether or not such data can be exchanged with a third party. Privacy Preserving Record Linkage (PPRL) presents techniques and methods to efficiently link similar records in different databases without compromising the privacy and confidentiality.

Weiterlesen ...

Webcrawling gebäuderelevanter Informationen

Für die Planung von Städten, Infrastruktur oder Energieversorgung  werden kleinräumige  Informationen  bis auf Gebäudeebene benötigt. Eine besondere Rolle spielen Referenzinformationen zur Gebäudeform, Nutzung, Baualter, Zustand oder der Geschossigkeit des Gebäudes, auf deren Basis mit Hilfe räumlicher Modellierungsansätze Verteilungsmuster von Wohnungen, Einwohnern, Arbeitsstätten  und  Infrastrukturen kartiert oder energetische Bedarfe abgeschätzt werden können. Die Erhebung dieser Referenzdaten ist allerding nur durch Ortsbegehung möglich und damit sehr aufwändig. Eine weitere Möglichkeit zur Sammlung dieser Informationen bietet die automatisierte Auswertung nutzergenerierter Inhalte und Bilder (z.B. OpenStreetMap, Mapillary, WikiMapia). Im Kontext von Gebäuden spielt hier WikiMapia eine besondere Rolle, da diese Platform neben Daten zur Gebäudenutzung auch georeferenzierte Street View Daten hinterlegt werden können. Über eine API lässt sich der Inhalt strukturiert auslesen.
Ziel war darum die Entwicklung eines WebCrawlers zum strukturierten Auslesen von gebäudebezogenen Inhalten. Dabei liegt das Hauptaugenemerk auf Eigenschaften wie Name, Art, Alter, etc. und natürlich auch auf den georeferenzierten Bildern, die für einen Teil der Gebäude vorliegen. Mit Hilfe des Programms wird zunächst selbständig eine Verbindung zum Wikimapia Tool aufgebaut. Über eine Abfrage kann vom Nutzer räumlich über Koordinaten oder auch semantisch durch Auswahl bestimmter Inhalten (z.B. mit Fokus auf bestimmte Gebäudetypen) die Inhalte ausgelesen und in einer Ausgabedatei gespeichert werden. Die Umsetzung des Programms erfolgte in der Programmiersprache Java unter Nutzung der Bibliotheken von und in der Entwicklungsumgebung Eclipse-Luna. Dem Anwender steht eine ausführbare .jar Datei zur Verfügung, die kommandozeilenbasiert mit dem Befehl java -jar wikimapia.jar ausführbar ist. Des Weiteren kann der Nutzer Parameter mitgeben, mit der die Abfrage räumlich und semantisch gesteuert wird. Das Programm läuft sowohl unter Linux als auch unter Windows (getestet unter Windows 7).



Moritz Haferburg: Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

Robert Hecht: Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

Versioning system for modeling environmental data based on an automatic meta-data generation strategy

The Helmholtz-Centre for Environmental Research (UFZ) is one of the world's leading research centres in the field of Earth system science. The Department of Environmental Informatics of the UFZ develops software for the simulation of environmental phenomena via coupled thermal, hydrological, mechanical and chemical processes by using innovative, numerical methods. Examples include the prediction of groundwater contamintion, the development of water management schemes or the simulation of innovative means of energy storage. The modeling process is a complete workflow, starting with data acquisition and -integration to process simulation to analysis and visualization of calculated results.

Unfortunately this modeling process is not transparent and traceable and often poorly documented. A typical model is developed over many weeks or months and usually  a large number of revisions are necessary for updating and refining the model such that the simulation is as exact as possible. The first setup of a model is often used to get an overview over existing data and to detect potential problems in both data and numerical requirements. Further revisions try to solve these problems by adding data, refining or adjusting finite element meshes or updating and ajusting processes and their parametrization. Both input- and parameter files range from few/small files up to hundreds of files containing detailed spatial, temporal or numerical information. Likewise, changes from one modeling step to the next may be small (e.g. one parameter value in a single input file) or major (e.g. geometrical input changes and requires a new discretization of the FEM domain as well as a new parameterization).

Weiterlesen ...

Dynamics of Open Quantum Systems

The description of the dynamics of open quantum systems is subject of ongoing research in theoretical quantum physics (solid state physics, quantum optics, quantum chemistry). Real (quantum) systems are never perfectly isolated from environmental fluctuations or forces. In case of weak environmental influence various approaches have been developed. By contrast this project focuses on the description of open quantum systems facing a significant influence of structured surroundings. Examples of experimental implementation can be found in energy transfer processes in molecular aggregates ([1],[2]) or quantum bits in solids ([3], [4]). Here, an exact and complete quantum mechanical description would be desirable. However, due to the exponential growth of Hilbert space dimensions of many-body quantum systems limits of computational resources are reached soon. We attack this challenge by means of a stochastic Schrödinger equation.

Weiterlesen ...

Multiskalen-Visualisierung – Der Schlüssel zu einem besseren Werkstoffverständnis

Bei der rechnergestützten Auslegung von Faserverbunden für Leichtbaustrukturen muss deren hierarchischer Aufbau berücksichtigt werden: ausgehend von Faser und Matrix, über den Roving, das Verstärkungstextil, die Einzelschicht bis hin zum Mehrschichtverbund. Dieser hierarchische Gedanke setzt sich über das Fügen von Komponenten zu einer Struktur und der Interaktion mehrerer Strukturen in einem System fort. Bei der Entwicklung müssen für jede dieser Skalen geeignete Simulationsmodelle bereitgestellt werden. Eine modellübergreifende, durchgängige Visualisierung der einzelnen Berechnungsergebnisse ist bisher jedoch nicht möglich.
Im Rahmen des Vorhabens „ScaDS Dresden/Leipzig - Competence Center for Scalable Data Services and Solutions“ haben das Institut für Leichtbau und Kunststofftechnik und die Professur für Computergraphik und Visualisierung (beide TU Dresden) eine browserbasierte Software entwickelt, die erstmals eine konsistente Visualisierung der Ergebnisse über alle Skalen hinweg erlaubt (Abbildung 1). Damit kann das Potenzial einer Multiskalen-Visualisierung zur Verbesserung des Werkstoffverständnisses aufgezeigt werden.  Grundlage sind die Simulationsdaten, die bei der Entwicklung einer adaptiven Blattfeder im SFB639 entstanden sind.
Im Video werden der Funktionsumfang sowie die Vorteile der browserbasierten Software aufgezeigt. Die Software wird einem breiten Spektrum an potenziellen Anwendern auf der Composite Europe – 11. Europäische Fachmesse & Forum für Verbundwerkstoffe, Technologien und Anwendungen, 29.11. - 1.12.2016, Messe Düsseldorf vorgestellt.  Dann können die Interessenten selbstständig die Software bedienen und sich einen eigenen Eindruck von deren Möglichkeiten machen.

Weiterlesen ...

Graph Mining für fortgeschrittene Datenanalysen

Um komplexe analytische Fragestellungen zu beantworten, werden Data Mining-Verfahren oft mit anderen Schritten der Datenverarbeitung kombiniert, zum Beispiel zur Vorbereitung des Suchraums oder zur Nachbearbeitung der Ergebnisse. Um die Kombination von Data Mining-Algorithmen mit anderen Operatoren zu ermöglichen, bieten produktive Lösungen zur Analyse relationaler oder multidimensionaler Daten meist umfangreiche Toolkits an. Anders ist das in Bezug auf die weniger etablierten Verfahren des Graph Mining. Hier existieren zwar Forschungsprototypen, aber keine Lösung, die komplexe analytische Programme aus mehren Graphoperationen unterstützt. Das an der Universität Leipzig und dem ScaDS Dresden/Leipzig entwickelte Open Source System Gradoop hat sich zum Ziel gesetzt, dies zu ändern. Gradoop ist das erste System, welches es ermöglicht, in einfachen Skripten ein oder mehrere Graph-Algorithmen mit weiteren vor- und nachgelagerten Graph-Operatoren zu kombinieren. Hierdurch werden neuartige Anwendungsfälle möglich, zum Beispiel die nachfolgend gezeigte Analyse von Geschäftsdaten. Durch den Einsatz aktueller Big Data-Technologie bietet Gradoop nicht nur einen einzigartigen Funktionsumfang, sondern ist auch out-of-the-box horizontal skalierbar. Zudem bietet es eine Schnittstelle für Plug in-Algorithmen und ist damit offen für anwendungsspezifische Erweiterungen.

Weiterlesen ...

Halloween Tutorial: How to do Vertex-Centric Iteration (Pregel) with Gelly

At the 2nd International ScaDS Summer school on Big Data we offered a couple of workshops with the aim to provide an introduction into the three Big Data technologies MongoDB, Flink and Gelly. This post is an extension of the Gelly tutorial to demonstrate the new feature of Gelly: the Vertex-Centric Iteration or Pregel Iteration. 

Find out which child is getting the largest amount of candies in our Halloween-Special of Trick-or-treat...

Weiterlesen ...

Connecting Digital Humanities with the CLARIN Infrastructure

One of the questions that I am often confronted with when presenting my work is what my work has to do with BigData, when the biggest text collections that I have to deal with fill only a couple of Gigabyes of hard disk space. The reason for this question is the argument that BigData has to have to do with large amounts of data and BigData related problems have to deal with at least Tera- or Petabytes of stored information. As understandable and right as this argument is, there is actually a whole lot more to BigData than just the question of the size of a data set and with this article I want to explain what it is and - hopefully - answer the question in a satisfactory manner.

Weiterlesen ...

Sierra Platinum

We present the latest result of our research:

Sierra Platinum is a fast and robust peak-caller for replicated ChIP-seq experiments with visual quality-control and -steering. It allows to generate peaks while the user influences, which replicates are most suitable for creating them. The results show that the new method outperforms available tools and methodologies.

Weiterlesen ...

Automatisierte Siedlungserkennung in topographischen Karten


Die Analyse von Siedlungsstrukturen, Bausubstanz und Gebäudenutzung, gehört zu den Kernaufgaben der Raum- und Landschaftsplanung. Relevante Anwendungsgebiete sind z.B. städtebauliche Maßnahmen, Planung von Verkehrswegen und Infrastruktur, Naturschutzplanung oder die Erstellung von Gefahrenkarten bei Naturkatastrophen. Die größte zentralisierte und zumindest europaweit flächendeckend verfügbare Datengrundlage für solche Untersuchungen, stellen topographische Karten dar. Dabei spielen sowohl aktuelle als auch historische Karten eine Rolle. Letztere dienen zur Analyse von historischen Entwicklungen sowie zu langfristigem Monitoring von Siedlungsstrukturen und Landnutzung. Ein entscheidender Schritt bei der Analyse von Katenmaterial ist die Erkennung von Siedlungen, das heißt die Aufteilung der untersuchten Region in Siedlungs- und Nicht-Siedlungsgebiete (automatische Segmentierung topographischer Karten).

Weiterlesen ...

Memories of our ScaDS summer school

Do you remember the ScaDS summer school 2016 in Leipzig? Seven weeks ago we heard a lot of interesting talks about the Big Data topic, hands-on sessions with new frameworks but also a lot of fun... Sightseeing, traditional german food and of course our fantastic trip with canoes and dragonboats on the waters of Leipzig. To refresh your memories, Jörn created a great video of our trip.

Weiterlesen ...

Using Apache Flink CEP for real-time logistics monitoring

With the increasing distribution of smart devices and sensor systems it is now possible to get data and context information of any element of the real-world. The Internet of Things (IoT) is synonym of this trend, which also becomes a social meaning because it affects all areas of everyday life. But of course this trend provides massive possibilities to improve our life, as well as our companies. So for example real-time insights into business processes are getting more important in recent times. With the right information and only short delays between certain incidents decision makers on operational level are able to quickly react and adapt changes to the processes. Thus, companies with in-depth knowledge of their processes have options to optimize their business as well as to offer new service levels for customers and increase earnings.

Weiterlesen ...

Successful ScaDS Big Data School in Leipzig - a Report

From 11th to 15th of July 2016 the Big Data Center of Excellence (ScaDS Dresden/Leipzig)  hosted its first summer school for Big Data in Leipzig. The program attracted many students and young graduates, as well as other academic and industrial practitioners and researchers that operate in the field of Big Data. We were overwhelmed with the number of registrations and the many speakers that were willing to support us in our summer school. While we initially planned with 50 attendees in total we finally counted 120 people on our summerschool including speakers and short-term attendees throughout the week. Surprisingly more than 50% of attendees were international coming from all continents. 

Weiterlesen ...

ScaDS Big Data Industry Forum at BIS-Conference in Leipzig

On 8 July 2016, the Scads Big Data Industry Forum was held in Leipzig. In conjunction with the 19th International Conference on Business Information Systems various projects related to Big Data were presented by young but also renowned software companies.

Weiterlesen ...

ScaDS zu Besuch beim Akademischen Club Leichtbau e.V. an der TU Dresden

Die zentrale Aufgabe des Service Center ist die Förderung des interdisziplinären Austausches und der Kooperation zwischen Informatik und Experten der Anwendungsforschung. Daraus sollen neue Anwendungsfelder für die entwickelten Methoden erschlossen werden aber auch neue Herausforderungen identifiziert werden.

Weiterlesen ...

Diplomarbeit von Daniel Schemala "Semantische Segmentierung historischer topographischer Karten" abgeschlossen

Herr Daniel Schemala hat im März seine Diplomarbeit zum Thema Semantische Segmentierung historischer toppographischer Karten abgeschlossen. Er hat darin ein Programm entwickelt, das es ermöglicht, Scans historischer Karten in Siedlungs- und Nicht-Siedlungsgebiete zu unterteilen. Die dabei verwendeten Methoden stammen aus den Bereichen des Maschinellen Lernens und der Computer Vision. Betreut wurde die Arbeit von Herrn Hendrik Herold vom IÖR (Leibnitz-Institut für ökologische Raumplanung) und von Herrn Dmitrij Schlesinger vom Computer Vision Lab der TU Dresden.

Weiterlesen ...