ScaDS Logo

COMPETENCE CENTER
FOR SCALABLE DATA SERVICES
AND SOLUTIONS

Titel: Erzeugung und Statistische Bewertung von Multigenomgraphen

Student: Falco Kirchner

Zusammenfassung:

Im Laufe dieser Arbeit wurde ein Programm entwickelt, das es ermöglicht eine ausgewählte Menge an Genomen anhand von MAF- und Annotationsdateien zu analysieren. Dabei spielen allerdings weniger die einzelnen Genomsequenzen eine Rolle, als vielmehr ihre Positionen in den verschiedenen zu untersuchenden Genomen. So kann an wichtige Daten bezüglich der Syntenie gelangt werden, die Aufschlüsse über evolutionäre Entwicklung und Verwandtschaftsbeziehungen zwischen diesen Arten liefern. Zur Veranschaulichung und späteren Verwendung wurde ein gerichteter Multigraph erzeugt, der alle Sequenzen pro Spezies in ihrer ursprünglichen Reihenfolge enthält.

 

Um die Qualität der Informationen zu sichern, die aus diesen Ergebnissen hervorgehen, wurden Lücken und Überlappungen in den untersuchten Genomen ausfindig gemacht und analysiert. Aber auch vorhandene Sequenzen wurden einer Qualitätskontrolle unterzogen. So mussten sie verschiedene Kriterien erfüllen, zum Beispiel eine bestimmte länge überschreiten oder einen minimalen Score übertreffen, ansonsten sind sie entfernt worden. Schließlich wurde über alle nicht vorhandenen und aussortierten Alignments Statistik geführt, um Filter und Ergebnisdaten anhand von Annotationsdaten und berechneter Entropie zu verifizieren.

 

Weiterführend wäre es von Nutzen, die eben erwähnten Annotationsdateien zu überprüfen, da es dort zu starken Qualitätsunterschieden kommen kann. Gegebenenfalls sind hochwertigere oder zusätzliche alternative Dateien zu verwenden. Außerdem könnten die als Gene identifizierten Sequenzen in Exons und Introns zerlegt und deren Informationsgehalt getrennt voneinander betrachtet werden, wenn das die entsprechenden Annotationsdateien hergeben. So könnte zum Beispiel größerer Wert auf Exon-Sequenzen gelegt werden, die dann von Filtern seltener aussortiert werden dürften. Des Weiteren kann darüber nachgedacht werden, weitere Filter und einen, der Datenmenge angepassten, Sortieralgorithmus zu entwerfen.