© Daniel Molitor
1
2
Datenanalyse für Next Generation Sequencing Next Generation Sequencing ist die zweite Generation von Maschinen zur Bestimmung der
1 De novo Assembly von
Erbinformation, die in jeder Zelle eines Lebewesens vorhanden ist. Diese Erbinformation ist
Guignardia bidwellii: be-
durch die Abfolge von Basenpaaren der Desoxyribunokleinsäure (DNS) gegeben. Frühere Me
rechnetes DNA-Scaffold
thoden zum einmaligen Auslesen dieser Basenpaarfolge im menschlichen Genom verschlangen
mit Alignment der origina-
Millionen von Dollar und erstreckten sich über einen Zeitraum von mehreren Jahren bis Jahr
len Short Read-Sequenzen
zehnten (Human Genome Project, 1990 – 2003). Mit den seit etwa 2005 zur Verfügung ste
(Bild erzeugt mit Tablet
henden neuen Technologien kann nun das individuelle Genom eines Menschen in nur wenigen
Alignment Viewer)
Tagen ermittelt werden. Diese rasante Entwicklung auf dem Gebiet der DNA-Sequenzierung wird sicher weitergehen.
2 Schwarzfäule der Rebe: Befall mit Guignardia bid-
Schon heute liefern die neuen Sequenziermaschinen eine kaum noch vorstellbare und auch
wellii
mit neuesten Computerclustern nur schwer handhabbare Datenflut. Die Technologie der Ma schinen erlaubt nur das Auslesen von sehr kurzen DNA-Fragmenten (25 – 100 Basenpaare), weil sonst die Fehlerrate extrem ansteigen würde. Daher muss ein Genom, das üblicherwei se aus Strängen von mehreren Millionen Basenpaaren Länge besteht, erst in Millionen kleine Fragmente zerstückelt werden. Die Auswertung aller Fragmente für einen einzelnen Versuch führt nicht selten zu Rohdaten in einer Größenordnung von Terabytes. Diese müssen nachträg lich mit bioinformatischen Methoden in verwertbare Informationen umgesetzt und zu dem ge samten Genom zusammengefügt werden. Das ITWM verfügt selbst nicht über Sequenziermaschinen, doch mit seiner Ausstattung an Hochleistungsrechnern bieten sich ideale Voraussetzungen, um die Problematiken der Daten analyse im Bereich Next Generation Sequencing anzugehen und zu lösen. Einerseits können durch die Bereithaltung von Standardsoftware routinemäßig anfallende Aufgaben in sehr kur zer Zeit gelöst werden. Andererseits bietet das ITWM durch seine Kompetenz in Bioinformatik und Biomathematik (auch in Zusammenarbeit mit der Systembiologiegruppe des FraunhoferChalmers Centre FCC in Göteborg) individuell angepasste Lösungen. In einem Benchmark-Test konnte die Sequenzierung eines menschlichen Genoms mit vierzigfacher Überdeckung in fünf Stunden (single-end de novo assembly) bzw. drei Tagen (paired-end de novo assembly) durch geführt werden. In einem laufenden Projekt mit dem IBWF in Kaiserslautern werden Sequenz daten des Pilzes Guignardia bidwellii untersucht. Der aus Nordamerika stammende Pilz befällt seit 2002 zunehmend auch heimische Weinreben und richtet dadurch erheblichen Schaden an. Die im Projekt geplante Analyse seines Genoms (De novo Sequenzierung, Bestimmung von Open Reading Frames, Homologiesuche und Annotation, Genexpressionsanalyse in verschiede nen Stadien des Pilzes) kann zur Entwicklung neuer wirksamer Fungizide beitragen. 51