Die Herausforderung, genetische Informationen schnell und präzise auszuwerten, steht im Mittelpunkt der Forschung von PD Dr. Katharina Hoff an der Universität Greifswald. Kürzlich wurde sie in das Heisenberg-Programm der Deutschen Forschungsgemeinschaft (DFG) aufgenommen, um damit eine unabhängige Arbeitsgruppe aufzubauen.

Dr. Hoffs Forschung zielt darauf ab, die automatische Vorhersage von Genen in Genomen mithilfe von maschinellen Lernverfahren entscheidend zu verbessern. Sie hat sich auf die Genomannotation spezialisiert, die computergestützt die biologischen Funktionen von DNA-Sequenzen bestimmt, wobei insbesondere proteinkodierende Gene im Fokus stehen.

Werbung
Hier könnte Ihr Advertorial stehen
Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

Entwicklung innovativer Systeme

Ein zentrales Ziel von Hoffs Projekt ist die Entwicklung eines umfassenden Annotationssystems. Dieses System soll in der Lage sein, Millionen eukaryotischer Genome zu analysieren und dabei Gene sowie deren Funktionen und repetitive Elemente zu identifizieren. Die Dringlichkeit dieser Forschung wird durch das internationale Earth BioGenome Project (EBP) unterstrichen, das die Sequenzierung von über 1,5 Millionen eukaryotischen Spezies plant.

Die traditionellen Methoden der Genomdatenanalyse stoßen zunehmend an ihre Grenzen, insbesondere bei unterrepräsentierten Spezies. Dr. Hoff setzt hier auf moderne Foundation-Modelle und maschinelles Lernen, ähnlich den Technologien, die populäre ChatBots nutzen, jedoch speziell angepasst für die Analyse von Genomdaten. Ihr neu entwickeltes Tool „Tiberius“ hat das Potenzial, die Genauigkeit der Genvorhersage erheblich zu steigern.

Die Bedeutung von Genvorhersagen

Die Verbesserung der Genvorhersage ist nicht nur für die Grundlagenforschung von Bedeutung. Sie könnte auch wichtige Auswirkungen auf die Entwicklung neuer Medikamente, die Erhöhung der Pflanzenresistenz und den Schutz gefährdeter Arten haben. Aktuell mangelt es jedoch an einer systematischen Beschreibung der Inhalte der generierten Genomdaten, was dazu führt, dass viele Möglichkeiten ungenutzt bleiben.

Dr. Hoff hat für ihre Software-Pipelines BRAKER und Galba, die zusammen über 4.400 Mal zitiert und 39.000 Mal heruntergeladen wurden, internationale Anerkennung erhalten. Die Heisenberg-Förderung eröffnet nun die Möglichkeit, das Projekt bundesweit an der Universität Greifswald und dem Institut für Mikrobiologie umzusetzen, wobei eine enge Zusammenarbeit mit experimentellen Mikrobiologen für die Validierung der Methoden entscheidend ist.

Technologie und Infrastruktur

Die Universität Greifswald bietet dafür eine moderne Recheninfrastruktur mit Grafikprozessoren (GPUs), die für Deep-Learning-Analysen genutzt wird. In der Entwicklung von Modellen des maschinellen Lernens, die mit Softwarewerkzeugen angelernt werden, ist eine aufwendige Trainingsphase notwendig. Diese wird gefolgt von einer Validierungsphase, bevor die Modelle in Softwaresysteme integriert werden können.

Ein wichtiger Faktor in der maschinellen Lernforschung ist die Datenmenge. Jedes Merkmal benötigt, um analysiert zu werden, mindestens 50 bis 100 Datensätze, sofern die Merkmale bekannt sind oder extrahiert werden können. Mangelnde Merkmale erhöhen diesen Bedarf auf einige Tausend Daten pro Merkmal. Dadurch können sehr große Datenmengen schnell zusammenkommen, was für die Analyse zukunftsweisend ist, wie das Fraunhofer IESE betont.

Mit der Unterstützung des Heisenberg-Programms und der innovativen Forschung an der Universität Greifswald wagt Dr. Katharina Hoff einen vielversprechenden Schritt in die Zukunft der Genomforschung.