Fabrice von der Lehr, Philipp Knechtges und Achim Basermann haben im September 2023 gemeinsam mit Kolleginnen und Kollegen des Karlsruher Instituts für Technologie und des Forschungszentrums Jülich das Paper "RNA Contact Prediciton by Data Efficient Deep Learning" in der Zeitschrift "Communications Biology", Teil der Nature Communications Gruppe, veröffentlicht:
RNA contact prediction by data efficient deep learning | Communications Biology (nature.com)
Im Projekt „ProFiLe“ entwickelte das interdisziplinäre Forschungsteam eine computergestützte Methode zur Vorhersage von RNA-Strukturen. Eine Aufgabe mit potenziell weitreichenden Auswirkungen, da RNA in allen lebenden Organismen vorkommt und eine entscheidende Rolle bei verschiedenen biologischen Prozessen spielt, wie z.B. bei der Proteinsynthese und der Genregulation und vielem mehr. Die Ergebnisse sind beeindruckend, da das Konzept einen Durchbruch bei der Verringerung der Sequenz-zu-Struktur-Lücke für RNA darstellen könnte und auf andere Aufgaben verallgemeinerbar ist.
Die Vorhersage der RNA-Faltung ist ein komplexes Problem, da sich die Moleküle in eine große Anzahl möglicher dreidimensionaler Strukturen falten können. Da es biochemisch experimentell schwierig ist, Informationen aus der RNA zu extrahieren, ist die Datenbasis für den Start des Deep-Learning-Zyklus recht klein. Mit den begrenzten verfügbaren Daten konzentrierte sich die Forschungsgruppe auf die Vorhersage von räumlichen Nachbarschaften, die als „contact maps“ bekannt sind und die Grundlage für die Vorhersage der 3D-Struktur bilden.
Die Studie befasst sich mit dem Bereich des selbstüberwachten Lernens für RNA-Multiple-Sequence-Alignments, wobei ein besonderer Schwerpunkt auf der Vorhersage von Kontakten aus latenten „attention maps“ liegt. Durch die Einführung von “ boosted decision trees“ wurde die Qualität der Kontaktvorhersagen erheblich verbessert, die durch eine Feinabstimmung des vortrainierten Backbones weiter verfeinert wurden.