Masterprüfung mit Defensio, Felix Krause

11.12.2025 09:00 - 10:30

Universität Wien

Besprechungsraum 4.34

Währinger Str. 29

1090 Wien

11.12.2025, 09:00 Uhr

Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien

Titel: Benchmarking and Optimizing Deep Learning Architectures for
Protein-to-mRNA Ratio Prediction

Kurzfassung:
In der Entwicklung von Gentherapien und mRNA-basierten Impfstoffen ist die gezielte Optimierung
von mRNA-Sequenzen zur Steigerung der Proteinsynthese in menschlichen Zellen von zentraler Bedeutung.
In diesem Kontext dient das Verhältnis von Protein zumRNA(PTR-Ratio) als nützlicher Proxy
zur Abschätzung der Translationseffizienz. Die vorliegende Masterarbeit untersucht systematisch die
Leistungsfähigkeit von neun modernen Deep-Learning-Architekturen sowie einfachen Baselines bei
der Klassifikation, ob eine gegebene mRNA-Sequenz in 29 verschiedenen menschlichen Geweben zu
einer niedrigen oder hohen PTR-Ratio führt. Alle Modelle wurden auf einem Datensatz von 11.000
mRNA-Sequenzen mit einem 70/15/15-Split für Training, Validierung und Test trainiert bzw. evaluiert.
Die Modellleistung wird anhand der Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC)
bewertet. Aufbauend auf dem leistungsstärksten Backbone-Modell wird PTRnet eingeführt, eine erweiterte
Version der CNN-basierten RiboNN-Architektur. PTRnet integriert zusätzlich Informationen
über die Sekundärstruktur der mRNA, domänenspezifische Trainingsstrategien sowie Unsupervised
Pretraining. Während mehrere sequenzbasierte Modelle eine gewisse Generalisierungsfähigkeit zeigen
– etwa RiboNN mit einer Test-AUCvon 69,1% und PTRnet mit 68,6% – ist ihre Qualität durch frühes
Overfitting im Trainingsprozess limitiert. Ein einfaches Multilayer-Perceptron (MLP), das lediglich auf
Codonhäufigkeiten basiert, erreicht allerdings eine deutlich höhere Test-AUCvon 72,2% und übertrifft
damit sowohl dieRandom-Forest-Baseline (66,8%) als auch das komplexere, pretrainedPTRnet. Diese
Ergebnisse deuten darauf hin, dass die untersuchten Deep-Learning-Modelle Schwierigkeiten haben,
subtilere Muster zu erfassen, die über die in den Codonfrequenzen enthaltenen Informationen hinausgehen.
Letztere enthalten offenbar bereits den Großteil der Information, die zur Unterscheidung
zwischen niedriger und hoher Proteinexpression erforderlich ist.
Quellcode: github.com/f-krause/master-thesis

Organiser:

SPL 5

Location:

Besprechungsraum 4.34

Währinger Straße 29
1090 Wien