05.12.2025, 09:00 Uhr
Universität Wien
Seminarraum “Rachel Carson” (SR5.43)
Alte WU
Augasse 2-6
1090 Wien
Titel: reComBat-seq: Removing batch effects of large datasets with
regularized negative binomial regression
Kurzfassung:
Durch die stetig wachsende Zahl an RNA-seq-Studien (RNA-Sequenzierung) steht heute
eine große Menge an Omics-Daten zur Verfügung, die vielfältige Forschungsmöglichkeiten
bietet, jedoch auch bedeutende rechentechnische Herausforderungen bei der präzisen
Analyse mit sich bringt. Die Korrektur technischer Störsignale, sogenannter Batch-Effekte,
ist insbesondere bei der Integration großer Datensätze von entscheidender Bedeutung,
da Unterschiede in der Probenverarbeitung zwischen Batches wahre biologische Signale
überdecken und aussagekräftige Vergleiche erschweren können.
Methoden wie ComBat (für Microarray-Daten) und ComBat-seq (für Zähldaten) korrigieren
Batch-Effekte mithilfe von Regressionsansätzen, erreichen jedoch bei großen
Datensätzen mit vielen experimentellen Bedingungen ihre Grenzen, da dünnbesetzte
hochdimensionale Designmatrizen entstehen. Bei stark korrelierten Batch-Designs kann
ComBat keine eindeutige Lösung finden. Um dieses Problem zu lösen, erweitert reComBat
den Ansatz von ComBat durch Regularisierung mittels Elastic Net und ermöglicht so
die Analyse von unterbestimmten Datensätzen. Da reComBat eine Normalverteilung
voraussetzt und die ursprüngliche Datenverteilung verändert, ist seine Anwendbarkeit auf
nicht normalverteilte Zähldaten und Downstream-Analysen begrenzt.
Diese Masterarbeit untersucht die mathematischen Grundlagen der Elastic-Net Regularisierung
und integriert sie in das negative binomiale Regressionsmodell von ComBat-seq, um
auch Datensätze mit stark korellierten Prädiktoren verarbeiten zu können. Das daraus resultierende
Tool reComBat-seq (regularisiertes ComBat-seq) wurde in R basierend auf dem
Ansatz von reComBat implementiert und gegen bestehende Batch-Korrekturmethoden getestet.
Wir demonstrieren das Potenzial von reComBat-seq anhand simulierter und realer
RNA-seq-Datensätze und zeigen, wie es die Integration und Analyse von unterbestimmten
RNA-seq-Daten ermöglicht. Die Methode bewahrt die ganzzahlige Struktur der Zähldaten,
was die Kompatibilität mit verschiedenen Pipelines zur differentiellen Expression
gewährleistet und erreicht eine vergleichbare Leistung zu etablierten Methoden, insbesondere
bei einfacheren experimentellen Designs. Durch Fein-tuning könnte reComBat-seq
sein Einsatzspektrum auf komplexere Designs ausweiten und so eine zuverlässigere und
skalierbarere Integration von RNA-seq-Daten ermöglichen.
