Masterprüfung mit Defensio, Alexander Tampier

17.12.2025 11:30 - 13:00

Universität Wien

Besprechungsraum 2.38

Kolingasse 4-6

1090 Wien

17.12.2025, 11:30 Uhr

Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien

Titel: Enhancing Language-Model Pre-training Datasets: Data
Augmentation Inspired by Human Language Acquisition

Kurzfassung:
Große Sprachmodelle basieren oft auf Hunderten von Milliarden Wörtern aus hochwertigen
Trainingsdaten. Im Gegensatz dazu ist der Spracherwerb beim Menschen
wesentlich e!zienter und nutzt sprachspezifische Muster. Angesichts dieser Diskrepanzen
wurde RecombiText Augmentation eingeführt. RecombiText Augmentation ist eine
neuartige, nicht-neuronale, korpusabhängige Methode zur kompositorischen Datenanreicherung,
mit der Trainingsdatensätze für Sprachmodelle in ressourcenarmen Szenarien
ausschließlich anhand von Korpusstatistiken erweitert werden können. Inspiriert vom
menschlichen Spracherwerb und genetischen Algorithmen generiert es synthetische Sätze
durch kompositorische Rekombination des verfügbaren Textes. Die Methode identifiziert
ähnliche Sätze innerhalb eines Korpus auf der Grundlage eines Suchsatzes unter
Verwendung gemeinsamer Wörter und Bedeutungen durch einen hybriden Suchprozess.
Anschließend wendet sie mit Hilfe eines semantischen Kontextfensters eine Rekombination
zwischen den beiden Sätzen an, um neuartige augmentierte Sätze zu generieren. Zwei
Transformer-Sprachmodellarchitekturen werden auf einem ressourcenarmen domänenspezifischen
Datensatz von 10 Millionen Wörtern trainiert. Eine Basislinie wird mit den
ursprünglichen Trainingsdaten und sechs gemischten Varianten definiert, die jeweils einen
Teil der ursprünglichen Trainingsdaten und einen generierten erweiterten Teil enthalten.
Die Wirksamkeit der vorgeschlagenen Methode wird auf zwei Arten bewertet. Erstens
wird die Datenqualität durch Quantifizierung der Vorhersagbarkeit und Vielfalt des generierten
Textes bewertet. Zweitens wird die Leistung des Sprachmodells anhand von
linguistischen Zero-Shot- und Fine-Tuning-Aufgaben bewertet. Die Experimente zeigen
Verbesserungen bei den Benchmarks für morphologische Generalisierung, im Tracking
von Entitätszuständen, Lesen und grammatikalischem Verständnis. Die verfügbaren
Trainingsdaten können verdoppelt oder sogar vervierfacht werden, ohne die Leistung
des Sprachmodells zu beeinträchtigen. In einigen Fällen werden damit sogar bessere
Ergebnisse in Benchmarks erzielt als mit den Originaldaten allein. Insgesamt ist RecombiText
Augmentation in der Lage, Trainingsdatensätze für Sprachmodelle in Szenarien
mit geringen Ressourcen zu erweitern.

Organiser:

SPL 5

Location:
Kolingasse