26.02.2025, 16:00 Uhr
Universität Wien
Besprechungsraum 4.34
Währinger Str. 29
1090 Wien
Titel:Learning When to Plan
Kurzfassung:
Verstärkendes Lernen (Reinforcement Learning, RL) Algorithmen haben aufgrund ihrer
beeindruckenden Leistung und breiten Anwendbarkeit in verschiedenen Bereichen große
Aufmerksamkeit erlangt. Ein prominenter Algorithmus, der sich auf Spiele konzentriert,
AlphaZero, kombiniert neuronale Netzwerke mit Monte Carlo Tree Search (MCTS), um
das Lernen zu beschleunigen. Allerdings kann das feste Suchbudget von AlphaZero (d.h.
die Anzahl der MCTS-Suchspuren) zu Ineffizienzen führen, indem zu viel Planung auf
vorhersehbare Ergebnisse und zu wenig auf unsichere Ergebnisse verwendet wird.
In dieser Arbeit schlagen wir Änderungen am AlphaZero-Algorithmus vor, um das
Suchbudget dynamisch basierend auf der geschätzten Unsicherheit in seinen Komponenten
– dem neuronalen Netzwerk und MCTS – anzupassen. Um die Unsicherheit des neuronalen
Netzwerks zu schätzen, erweitern wir AlphaZero unter Verwendung von Prinzipien aus dem
distributionellen Verstärkungslernen, wobei die Varianz in den Quantilen als Unsicherheit
betrachtet wird. Die Unsicherheit von MCTS wird basierend auf der Tiefe und Größe von
Teilbäumen geschätzt. Diese Unsicherheiten werden dann von einem Deep Q-Network
(DQN)-Agenten genutzt, um das Suchbudget bei jedem Schritt anzupassen.
Unser vorgeschlagener Ansatz wird an den CartPole- und MinAtar-Umgebungen unter
Verwendung von AlphaZero und DQN als Baselines evaluiert. Die Ergebnisse zeigen, dass
die dynamische Zuweisung der Anzahl von Suchspuren basierend auf Unsicherheit die
Effizienz des Algorithmus verbessert, was durch ein verbessertes Verhältnis von Belohnung
pro Suchspur belegt wird. Darüber hinaus, obwohl unsere Änderungen zusätzliche
Rechenkosten eingeführt haben, wurde die Gesamt-Laufzeit in bestimmten Umgebungen
reduziert, während die Baseline-Leistung in Bezug auf die Gesamtbelohnung beibehalten
oder sogar übertroffen wurde.