Vortragsdetails

Experimenteller Vergleich von Goal-Conditioned Reinforcement Learning und Contextual Policy Search

Generalisierung von Informationen ist weiterhin ein Problem für aktuelle (Deep) Reinforcement Learning Algorithmen. Die Notwendigkeit dafür liegt u.a. in schwer zugänglichen Umgebungen mit spärlichen Belohnungen begründet, bei denen der Agent Schwierigkeiten bekommt sein Ziel zu finden, da er über eine lange Strecke keine verwendbaren Belohungen erhält, die ihn leiten können. Außerdem sind gerade bei Problemen mit realen physischen Systemen, wie z.B. einem Roboter, die Anzahl der Ausführungen begrenzt, da sie mühsam und teuer zu erlangen und oft auch schwer zu reproduzieren sind.

Verfahren und Erweiterungen von Algorithmen die sich deshalb mit der Generalisierung von Informationen beschäftigen sind von entscheidender Bedeutung für die Skalierung von Agenten in komplexen Umgebungen. Zwei Erweiterungen die hier näher betrachtet werden und den Stand der Forschung in ihrer Teildisziplin darstellen sind "Hindsight Experience Replay" und "Factored Contextual Policy Search with Bayesian Optimization" und versuchen über unterschiedliche Algorithmen im Grunde dasselbe zu erreichen: Sie werten bereits gesammelte Interaktionen im Hinblick auf ein anderes Ziel oder einen anderen Kontext aus.

Ein Vergleich dieser beiden Erweiterungen steht weiter aus und soll Ziel dieser Arbeit sein.

In der Regel sind die Vorträge Teil von Lehrveranstaltungsreihen der Universität Bremen und nicht frei zugänglich. Bei Interesse wird um Rücksprache mit dem Sekretariat unter sek-ric(at)dfki.de gebeten.

© DFKI GmbH
zuletzt geändert am 30.07.2019
nach oben