Bei komplexen Reinforcement Learning Anwendungen stößt man auf das Problem eine Reward-Funktion zu definieren, da Reward-Funktionen umfangreiches Fachwissen erfordern oder zu unerwünschten Verhalten führen können. Um dieses Problem zu umgehen, werden Ansätze erforscht, welche den Menschen aktiv in den Lernprozess des Roboters einbeziehen, indem der Mensch z.B. das ausgeführte Verhalten des Roboters bewertet.
Allerdings ist die Art, wie der Mensch seine explizite Bewertung abgeben kann ausschlaggebend für die Performanz des Lernprozesses. Eine einfache numerische Bewertung in Form von Zahlen (z.B. 1 bis 10) kann zu Problemen führen, wenn sich diese nicht während des Lernprozesses erweitern lässt, da es dem Menschen nicht möglich ist, seine Bewertung weiter abzusenken, nachdem er das untere Limit erreicht hat. Ein weiteres Problem ist, dass sich der Mensch viele bereits gegebene Bewertungen merken muss, um eine geeignete zukünftige Bewertung abzugeben, was aufgrund der geringen Merkspanne des Menschen unrealistisch ist.
Stattdessen wäre es von Vorteil die implizite Bewertung des Menschen direkt auslesen zu können, da das Gehirn die Bewertungskriterien automatisch und situationsabhängig, d.h. je nach Beobachtung des aktuellen Roboterverhaltens, anpasst. Jedoch ist die Detektion der impliziten Evaluation eine Herausforderung und lässt sich durch die Detektion eines ErrPs nur bedingt nutzen, da die Detektion von ErrPs binär geschieht (ErrP/Kein ErrP). Deshalb muss ein Weg gefunden werden, mehr Informationen bei der ErrP Detektion zu gewinnen, indem man die Stärke des ErrP-Signals (durch z.B. SVM-Wahrscheinlichkeitsscore) erfasst.
Das Ziel dieser Masterarbeit ist es, zu überprüfen, ob es möglich ist die Stärke der ErrP-Signale für implizite Bewertung des Roboterverhaltens zu nutzen. Dafür wird zuerst eine explizite Bewertungsart generiert, welche möglichst intuitiv für den Menschen ist und somit möglichst die implizite Evaluation abbildet. Anschließend wird die Stärke der ErrP-Signale mit der expliziten Bewertung des Menschen verglichen. Nachfolgend soll das Mapping genutzt werden, um die impliziten Bewertungen in einer Anwendung als Reward beim Lernen von Roboterverhalten zu verwenden.
In diesem Vortrag werden die theoretischen Grundlagen, der Stand der Technik, die Problemstellung und die geplante Vorgehensweise vorgestellt.
Vortragsdetails
Abbildung von situationsabhängigen impliziten Bewertungen mittels Errorpotentials und dessen Verwendung beim Reinforcement Learning
In der Regel sind die Vorträge Teil von Lehrveranstaltungsreihen der Universität Bremen und nicht frei zugänglich. Bei Interesse wird um Rücksprache mit dem Sekretariat unter sek-ric(at)dfki.de gebeten.