Das zentrale Ziel autonomer Roboter ist die Fähigkeit, selbständig in neuen unbekannten Situation agieren zu können. Häufig ist es wünschenswert, dass der Roboter sein Verhalten online durch Erfahrungen mittels Interaktion anpasst. Ein beliebtes und in diesem Kontext sehr wichtiges Verfahren ist Reinforcement Lernen.
Reinforcement Lernen beschreibt ein Lernproblem in dem der Roboter nach einem Verhalten sucht, welches seine langfristige Belohnung maximiert. Die Belohnung wird durch eine dem Roboter unbekannte Reward-Funktion beschrieben. Reward-Funktionen sind ein essentieller Bestandteil vieler Lernalgorithmen. Die Güte der Funktion hat einen direkten Einfluss auf die Performanz des Systems. Die Reward-Funktion nachzubilden kann aber, je nach Szenario, sehr schwierig werden. Es wird das Problem ein Verhalten zu konstruieren durch die Konstruktion einer Reward-Funktion ersetzt. Jeder Mensch hat aber eine unterbewusste Vorstellung davon, wie er bestimmte Aktionen zu bewerten hat.
Ein Anwendungsgebiet in dem es schwierig ist eine Reward-Funktion zu definieren, ist das Ausführen von Gesten. Gesten werden als natürliche Interaktionen zwischen Menschen angewendet. Im Rahmen von kooperierenden Mensch-Maschine Systemen gewinnt die Verwendung von intuitiven und natürlichen Kommunikationsmitteln, einschließlich der Kommunikation des Roboters mit dem Menschen an Bedeutung. Die Bewertung der Güte der Gesten ist jedoch sehr subjektiv.
Die Motivation hinter dieser Arbeit, ist daher die Fragestellung, ob es möglich ist die intrinsische Reward-Funktion für Gesten durch einen geeigneten Lernalgorithmus zu extrahieren? Das Ziel ist es, einen Algorithmus zu entwickeln, welcher eine passende Reward-Funktion zusammen mit einer davon abgeleiteten Policy lernt. Um das manuelle und fehleranfällige Erstellen einer Reward-Funktion zu umgehen, soll das Extrahieren der Reward-Funktion anhand von einfachen numerischen Bewertungen der gesamten Ausführungen eines Beobachters durchgeführt werden. Die Reward-Funktion soll eine möglichst gute Performanz ermöglichen und ein Beobachter soll dennoch nur minimal befragt werden. Es sind geeignete Methoden nötig um mit der Subjektivität bzw. Varianz der Bewertungen umzugehen, sowie zu schätzen, ob eine Befragung eines Beobachters zu einer signifikanten Verbesserung der Policy führt.