ActGPT

Adaptive Robotersteuerung mit generativen vortrainierten Transformern

Grundsätzliche Idee von ActGPT (Quelle: DFKI GmbH)
Grundsätzliche Idee von ActGPT (Quelle: DFKI GmbH)

Das Vorhaben ActGPT verfolgt das Ziel, eine Verbindung der Vorhersagefähigkeiten von großen Sprachmodellen und großen multimodalen KI-Modellen mit den physischen Fähigkeiten komplexer dynamischer Roboter herzustellen. Eine solche Verbindung zwischen KI und den physikalischen Fähigkeiten dynamischer Roboter, die typischerweise präzise Systemmodelle erfordern, eröffnet mehrere Möglichkeiten, wie z. B. die Verringerung der Abhängigkeit von Expertenwissen und manuellem Engineering bei der Entwicklung von Robotersteuerungsstrategien, allgemeinere Einsetzbarkeit hochdynamischer Robotersysteme und die Verbesserung ihrer Autonomie in sich dynamisch verändernden Umgebungen.

Laufzeit: 01.04.2025 bis 28.02.2028
Zuwendungsempfänger: Deutsches Forschungszentrum für Künstliche Intelligenz GmbH
Fördergeber: Bundesministerium für Bildung und Forschung
Förderkennzeichen: 01IW25002
Anwendungsfelder: Logistik, Produktion und Consumer
Assistenz- und Rehabilitationssysteme
Verwandte Projekte: M-Rock
Modellierung der Mensch-Maschine-Interaktion zur kontinuierlichen Verbesserung des Roboterverhaltens (08.2021- 07.2024)
VeryHuman
Lernen und Verifikation Komplexer Verhalten für Humanoide Roboter (06.2020- 05.2024)
AAPLE
Expanding the Action-Affordance Envelope for Planetary Exploration using Dynamics Legged Robots (03.2023- 02.2025)
Verwandte Robotersysteme: RH5 Manus
Humanoider Roboter als Assistenzsystem in menschoptimierter Umgebung
Quad B12
Vierbeinige Forschungsplattform
Verwandte Software: ARC-OPT
Adaptive Robot Control using Optimization
HyRoDyn
Hybrid Robot Dynamics

Projektdetails

Übersicht der Konzepte von ActGPT: Anhand von natürlicher Sprache und Kamerabildern werden Zustandsraumtrajektorien und optimal Regelungsprobleme erzeugt. Die generierten Bewegungen werden auf dem Robotersystem stabilisiert. (Quelle: DFKI GmbH)

Gegenwärtig erleben wir eine rapide Entwicklung im Bereich der KI, die vor allem durch die Fortschritte bei den Methoden des verstärkenden Lernens (Reinforcement Learning, RL) und den auf Transformern basierenden tiefen neuronalen Netzen ausgelöst wurde. Beispielsweise haben große Sprachmodelle (Large Language Models - LLMs), wie sie von ChatGPT verwendet werden, beeindruckende Ergebnisse bei der Generierung von Sprache in verschiedensten Anwendungsdomänen gezeigt. KI sollte jedoch nicht nur Kommunikationsintelligenz beinhalten, sondern auch Intelligenz in Bezug auf die Interaktion mit der physischen Welt, wie sie z. B. von dynamischen Robotern wie Humanoiden benötigt wird. Derzeitige LLMs und andere große KI-Modelle interagieren jedoch kaum mit der physischen Umwelt. 

Weiterhin haben die jüngsten Fortschritte in der Robotik eine neue Generation von hochdynamischen Robotern hervorgebracht, die beeindruckende dynamische oder sogar athletische Verhalten demonstrieren. Am bemerkenswertesten ist der von Boston Dynamics gebaute humanoide Roboter Atlas, der auf natürliche Weise gehen und laufen, 360-Grad-Sprünge und Rückwärtssaltos ausführen und mit einer Agilität tanzen kann, die der eines Menschen nahe kommt. Weitere Beispiele sind die vom Straußen inspirierte humanoide Roboterplattform Digit (Agility Robotics), der H1-Humanoide von Unitree.

Während all diese Systeme bei einzelnen, genau definierten Aufgaben beeindruckende Ergebnisse erzielen, fehlt in der Regel die Verbindung zwischen ihren Bewegungsfähigkeiten, die meist auf fortgeschrittener Mechanik und moderner Regelungstheorie beruhen, und künstlicher Intelligenz. 

ActGPT verfolgt daher das folgende Ziel:

Verknüpfung der prädiktiven Fähigkeiten von großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) mit den physischen Fähigkeiten komplexer dynamischer Roboter

Um dieses Hauptziel zu erreichen, werden drei Teilziele verfolgt:

  1. Große KI-Modelle, in erster Linie Transformer, in die Lage zu versetzen, dynamische Roboterbewegungen anhand von natürlicher Sprache und Bildern als Eingabe zu generieren. Um dynamisch konsistente Robotertrajektorien zu generieren, ist es notwendig, dass das KI-Modell die Dynamik des zu bedienenden Roboters versteht. Eine Möglichkeit, dies zu erreichen, besteht darin, physikalisch informierte Schichten in das Transformer-Netz einzufügen, welche mit RL trainiert werden können. Die Verbindung zwischen LLMs und RL wurde bereits untersucht, und wir planen, den State-of-the-Art auf große multimodale Modelle (LMMs) und hochdynamische Roboter auszuweiten.
  2. Große KI-Modelle in die Lage zu versetzen, optimale Steuerungsprobleme (Optimal Control Problems - OCPs) anhand von natürlicher Sprache und Bildern als Eingabe zu synthetisieren. Optimale Steuerung (Optimal Control - OC) bietet eine semantisch reichhaltige Beschreibung von dynamischen Roboteraufgaben in Form von Kostenfunktionen (Costs) und Nebenbedingungen (Constraints). Als Schnittstelle zwischen den LLMs und OC definieren wir eine einfache domänenspezifische Sprache (Domain Specific Language - DSL) zur Beschreibung des OCPs. Eine Möglichkeit, Programme innerhalb dieser DSL zu generieren, ist die Kombination von LLMs mit NN-geführter Programmsuche, ein Ansatz, der zu unerwarteten und allgemeingültigen Lösungen führen kann. Das generierte OCP kann dann verwendet werden, um dynamische Roboterbewegungen zu erzeugen und gleichzeitig physikalische Konsistenz zu gewährleisten.
  3. Die Robustheit und Stabilität großer KI-Modelle zu verbessern, die teilweise unzuverlässige und fehleranfällige Ergebnisse liefern können. Dies kann erreicht werden durch die Integration von physikalischen Constraints aus der modellbasierten Steuerung in der Trainingsphase, zum Beispiel beim Training einzelner Schichten eines Transformer-Netzes in einer Physiksimulation, oder mit Hilfe von Online-Verhaltensstabilisierungsmethoden. Beide Ansätze können die physikalische Grundlage liefern, die KI-Modellen in der Regel fehlt. 

Um die in ActGPT entwickelten Methoden zu evaluieren, werden wir Experimente an zunehmend komplexeren, realen Systemen und mit verschiedenen sensorisch-motorischen Konfigurationen durchführen, wie z. B. dem Doppelpendel, einem Vierbeiner und einem zweibeinigen Roboter. Das finale Ziel ist die Steuerung eines humanoiden Roboters mit Hilfe von Texteingaben, wodurch high-level Befehle mit dynamischen Roboterbewegungen verknüpft werden.

Zurück zur Projektliste
© DFKI GmbH
zuletzt geändert am 25.02.2025