Glatte Exploration für robotisches Reinforcement Learning

Glatte Exploration für robotisches Reinforcement Learning
Das Video zeigt echte Roboterexperimente aus unserem Vortrag auf der CoRL 2021: "Smooth Exploration for Robotic Reinforcement Learning" von Antonin Raffin, Jens Kober und Freek Stulp.
 
Beitrag: https://openreview.net/forum?id=TSuSGVkjuXd
Code: https://github.com/DLR-RM/stable-baselines3
Experimente: https://github.com/DLR-RM/rl-baselines3-zoo
 
 
 
Verstärkungslernen (Reinforcement Learning, RL) ermöglicht es Robotern, Fähigkeiten aus Interaktionen mit der realen Welt zu lernen. In der Praxis führt die unstrukturierte, schrittweise Erkundung, die in Deep RL verwendet wird - und die in Simulationen oft sehr erfolgreich ist - bei echten Robotern zu ruckartigen Bewegungsmustern. Die Folgen des daraus resultierenden wackeligen Verhaltens sind eine schlechte Erkundung oder sogar Schäden am Roboter. Wir gehen diese Probleme an, indem wir die zustandsabhängige Exploration (SDE) an aktuelle Deep RL-Algorithmen anpassen. Um diese Anpassung zu ermöglichen, schlagen wir zwei Erweiterungen der ursprünglichen SDE vor: die Verwendung allgemeinerer Merkmale und die periodische Neuabtastung des Rauschens, was zu einer neuen Explorationsmethode führt, der generalisierten zustandsabhängigen Exploration (gSDE). Wir evaluieren gSDE sowohl in der Simulation mit PyBullet-Aufgaben zur kontinuierlichen Steuerung als auch direkt an drei verschiedenen realen Robotern: einem sehnengetriebenen elastischen Roboter, einem Vierbeiner und einem RC-Auto. Das Rauschabtastintervall von gSDE ermöglicht einen Kompromiss zwischen Leistung und Glätte, der ein Training direkt an den realen Robotern ohne Leistungseinbußen ermöglicht.
 
 
DLR (CC-BY 3.0)
Länge: 00:03:42