Reinforcement Learning (RL) beschreibt neben überwachtem und nicht überwachtem Lernen eine der drei grundlegenden Paradigmen des Maschinellen Lernens. Beim RL lernt der Agent durch Interaktion mit der Umgebung eigenständig, welche Aktionen in welchem Zustand ausgeführt werden müssen, um die Belohnung zu maximieren. Dieses Lernverfahren benötigt im Gegensatz zum überwachten Lernen im Vorfeld keine Daten. Stattdessen werden die benötigten Daten während des Trainings durch Interaktion mit der Umgebung generiert. Zusätzlich wird eine Belohnungsfunktion benötigt, die wünschenswertes Verhalten (z.B. erfolgreiche Montage) belohnt und weniger wünschenswertes Verhalten entsprechend bestraft.
Klassisches Reinforcement Learning hat in den letzten Jahren besonders durch Kombination mit Methoden des Deep Learnings große Fortschritte gemacht (z.B. »AlphaGo«, »Pluribus«). Diese Algorithmen benötigen allerdings sehr viele Interaktionen mit der Umgebung und sind daher für reale Anwendungen oftmals nicht praktikabel. Das kommt daher, dass der Aktionsraum, in dem ein RL-Agent operiert, bei realen Anwendungen schnell sehr groß wird. Je größer die Anzahl verschiedener Aktionen, zwischen denen der RL Agent auswählen kann, desto zeit- und datenintensiver wird das Training des RL-Agenten.
Dateneffizientes RL beschreibt eine Forschungsrichtung, die versucht, diese datenhungrigen Algorithmen durch den Einsatz von Expertenwissen, physikalischen Gesetzen, Abstraktion oder einem Digitalen Zwilling dateneffizienter zu machen. Das Erforschen des Aktionsraums sowie das Training und die Planung der nächsten Schritte werden durch Expertenwissen, physikalische Gesetze oder Abstraktion einfacher und dateneffizienter. Das Lernen in der Simulation am digitalen Zwilling kann die Interaktionszeit am realen Objekt (z.B. Cobot) deutlich verringern. Diese Kombinationen von Reinforcement Learning zusammen mit Wissen, Gesetzen und Methoden aus anderen Bereichen macht den Lernprozess praktikabel und ermöglicht so den industriellen Einsatz von RL.