Die Grundidee des Maschinellen Lernens besteht darin, dass ein künstliches System anhand von Mustern und Zusammenhängen in Daten lernt. Eine ausreichende Datengrundlage ist daher für den Einsatz von Maschinellem Lernen essenziell. Der Begriff »ausreichende Datengrundlage« bezieht sich hier auf die Quantität, Qualität, Relevanz und Diversität der Daten.
Die hohe Datenmenge ist in der Produktion allerdings häufig herausfordernd, da die Daten im Produktionsumfeld erzeugt und aufwendig annotiert werden müssen. Darüber hinaus sind Grenzfälle in den Daten oftmals wenig bis gar nicht abgedeckt. Dies kann im produktiven Einsatz zu Fehlentscheidungen des gelernten Modells führen. Ein Lernen am realen System, wie es bei Ansätzen mit Reinforcement Learning nötig wäre (also dem Lernprinzip aus Versuch und Irrtum), ist aufgrund der hohen Kosten, Dauer und Wartungsintensität in der Regel nicht möglich.
Deshalb stellt sich die Frage, wie auch mit wenigen realen Daten ein gutes Machine-Learning-Modell trainiert werden kann. Dies ist die zentrale Fragestellung, mit der sich die dateneffiziente KI beschäftigt. Mögliche Lösungsansätze sind sehr vielfältig und reichen vom Einsatz von Simulationsumgebungen und der Nutzung digitaler Zwillinge über datensparsame Lernverfahren bis zu Ansätzen, um bereits vorhandenes Wissen zu integrieren. Die Aktivitäten zum Thema Dateneffiziente KI umfassen in erster Linie sogenanntes »Physics-informed Machine Learning« und dateneffizientes Reinforcement Learning.