Der Erfolg datenzentrierter Optimierungsansätze im Produktionsumfeld ist direkt von der verfügbaren Datenbasis abhängig. Insbesondere für den Einsatz von Künstlicher Intelligenz (KI) mit Machine Learning (ML) Algorithmen müssen Daten schnell, in hoher Qualität und ausreichend Volumen zu Verfügung stehen, um eine hohe Ergebnisgüte zu erzielen zu können. Daraus ergeben sich hohe Anforderungen an die Hardware- und Software-Infrastruktur, die Daten bereitstellt.
Zur Bereitstellung von Daten sind hoch-automatisierte Transfervorgänge, die sogenannten Data Pipelines, essentiell zum Erfüllen der Anforderungen an Daten als Grundlage für KI. Data Pipelines beschreiben die Methodik der Überführung, Aggregation, Transformation und Bereitstellung von Daten zwischen Systemen mit geringstmöglichen manuellen Eingriffen. Je nach Ziel des Anwendungsfalls können Data Pipelines verschiedene Ausprägungen annehmen, beispielsweise:
Dabei werden je nach Ausprägung unterschiedliche Architektonische Muster (Lamdba oder Kappa Architektur), Verarbeitungsarten (ETL oder ELT) und Methodiken (Batch oder Stream Processing) angewendet, um die Anforderungen des Anwendungsfalls erfüllen zu können.
Gerade für Data Pipelines in einem Anwendungsfall als Basis für Machine Learning, unter der Verwendung großer Datenmengen und mit dem Ziel, einen kontinuierlichen Betrieb von ML-Lösungen anzustreben (MLOps), ergeben sich zusätzliche Anforderungen. Die Daten sowie jede Transformation in den Pipelines müssen durchgängig im kontinuierlichen Prozess validiert (Data Lineage) und versioniert (Data Versioning) werden, damit Daten nur reproduzierbar und schemakonform für das Training von datenbasierten Modellen eingesetzt werden. Vor allem muss sichergestellt werden, dass Daten und deren statistische Eigenschaften während des Trainings- und Produktiv-Einsatzes (wo ggfs. Re-Training notwendig ist) vergleichbar sind, sodass die Vorhersagequalität der Anwendung konstant sichergestellt ist. Dabei sind zusätzlich rechtliche Rahmenbedingungen wie Daten- und Persönlichkeitsschutz in Entwicklungs- und Produktiv-Umgebung zu bedenken.