KI-Systembaukasten auf Open-Source-Basis

Schaubild der Systemarchitektur von Exdra. – Bild: Bundesministerium für Wirtschaft und Energie

Machine-Learning-Werkzeuge kommen immer öfter auch in der Industrie zum Einsatz, denn KI-Methoden können Produktionsprozesse und Produktionsanlagen effizienter und nachhaltiger gestalten, ihre Verfügbarkeit und Flexibilität steigern und damit die Wettbewerbsfähigkeit von Unternehmen verbessern. Um eine derartige Technologie zu entwickeln, müssen die selbstlernenden Algorithmen der KI mit großen Datenmengen gefüttert werden. An die entsprechenden Daten zu kommen, ist für viele Unternehmen jedoch nicht einfach. Zwar fallen im Produktionsalltag täglich eine Vielzahl von Daten an, doch die Rohdaten sind häufig sehr heterogen und müssen zunächst aufbereitet werden, bevor sie für das maschinelle Lernen genutzt werden können. Die Daten liegen häufig nicht zentral vor, sondern sind über mehrere Standorte verteilt und dürfen etwa aus wettbewerblichen oder rechtlichen Gründen nicht einfach zusammengeführt werden. Zudem sind Data-Science-Prozesse in vielen Unternehmen explorativ. Das heißt, dass Datenwissenschaftler Hypothesen aufstellen, die erforderlichen Daten zusammenführen und verschiedene Analysen nach Mustern und Vorhersagemodellen suchen lassen, ohne dabei die Gewissheit zu haben, dass der Prozess verwertbare Ergebnisse hervorbringt. Im Zweifelsfall muss der aufwändige Vorgang von vorn begonnen werden, wodurch hohe Kosten entstehen.

Konsolidieren und verarbeiten

Das Technologieprojekt ExDRa (für bessere Lesbarkeit: Exdra), bei dem die Siemens AG, die Technische Universität Berlin, die DFKI GmbH und die Technische Universität Graz zusammenarbeiten, zielt darauf ab, diese Herausforderungen zu bewältigen. Das Projekt wird vom Technologieprogramm Smarte Datenwirtschaft des Bundesministeriums für Wirtschaft und Energie gefördert. Die dort entstehende Systemsoftware Exdra soll es Datenwissenschaftlerinnen und -wissenschaftlern künftig deutlich erleichtern, explorative Datenanalysen und beispielsweise das Training von neuronalen Netzen auf geographisch verteilten Daten durchzuführen. Die Nutzung von Rohdaten, die auf verschiedenen Systemen liegen, wird optimiert, wodurch sich Anwender nicht mit der Komplexität paralleler und verteilter Programmierung auseinandersetzen müssen. Da die Rohdaten nicht in einem Fernwartungszentrum analysiert, sondern lediglich die aggregierten Daten dorthin übertragen werden, lassen sich zudem Kommunikationskosten reduzieren, die Datensicherheit erhöhen und rechtliche Einschränkungen im Zusammenhang mit dem Datenexport umgehen.

Batch- und Stream-Analysen

Die Aufbereitung der Daten ist nur der erste Schritt. Exdra umfasst eine breite Palette von KI-Algorithmen einschließlich überwachter und unüberwachter Verfahren sowie Deep-Learning-Modellen, die zu Datenanalyse-Pipelines quer durch den Machine-Learning-Entwicklungsprozess verknüpft werden können. Da der Schwerpunkt von Exdra auf der explorativen Datenanalyse liegt, wird deren Verarbeitung hauptsächlich auf zum Zeitpunkt der Analyse bereits vorliegenden Daten im Batch Modus durchgeführt. Exdra unterstützt aber auch den Streaming Modus, bei dem die Daten kontinuierlich ausgewertet werden, während sie entstehen. Exdra ist nicht auf bestimmte Lernalgorithmen begrenzt, sondern unterstützt viele Machine-Learning-Methoden. Die Software erlaubt es somit, individuelle KI-Lösungen zu entwickeln und auch nur Daten in die Analyse mit einzubeziehen, die bestimmten Merkmalen entsprechen und tatsächlich bei der Entwicklung der spezifischen KI-Methode von Bedeutung sind.

Gemeinschaftsprojekt

Die Systemsoftware von Exdra wird auf Basis der Open-Source-Projekte SystemDS der TU Graz und Nebula Stream der TU Berlin und dem Deutschen Forschungszentrum für Künstliche Intelligenz entwickelt. Durch die Open-Source-Basis soll das System deutlich flexibler einsetzbar als ähnlich gelagerte, jedoch proprietäre Anwendungen sein, etwa von Amazon AWS Greengrass oder Google TensorFlow Federated. Anders als bei diesen Anwendungen bleiben die Rohdaten zudem auf den dezentralen Speichern und werden nicht in eine Cloud übertragen. Lediglich die Metadaten, beispielsweise die Gewichtsparameter eines neuronalen Netzes, werden zwischen den dezentralen Systemen übertragen, sodass ein Rückschluss auf die Herkunft oder gar die Daten selbst nicht möglich ist. Gleichzeitig kann die Software das Problem lösen, dass viele Daten, die für eine effektive Datenanalyse notwendig sind, aufgrund von Datenschutzbestimmungen nur begrenzt zugänglich sind. Obwohl lediglich die Metadaten ihrem Umfeld entnommen werden, ist dennoch eine Zustimmung der jeweiligen Rechteinhaber zur Nutzung der Daten notwendig. Entsprechende Anfragen können direkt über die Software gestellt werden.

Konsolidieren und verarbeiten

Batch- und Stream-Analysen

Gemeinschaftsprojekt

Schreibe einen Kommentar Antworten abbrechen