Data Mesh statt Data Hoarding

Bild: ©Andrey Popov/shutterstock.com

In der Praxis wird immer wieder deutlich, wie schwer sich viele Unternehmen damit tun, eine übergreifende KI- und Datenstrategie zu entwickeln. Neben der Vielfalt an verfügbaren Anwendungen und Use Cases liegen die größten Herausforderungen oft in den fehlenden Data- und IT-Ressourcen und der Frage, wie Datenerfassung, Datenqualität, Datenschutz und Datensicherheit für jeden Anwendungsfall aufgesetzt werden sollen. Die Anbindung relevanter Systeme stellt eine weitere Hürde dar. Es gab in den letzten Jahren mit Technologien wie Microsoft Synapse bereits den Ansatz, einige Aufgaben rund um Data Analytics zu vereinfachen, die zuvor nur von Datenspezialisten erledigt werden konnten. Mit Microsoft Fabric ist eine neue Plattform verfügbar, die Analysetechnologien für mehr Menschen im Unternehmen zugänglich machen soll. Zwar standen viele der Analyse- und KI-Services auch bisher schon bereit. Der Unterschied besteht darin, dass es nicht mehr wie etwa bei Synapse um Infrastruktur-as-a-Service für Data Analytics geht, sondern um ‚Software as a Service‘. Auf der Plattform sollen vom Data Engineer bis zum Fach-User alle Beteiligten zusammenarbeiten, um Analysetypen wie Reporting und Business Intelligence bis hin zu KI-Vorhersagemodellen einzusetzen.

Datenmanagement zu komplex

Dafür werden Daten aus sämtlichen Quellen (auch Multicloud-Umgebungen) abgeholt und zentral analysiert, anstatt Daten immer wieder für unterschiedliche Anwendungen zu kopieren. Microsoft hat dafür verschiedene Technologien unter einem Dach zusammengefasst, mit Power BI als visueller Plattform und dem KI-Assistenten Copilot, der für einen Paradigmenwechsel stehen kann. Ein zentraler Aspekt ist der OneLake-Ansatz, der dafür sorgt, dass die Daten nicht mehr aufwendig dupliziert und synchronisiert werden müssen. Hinter dem Ansatz steht die Idee des Data Mesh, das sich vom bisherigen Enterprise-Analytics-Konzept wegbewegt. Die PwC-Studie Changing Data Platforms zeigt, dass sich 60 Prozent der Unternehmen mit mehr als 1.000 Beschäftigten schon mit Data-Mesh-Architekturen befassen. Gerade bei größeren oder stark datengetriebenen Organisationen gilt, dass ein klassisches, bisher häufig angestrebtes zentrales Datenmanagement irgendwann zu komplex wird.

Lokale Data Lakehouses

Deshalb lässt sich die Datenlandschaft in Fabric auf Basis von OneLake dezentral domänenspezifisch aufbauen. Einzelne Domänen wie Produktion, Beschaffung, Sales oder Entwicklung speichern ihre Daten beispielsweise in dezentralen fachbereichseigenen Data Lakeshouses. Jeder Bereich übernimmt die Verantwortung (Data Ownership) für seine Daten, mit einem Product Owner, der das Knowhow für die jeweiligen Daten mitbringt. Die Vorteile der Zentralisierung werden allerdings nicht aufgegeben, denn es gibt eine zentrale Governance über alle Daten hinweg.

Datenanalyse im Wandel

Mit sogenannten Short Cuts können Daten geteilt werden, ohne sie zu kopieren. So wird etwa auch die Hürde von Daten in Multicloud-Umgebungen überwunden, da OneLake Cloud-übergreifend funktioniert. Für das Teilen werden zentrale Regeln in einem ‚Federal Decision Making Model‘ definiert. So schließt etwa die Produktion einen Vertrag mit der Beschaffung ab, um festzulegen, welche Daten wie bereitgestellt werden. Die wohl weitreichendste Änderung besteht in der Verbindung mit Generative AI wie ChatGPT, die in der Microsoft-Welt mit der Assistenztechnologie Copilot direkt in die Prozesse integriert ist. Im Zusammenspiel mit Low Code-Ansätzen in einer visuellen Oberfläche lassen sich z.B. ohne Data-Engineering-Kenntnisse Anfragen stellen, für die bisher IT-Entwicklungsarbeit nötig war. In der Produktion können das Analysen rund um die Produktqualität oder das Maschinenverhalten sein, indem mit natürlicher Sprache die Daten ausgewählt, in Beziehung gesetzt und ausgewertet werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert