Zurück

Einführung in Data Mesh: Wie Unternehmen von dezentraler Datenverwaltung profitieren

Veröffentlicht: 11.09.2023
Kategorie: Grundlagen

Inhaltsverzeichnis

Data Mesh eine Einführung, eine weibliche Plastik, mit einem orangen Netzstoff bekleidet

Data Mesh beschreibt die Art und Weise, wie Unternehmen ihre Daten verwalten und nutzen. Als fortschrittliches Konzept der Datenarchitektur zielt ein Data Mesh darauf ab, die Herausforderungen zentralisierter Datenstrukturen zu überwinden und eine dezentrale, agile Datenlandschaft zu schaffen. Es ermöglicht die Verbindung von Dateneigentümern, Datenproduzenten und Datenkonsumenten, um den Informationsaustausch zu verbessern und datengesteuerte Prozesse effizienter zu gestalten. Dabei betrachtet ein Data Mesh Daten als wertvolle Produkte, die von den jeweiligen Domänenexperten selbstständig verwaltet und anderen Teams zur Verfügung gestellt werden. Doch wie genau funktioniert dieses Konzept, welche Prinzipien liegen ihm zugrunde und welche Vor- und Nachteile sind mit einer Umsetzung verbunden? Dieser Artikel wird ein umfassender Einblick in die Welt des Data Mesh geben und beleuchten, wie Unternehmen von dieser wegweisenden Datenarchitektur profitieren können.

Was ist ein Data Mesh?

Data Mesh beschreibt ein Konzept für die Datenarchitektur in Unternehmen, welches darauf abzielt, die Datenverwaltung zu dezentralisieren und datengesteuerte Prozesse zu verbessern. Ziel ist es, den Dateneigentümer, den Datenproduzenten und den Datenkonsumenten miteinander zu verbinden. Dabei sollte das Data Mesh Konzept gemäß ihrer Begründerin Zhamak Dehghani vor allem an jenen Herausforderungen ansetzen, bei welchen zentralisierte und monolithische Datenstrukturen an ihre Grenzen stoßen. Dies trifft vor allem auf die Organisation und die Zugänglichkeit der Daten zu. Beim Data Mesh Ansatz werden Daten als Produkte angesehen und die Verbraucher dieser Daten sollten als Kunden behandelt werden. Das Prinzip der Daten als Produkte anzusehen, zielt darauf ab, die Probleme der Datenqualität und der veralteten Datensilos, auch als „Dark Data“ bezeichnet, anzugehen. Dark Data sind die Informationen, die Organisationen im Rahmen ihrer regulären Geschäftsaktivitäten sammeln, verarbeiten und speichern, jedoch im Allgemeinen nicht für andere Zwecke nutzen.

Was sind die 4 Prinzipien des Konzepts?

Das Data Mesh Konzept basiert auf den folgenden 4 Prinzipien:

Domain ownership: Die Daten sind in einem Data Mesh in sogenannten Domänen organisiert, die jeweils einem bestimmten Geschäftsbereich in einem Unternehmen entsprechen. Die Teams innerhalb dieser Domänen sind durch Domänenexperten für die Verwaltung, Qualitätssicherung und Freigabe ihrer Daten selbst verantwortlich. Dadurch entsteht ein dezentraler Datenbesitz, welcher die Agilität und Flexibilität erhöht.
Data as a product: Data Mesh behandelt Daten als Produkte, welche von den erwähnten Domänenexperten gemäß definierten Rollen erstellt, gewartet und den internen oder externen Nutzern zur Verfügung gestellt werden. Dies bedeutet, dass Datenproduzenten und Datenkonsumenten direkt zusammenarbeiten, ähnlich wie beispielsweise in einem Produktentwicklungsteam.
Self-Service data platforms: Das Konzept fördert den Aufbau von sogenannten „selbstbedienungsfähigen Plattformen“, welche es den datenbesitzenden Teams ermöglichen, ihre Daten mithilfe von standardisierten APIs und Schnittstellen einfach freizugeben und zugänglich zu machen. Dadurch wird die Zusammenarbeit zwischen den Teams erleichtert und die Abhängigkeit von zentralisierten Datenplattformen reduziert. Zudem unterstützt diese Vorgehensweise die Datenintegration, Qualitätssicherung und Analysemöglichkeit der Daten.
Federated computational governance: Data Mesh fördert eine dezentrale Data Governance Struktur, in der jedes Domänenteam die Autorität über seine eigenen Daten und Datenprodukte hat und sicherstellt, dass Datenschutz, Sicherheit und Compliance gewährleistet ist, ohne dabei die Autonomie der datenbesitzenden Teams einzuschränken. Es bestehen jedoch auch bestimmte übergreifende Governance-Richtlinien und Standards, die von einem zentralen Gremium oder einer datenorientierten Community festgelegt werden.

Was sind die Vor- und Nachteile einer Data Mesh Architektur?

Vorteile:

Skalierbarkeit bzw. Kosteneffizienz: Die verteilte Architektur eines Data Mesh setzt auf Cloud-Datenplattformen und Streaming-Pipelines für Echtzeit-Datenerfassung, anstelle von Batch-Datenverarbeitung. Cloud-Speicher bietet einen Kostenvorteil, da Datenteams Ressourcen nach Bedarf zusammenstellen und nur für den genutzten Speicherplatz bezahlen müssen. Die Flexibilität ermöglicht es, zusätzliche Rechenleistung bei Bedarf hinzuzufügen.
Datenqualität: Die Verantwortung der Teams für ihre Daten führt zu einer höheren Datenqualität, da sie über spezifisches Domänenwissen verfügen.
Demokratisierung von Daten: Dadurch, dass Data Mesh Architekturen Self-Service-Anwendungen aus verschiedenen Datenquellen vereinfachen, erleichtern sie den Zugang zu Daten über technische Ressourcen wie Datenwissenschaftler, Dateningenieure und Entwickler hinaus. Durch dieses bereichsorientierte Design werden Datensilos und betriebliche Engpässe reduziert, was eine schnellere Entscheidungsfindung ermöglicht und technischen Benutzern ermöglicht, ihre Fähigkeiten besser zu nutzen.
Reduzierung technischer Schulden: Zentrale Dateninfrastrukturen verursachen oft sogenannte technische Schulden aufgrund der Komplexität und der nötigen Zusammenarbeit bei der Wartung. Durch die Verteilung der Datenpipeline nach Domäneneigentum können Datenteams besser auf die Anforderungen ihrer Datenkonsumenten eingehen und die Belastung des Speichersystems verringern.
Interoperabilität: Data Mesh Modelle fördern die Standardisierung von Datenfeldern über Domänen hinweg, was die Interoperabilität erleichtert. Diese Konsistenz ermöglicht einfache Datenverknüpfungen und die Entwicklung von Anwendungen, die geschäftlichen Anforderungen besser entsprechen.
Sicherheit und Compliance: Data Mesh Architekturen unterstützen stärkere Governance-Praktiken durch die Durchsetzung von Datenstandards und Zugriffskontrollen für sensible Daten. Dadurch wird dafür gesorgt, dass staatliche Vorschriften eingehalten und Datenaudits ermöglicht werden.

Durch Cloud Computing nutzen Unternehmen ihre IT-Ressourcen flexibler und kosteneffizienter. Dabei ist die Cloud-Architektur und Infrastruktur von zentraler Rolle. Auf welche Aspekte Sie achten müssen, erfahren Sie in unserem Blogbeitrag:

Cloud Computing – Architektur & Infrastruktur: Kompakt erklärt

Nachteile und Herausforderungen:

Komplexität: Die dezentrale Datenverwaltung eines Data Mesh kann zu einer erhöhten Komplexität führen, insbesondere wenn nicht ausreichend auf die Datenintegration, den Datenschutz sowie die Sicherheit geachtet wird. Die Integration verschiedener Domänen, Datenquellen und -pipelines kann komplex sein und erfordert möglicherweise umfangreiche Änderungen an den bestehenden Datenprozessen.
Erhöhte Governance-Herausforderungen: Mit Data Mesh verteilen sich Datenverantwortlichkeiten auf verschiedene Domänenteams. Dies kann Governance und Datenqualität erschweren, da die Kontrolle und Verantwortung für Daten zwischen den Teams aufgeteilt werden. Es kann schwierig sein, einheitliche Standards und Richtlinien über verschiedene Teams hinweg zu etablieren, was zu Inkonsistenzen, Unklarheiten in der Dateninterpretation und möglicherweise Sicherheitslücken führen kann.
Overhead durch Koordination und Kommunikation: Da Data Mesh auf dezentralisierte Datenverantwortlichkeiten setzt, müssen die einzelnen Domänenteams stärker kooperieren und kommunizieren, um Datenprodukte und -pipelines effizient zu entwickeln und zu verwalten. Dieser erhöhte Abstimmungsaufwand kann zu zusätzlichem Overhead und Zeitverlust führen, besonders wenn Teams über verschiedene Standorte oder Zeitzonen verteilt sind.
Kulturelle Veränderungen: Die Einführung eines Data Mesh erfordert einen kulturellen Wandel in einem Unternehmen, da es eine Verschiebung von zentralisierten Entscheidungen zu mehr Autonomie der Teams bedeutet. Zudem ist die Umstellung eines zentralistischen Ansatzes hin zu einem dezentralen Data Mesh in der Regel auch mit Implementierungskosten sowie zeitlichem Aufwand verbunden.

In einer datengetriebenen Welt überwindet Data Fabric traditionelle Grenzen. Erfahren Sie, wie der optimierte Datenfluss neue Unternehmensmöglichkeiten eröffnet.

Data Fabric: Optimierung des Datenökosystems für Unternehmen

Was ist der Unterschied zu Data Fabric?

Data Mesh und Data Fabric beschreiben zwei Ansätze für eine Datenarchitektur, welche jedoch verschiedene Schwerpunkte haben. Während sich Data Mesh auf die dezentrale Datenverwaltung und die Autonomie der datenbesitzenden Teams konzentriert und es darauf abzielt, Daten als Produkte zu betrachten und die Selbstbedienungsfähigkeit fördert, ist eine Data Fabric hingegen ein integrierter Datenansatz, der die verschiedenen Datenspeicher, Datenquellen und Datenverarbeitungstechnologien eines Unternehmens nahtlos miteinander verbindet. Es betont die Einheitlichkeit und Konsistenz der Datenzugriffe und -transformationen und strebt eine zentrale Datenkontrolle an, um eine einheitliche Sicht auf die Daten zu gewähren.

In Bezug auf Datensicherheit liegt beim Data Mesh die Verantwortung bei den einzelnen Teams, während eine Data Fabric eine zentralisierte Datensicherheit ermöglicht. Data Mesh betont die Eigenverantwortung der Teams in Bezug auf Data Governance, während die Data Fabric eine zentralisierte Data Governance umfassen kann. Data Mesh ist für komplexe und skalierende Datenlandschaften geeignet, während eine Data Fabric die durchgängige Verbindung und Verarbeitung großer Datenmengen über unterschiedliche Systeme hinweg erleichtern soll.

Trotz der unterschiedlichen Schwerpunkte von Data Mesh und Data Fabric können die beiden Ansätze kombiniert werden, um eine durchgängige Datenstrategie zu entwickeln und Nutzen aus beiden Ansätze zu generieren. Eine Möglichkeit besteht darin, eine Data Fabric als grundlegende Dateninfrastruktur zu implementieren, auf der das Data Mesh Konzept basiert. Dadurch erhält man eine einheitliche Sicht auf die Daten, ermöglicht Datenintegration über verschiedene Systeme hinweg und unterstützt die Skalierbarkeit der Dateninfrastruktur. So haben die Teams im Data Mesh eine solide Grundlage, um auf qualitativ hochwertige und integrierte Daten zuzugreifen und brauchen sich nicht um die technischen Aspekte der Datenintegration zu sorgen. Ein alternativer Ansatz ist es, Teile des Data Mesh in die Data Fabric Strategie zu implementieren. Konkret bedeutet dies, dass die Verantwortung für die Daten nicht lediglich auf zentrale Einheiten, sondern auch auf die einzelnen Teams in der Data Fabric verteilt wird. Dabei wird jedes Team dabei zu einem sogenannten „Data Product Owner“ für die Daten, welche es verwaltet. Dieser Ansatz bestärkt die dezentrale Verantwortung und Zusammenarbeit, wie es gemäß dem Data Mesh Konzepts bestimmt ist. Zeitgleich wird durch die Data Fabric die Infrastruktur sichergestellt, sodass die Datenintegration, Datenqualität und Data Governance über alle Teams hinweg konsistent und effizient sind.

Data Mesh oder Data Fabric: Erfahren Sie, welcher Ansatz der richtige für Ihr Unternehmen ist, um effektive Datenverwaltung und Integration zu gewährleisten.

Data Mesh vs. Data Fabric: Ein Vergleich der Datenmanagement-Konzepte

Was ist der Unterschied zum Data Lake?

Ähnlich wie eine Data Fabric beschreibt auch ein Data Lake einen Ansatz einer Datenarchitektur, welche sich zu einer Data Fabric oder einem Data Mesh unterscheidet, jedoch auch einige Gemeinsamkeiten aufweist. Ein Data Lake ist ein zentraler Speicher, der eine große Menge unstrukturierter und strukturierter Daten aus verschiedenen Quellen aufnimmt. Es bietet eine kostengünstige Möglichkeit, Daten zu speichern, bevor sie analysiert oder in andere Systeme geladen werden. In einem Data Lake können Daten leicht zusammengeführt und analysiert werden, was ihn zu einem wertvollen Werkzeug für Big Data Analysen macht.

Im Gegensatz dazu ist ein Data Mesh dezentralisiert, da es die Verantwortung für die Daten auf die datenbesitzenden Teams in den Domänen verteilt. Jedes Team ist für die Verwaltung seiner eigenen Daten verantwortlich und stellt sie anderen Teams über standardisierte Schnittstellen zur Verfügung. Dadurch wird eine engere Integration zwischen den Geschäftsbereichen und den Daten selbst erreicht, was die Agilität und Flexibilität erhöht.

Obwohl ein Data Mesh und ein Data Lake (sowie auch eine Data Fabric) verschiedene Herangehensweisen darstellen, können sie in manchen Situationen miteinander verbunden werden. Zum Beispiel könnte ein Data Lake als Grundlage dienen, auf der die Prinzipien von Data Mesh oder Data Fabric angewendet werden, um eine dezentrale Datenverantwortung oder eine einheitliche Dateninfrastruktur zu ermöglichen. Alternativ könnte ein Data Lake als zentrale Datenquelle fungieren, welche für verschiedene Domänen dienlich ist. Auch innerhalb eines Data Mesh können einzelne Teams und Domänen ihre eigenen Data Lakes generieren, um so ihre Daten zu organisieren.

Entdecken Sie die Vorteile eines Data Lakes: Die zentrale Speicherlösung für große Datenmengen aus verschiedenen Quellen, die effektive Analyse und Nutzung ermöglicht.

Grundlagen, Anwendungsfälle und Vorzüge eines Data Lake: Alles was Unternehmen über Data Lakes wissen müssen

Welche Data Mesh Lösungen existieren?

Es bestehen verschiedene Lösungen und Tools, welche Unternehmen dabei unterstützen, ein Data Mesh erfolgreich einzusetzen:

Amazon Web Services (AWS): AWS stellt mehrere Tools und Dienste, die bei der Implementierung eines Data Mesh helfen können, zur Verfügung. Dazu gehören unter anderem Amazon S3 für die Speicherung von Daten, Amazon Glue für die Datenintegration und -transformation sowie Amazon Athena für die Abfrage von Daten.
Microsoft Azure: Azure bietet auch eine Reihe von Tools zur Unterstützung von Data Mesh Architekturen an. Dazu gehören beispielsweise Azure Data Factory für die Datenintegration und -transformation sowie Azure Synapse Analytics für die Abfrage von Daten. Microsoft stellt mit Azure Data Lake Storage auch einen Dienst für die Speicherung von Daten zur Verfügung. Es unterstützt die Integration von Azure-Diensten und Tools von Drittanbietern, um eine nahtlose Datenbewegung und -verarbeitung zu gewährleisten.
IBM: Mit IBM Data Fabric on Cloud Pak for Data liefert IBM eine integrierte Daten- und KI-Plattform, die Tools für die Datenspeicherung, -integration und -analyse bereitstellt, wodurch ein echter Self-Service von Datenprodukten auf Unternehmensebene geschaffen werden kann.
Talend: Talend beschreibt einen Anbieter von Datenintegrations- und Datenqualitätslösungen, welcher mit seinem Data Catalog Unterstützung für Data Mesh Architekturen zur Verfügung stellt. Mit diesem Tool ist es möglich ein Data Mesh zu erstellen und die Daten unter anderem zu teilen und zu verwalten.

Wie implementiere ich ein Data Mesh in meinem Unternehmen?

Die Einführung eines Data Mesh erfordert eine sorgfältige Planung und eine schrittweise Umsetzung. Nachfolgend wird der Standardablauf des Implementierungsprozesses eines Data Mesh in einem Unternehmen beschrieben:

Datenstrategie festlegen bzw. Identifizierung der Datendomänen: Im ersten Schritt sollten klare Ziele und Strategien für die Datenlandschaft definiert werden. Dafür ist es unter anderem auch nützlich, Domänenexperten und die exakten Verantwortungsbereiche zu identifizieren und zu beschreiben.
Organisatorische Veränderungen: Eine Veränderung der Datenarchitektur geht auch immer mit einem Wandel der Kultur der Zusammenarbeit in puncto einer dezentralen Datenverantwortung einher. Aus diesem Grund sollten Mitarbeiter in ihren neuen Rollen und Verantwortlichkeiten geschult werden.
Technologische Umsetzung: Die technische Umsetzung erfolgt im Rahmen der Implementierung der Self-Service-Plattform, welche es den einzelnen Teams ermöglicht, ihre Datenprodukte in der Datenarchitektur des Data Mesh selbstständig zu erstellen und zu verwalten.
Förderung einer föderierten Data Governance und der Sicherheitsmaßnahmen: Bei der Umstellung (vor allem von einer zentralen Datenarchitektur) ist zu beachten, dass ein Data Mesh eine föderierte Governance erfordert, bei welcher die Verantwortung für die Datenverwaltung zwischen den verschiedenen Datendomänen geteilt wird. Dies bedeutet, dass jedes Team für die Qualität und den Zugriff auf seine eigenen Daten verantwortlich ist. Diese Denkweise sollte entsprechend gefördert werden.
Monitoring und Evaluierung: Durch eine Überwachung und Bewertung des Nutzens des Data Mesh können Strukturen und Prozesse angepasst und optimiert werden.

Fazit

Mit einem Data Mesh greift man auf ein Konzept zur dezentralen Datenarchitektur zurück, welches darauf abzielt, die Datenverwaltung zu verbessern. Es verbindet Dateneigentümer, -produzenten und -konsumenten, indem es Daten als Produkte betrachtet und die Selbstbedienungsfähigkeit fördert. Aufgrund der Vorteile eines Data Mesh wie beispielsweise der guten Skalierbarkeit, der Demokratisierung von Daten, der Reduzierung technischer Schulden oder der Interoperabilität kann diese dezentrale Datenarchitektur Unternehmen einen großen Nutzen bringen. In Kombinationen mit ähnlichen Ansätzen wie einer Data Fabric oder einem Data Lake können Unternehmen ihre Datenverwaltung verbessern, die Zusammenarbeit zwischen den Teams fördern und von den Vorteilen einer dezentralen Datenarchitektur profitieren.

Diesen Beitrag teilen:

Anbieter:	HubSpot, Inc., 25 First Street, Cambridge, MA 02141, USA
Cookiename:	__hstc; hubspotutk; __hssc; __hssrc; __cf_bm; __cfruid
Laufzeit:	6 Monate; 6 Monate; 30 Minuten; Sitzungsende; 30 Minuten; Sitzungsende
Datenschutzlink:	https://legal.hubspot.com/de/privacy-policy
Host:	.hubspot.com

Anbieter:	InnoCraft Ltd., 150 Willis St, 6011 Wellington, New Zealand
Cookiename:	_pk_id..; _pk_ses..
Laufzeit:	13 Monate; 30 Minuten
Datenschutzlink:	https://matomo.org/gdpr-analytics/
Host:	.matomo.cloud

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Cookiename:	YSC; VISITOR_INFO1_LIVE; PREF
Laufzeit:	Sitzungsende; 6 Monate; 8 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.youtube.com

Anbieter:	Podigee GmbH, Revaler Straße 28, 10245 Berlin, Deutschland
Cookiename:	Nicht spezifiziert
Laufzeit:	Nicht spezifiziert
Datenschutzlink:	https://www.podigee.com/de/ueber-uns/datenschutz/
Host:	.podigee.com

Anbieter:	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Cookiename:	SID; HSID; NID
Laufzeit:	2 Jahre; 2 Jahre; 6 Monate
Datenschutzlink:	https://policies.google.com/privacy?hl=de
Host:	.google.com