Geschrieben von
Peter Görtz
Nov 2024
Entdecken Sie, wie Microsoft Fabric OneLake zentrale Datenverwaltung und Integration vereinfacht. Unter anderem mit der Unterstützung des File Explorer und dem Delta Parquet File Format ermöglicht OneLake eine effiziente Datenverarbeitung.
In der modernen Datenlandschaft stellt die Integration verschiedenster Datenquellen Unternehmen verschiedenster Größe vor große Herausforderungen. Microsoft Fabric bietet mit OneLake eine zentrale SaaS Lösung, um Daten effizient zu speichern und zu verwalten.
Zentrale Speicherung und Zugriff auf alle Daten im OneLake
OneLake ermöglicht es, alle Arten von Unternehmensdaten an einem Ort zu speichern. Damit können wir "erstmal alles" aus den bestehenden Datensilos auf eine strukturierte Art und Weise extrahieren und an dieser zentralen Stelle verfügbar machen. Der Vorteil: Die Daten müssen nicht sofort an vielen verschiedenen Orten verwaltet werden, sondern können zentral zugänglich gemacht werden.
Datenvirtualisierung: Effizienz ohne physische Kopien
Eine herausragende Funktion von OneLake ist die Datenvirtualisierung. Anders als bei herkömmlichen Ansätzen, bei denen Daten physisch in den Data Lake kopiert werden müssen, bietet OneLake die Möglichkeit, Daten von externen Quellen zu virtualisieren und sofort bereitzustellen. Dadurch stehen auch Metadaten aus den verlinkten Systemen im OneLake zur Verfügung, was eine entscheidende Rolle für die Data Governance spielt. So können Unternehmen Daten effizient und sicher verwalten, ohne die physischen Datenbewegungen manuell zu organisieren.
Einfache Datenübertragung in den Data Lake mit der Windows Explorer-Kopierfunktion
Eine praktische Neuerung ist die Kopierfunktion über den Windows Explorer. In vielen Projekten stellt sich die Frage: "Wie bekommen wir Daten unkompliziert in den Data Lake?" Oft stammen diese Daten nicht von technischen Anwendern, sondern beispielsweise aus externen Marktanalysen, die eingekauft werden. Dank eines neuen Add-Ins für den Windows Explorer kann die Fachseite nun Daten ganz einfach per Drag-and-Drop in den Data Lake verschieben – ohne komplexe Software oder spezielle Programme wie den Storage Explorer installieren zu müssen.
Diese Funktionalität mag auf den ersten Blick simpel wirken, stellt jedoch in der Praxis einen enormen Mehrwert dar. Sie ermöglicht es auch nicht-technischen Anwendern, ihre Daten schnell und ohne große Hürden zu integrieren, was den Workflow erheblich beschleunigt.
Nur eine Kopie der Daten – das Data Mesh Konzept
Ein zentrales Ziel in der Datenverwaltung ist es, so wenige Datenkopien wie möglich zu erstellen. Im Sinne des Data Mesh Ansatzes möchte man für bestimmte Daten, wie z. B. Artikelstammdaten, sicherstellen, dass diese zentral von einer Abteilung bereitgestellt werden. Diese Daten sollten qualitativ hochwertig, zeitnah und in einer benutzerfreundlichen Form zur Verfügung stehen. Die Idee der Data as a Product-Welt ist, dass der Konsument darauf vertrauen kann, dass die Daten korrekt sind, ohne sich selbst darum kümmern zu müssen.
Microsoft Fabric unterstützt dieses Prinzip, indem es ermöglicht, Workspaces in sichere Domänen zusammenzufassen, sodass Daten nur in einer geschützten Form konsumiert werden können. Dadurch wird sichergestellt, dass der Zugriff auf die Daten kontrolliert und sicher erfolgt.
Shortcutting statt Kopieren – Effiziente Integration vorhandener Daten
In vielen Unternehmen existieren bereits etablierte Dateninfrastrukturen, sei es in Form von On-Premise-Systemen oder Cloud-Speichern wie Amazon S3 oder Google Cloud. Anstatt diese Daten physisch in OneLake zu kopieren, bietet Microsoft die Möglichkeit des Shortcutting. Diese Funktion erstellt eine strukturelle Repräsentation der Quelldaten im OneLake, als wären sie tatsächlich dort gespeichert. Dies spart Zeit und Ressourcen, da keine Daten dupliziert werden müssen.
Ein Beispiel aus der Praxis zeigt, dass Reporting auf geshortcutteten Daten eine hervorragende Performance liefern kann. In einem Kundenprojekt haben wir eine Report-Performance von 1-3 Sekunden erreicht, ohne die Daten physisch in OneLake zu verschieben. Ein Vergleich mit einem Tool außerhalb des Azure/Microsoft Fabric/Databricks-Kosmos zeigte zudem, dass das externe Tool zwar nur geringfügig langsamer in der Performance war, aber deutlich höhere Kosten verursachte. Dies lag an den zusätzlichen Lizenzgebühren und dem höheren Verwaltungsaufwand.
Natürlich bewegen wir uns nicht nur im Microsoft-Universum, sondern viele Unternehmen arbeiten mit einer Vielzahl von Datenquellen außerhalb von Azure. Ein typisches Beispiel sind Unternehmen, die auf AWS setzen und ihre Daten in Amazon S3 Buckets speichern. Auch diese können wir problemlos shortcutten, da die Daten im Delta Parquet Format vorliegen, das sowohl von OneLake als auch von S3 unterstützt wird. Dies ermöglicht eine nahtlose Integration, ohne dass Daten physisch bewegt werden müssen.
Ähnlich verhält es sich mit Databricks, das ebenfalls vollständig in den Shortcutting-Prozess integriert werden kann. Auch Google Cloud ist mittlerweile eingebunden, sodass Daten aus Google Cloud Storage genauso wie aus anderen Plattformen shortcutten werden können. Das bietet Unternehmen eine hohe Flexibilität, wenn sie bereits auf unterschiedlichen Cloud-Plattformen arbeiten und deren Daten effizient in OneLake integrieren möchten.
Für On-Premise-Systeme gibt es zudem eine spannende Lösung. Microsoft Fabric bietet "Aufsätze" an, die es ermöglichen, On-Premise-Dateisysteme so zu konfigurieren, dass sie S3-kompatibel sind. Das bedeutet, dass Unternehmen, die weiterhin auf lokal gespeicherte Daten angewiesen sind, diese ebenfalls shortcutten können, ohne ihre Infrastruktur komplett umstellen zu müssen. Solange das On-Premise-System entsprechend sicherheitstechnisch aufgebaut ist und eine Verbindung zur Cloud herstellen kann, lassen sich auch diese Dateien in OneLake einbinden und wie Cloud-basierte Daten nutzen.
Datenbankspiegelung in OneLake
Ein weiterer großer Vorteil von OneLake ist die Möglichkeit, Datenbanken zu spiegeln, ohne dabei umfangreiche ETL-Prozesse (Extract, Transform, Load) aufsetzen zu müssen. Normalerweise erfordert die Integration von Datenbanken in ein zentrales System wie einen Data Lake komplexe ETL-Pipelines, um die Daten zu extrahieren, zu transformieren und an die entsprechende Stelle zu laden. Dieser Prozess kann zeitaufwendig und ressourcenintensiv sein, insbesondere in Umgebungen mit ständig wechselnden und wachsenden Datenmengen.
Mit OneLake entfällt dieser Aufwand, da die Datenbankspiegelung auf struktureller Ebene funktioniert. Das bedeutet, dass die Datenbanken direkt im OneLake abgebildet werden – inklusive ihrer Tabellen, Felder und Relationen – ohne dass physische Kopien der Daten erstellt werden müssen. Diese strukturelle Abbildung sorgt dafür, dass OneLake sofort auf die Daten zugreifen kann, während sie weiterhin in ihrem Ursprungsort gespeichert bleiben.
Ein weiterer entscheidender Vorteil ist, dass Änderungen in der zugrunde liegenden Datenbank automatisch in die Spiegelung übernommen werden. Neue Tabellen oder geänderte Datensätze müssen nicht manuell integriert werden. Stattdessen wird die Spiegelung kontinuierlich aktualisiert, sodass die Daten in OneLake in nahezu Echtzeit zur Verfügung stehen. Das ist besonders wertvoll in dynamischen Datenlandschaften, in denen regelmäßig neue Daten hinzukommen oder sich ändern.