Data Federation – endlich eine Erleichterung

Data Federation – endlich eine Erleichterung

Während die Mehrheit der Datenanalysten damit beschäftigt war, die relationalen Datenbanken zu Cubes, analytischen Datenbanken und Data Lakes weiterzuentwickeln, versuchte ein anderes Lager, Daten mithilfe der Data-Federation-Methode zu integrieren.

Data Federation ist eine Methode, mit der man Sofortabfragen mehrerer, voneinander unabhängiger Datenbanken durchführen kann, ohne die Daten aus den ursprünglich operationalen Quellen in eine zentrale Analysedatenbank zu kopieren oder zu verschieben. Angesichts der Promptheit, mit der hier Daten analysiert werden konnten, stellte dieser Ansatz eine signifikante Verbesserung im Vergleich zu allen anderen Vorgänger-Technologien dar.

Die Idee ist also gut, ihr Nutzen jedoch nicht unbestritten – denn Data Federation allein ist bei großen Datenmengen oder vielen parallel arbeitenden Nutzern keine skalierbare Lösung. Zudem ist sie stark abhängig von der Geschwindigkeit und Stabilität der Quellsysteme und des Netzwerks. Ihre Performance leidet in der Regel sowohl unter den Datenanalyse als auch unter den Produktionsprozessen. Data Federation ist also schnell und flexibel, doch an sich nicht skalierbar oder besonders verlässlich. Aber sie ist ein wichtiger Schritt in die richtige Richtung.

Die nächste Phase der Entwicklung bestand aus einer Kombination der Data-Federation-Methode mit Cache-Datenbanken, um die beschriebenen Probleme zu beheben. Dieses hybride Konzept griff auf Big-Data-Lösungen zurück, um das Data Warehousing zu ergänzen. Das Ergebnis war ein Mix aus Datenbanken, Virtualisierung und verteilten Prozessen für Datenmanagement, das die größten Vorzüge verschiedener Technologien miteinander verband. Doch ein robustes, agiles und leistungsstarkes Data Warehouse konnte auch dieses Konzept nicht bieten. Caching kann problematisch sein, denn die Cache-Auslastung muss um die Performance der Quellsysteme herum geplant werden. Außerdem wird der Cache in eine Datenbank geladen, die nicht unbedingt für die Aufnahme verschiedener Datenbestände bzw. Datentypen optimiert wurde.

Um sich dem modernen Data Warehouse anzunähern, ist die virtuelle Datentechnologie von wesentlicher Bedeutung: von der einfachen Data Federation hin zur Virtualisierung, virtuellen Ansichten, Indizes und semantisch vereinheitlichten Datenzugriffsschichten. Die Entwicklung virtueller oder logischer Datenansichten nimmt weniger Zeit in Anspruch als die physische Verschiebung aller Daten und kann mühelos per Mausklick erfolgen. Obendrein können virtuelle Ansichten verändert werden, ohne – wie bei früheren Data-Warehouse-Integrationsmethoden – die Daten umzuwandeln und neu zu laden. Das bedeutet: die Änderungen lassen sich umgehend live darstellen, ohne eine Nacht lang auf das Laden der Daten zu warten. Die Virtualisierung der Datenintegration ermöglichte eine extreme Agilität in der Entwicklung und reduzierte die Aufbauzeiten und -Kosten erheblich. Und sie führte zum nächsten Durchbruch im Data Warehousing.