Data Lakes und ELT – der neue Trend?

Data Lakes und ELT – der neue Trend?

Als nächstes wurde die Data-Lake-Strategie entwickelt. Data Lakes sind Datenbanken, in denen riesige Mengen an Rohdaten solange in ihrem nativen Format gehalten werden, bis man sie benötigt. In vielen Fällen handelt es sich bei Data Lakes um Hadoop-basierte Systeme, die in puncto Leistungsfähigkeit und Flexibilität die nächste Entwicklungsstufe darstellen. Ein großer Vorteil dieser Systeme liegt darin, dass die Daten vor der Abfrage nicht strukturiert, also nicht nach dem „Schema-on-write”’-Prinzip abgespeichert werden müssen. Im Gegenteil, erst bei der Abfrage wird den Daten eine Struktur zugewiesen („Schema-on-read”-Prinzip). In solchen „Datenseen’” lassen sich tatsächlich große Mengen unstrukturierter Daten kosteneffizient halten. Doch für interaktive Analysen, bei denen schnelle Ergebnisse oder Echtzeitdaten benötigt werden, sind Data Lakes unzureichend.

Der vermehrte Einsatz von Data Lakes ermöglicht den Wechsel von ETL zu ELT (Extrahieren, Laden und Transformieren). Anders als ETL-Prozesse, bei denen die Daten vor dem Laden in die Datenbank umgewandelt werden, nehmen ETL-Prozesse die Daten im Rohzustand auf und verkürzen damit die Ladezeit erheblich. Der Gedanke dahinter: Data-Lake-Speichertechnologien sind hinsichtlich der Datenstruktur nicht wählerisch. Deshalb ist kein Entwicklungsaufwand nötig, um die Daten vor der Abfrage und Analyse in die richtige Struktur zu überführen. Alle Daten werden einfach in den Data Lake „geschüttet’” bzw. Dort „geparkt’’. Jeder weitere Vorgang, jede Umwandlung kann innerhalb dieser Datenbank erfolgen – und zwar zu dem Zeitpunkt, an dem es erforderlich ist.

Data Lakes sind ein verlockendes Konzept. Doch leider halten sie nicht das, was sie versprechen und zwar aus verschiedenen Gründen: Oberstes Ziel eines Data Lakes ist die Vereinfachung und Beschleunigung der Datenbankvorgänge. Doch  häufig verkompliziert er sie durch zusätzliche Arbeitsschritte, mit denen die Daten für die Analyse aufbereitet werden. Und obwohl Data Lakes die Ladeprozesse erheblich erleichtern, müssen alle Daten nach wie vor an einen zentralen Ort verschoben oder kopiert werden, bevor sie zu Analysezwecken abgefragt werden können. Diesen Nachteil haben sie mit traditionellen Data Warehouses, die mit ETL arbeiten, gemeinsam. Denn die Latenzzeiten beim Laden der Daten lassen sich nicht aus der Analysedaten-Lieferkette eliminieren, auch wenn diese im Vergleich zum Data Warehouse erheblich kürzer sind. Ein weiteres Manko des Data Lakes sind die  so genannten Data Swamps (Datensümpfe), auch Data Graveyards (Datenfriedhöfe) genannt: Die Data-Lake-Methode hat häufig den Effekt, dass wegen der niedrigeren Speicherkosten sehr viel mehr Daten in der Datenbank abgelegt werden als beim ETL-Konzept. Die Unternehmen laden und speichern erheblich mehr Informationen, als sie tatsächlich analysieren können. Jedes Laden nimmt aber Zeit, Speicher und Netzwerkressourcen in Anspruch. Somit verursachen unnötige Ladevorgänge Kosten und weitere Latenzzeiten – und verzögern so die zeitnahe Verarbeitung analytisch wertvollerer Daten.

Data Lakes und ELT-Prozesse führen zwar die Daten an einem Ort zusammen - doch sie bieten weder schnelle Abfrageergebnisse wie analytische Datenbanken noch einen Echtzeitzugriff auf die Daten.