ETL Tools und Prozesse Überblick 2019

Einleitung

90% der heute existierenden Daten sind erst in den letzten zwei Jahren erstanden. Laut Domo liegt unsere aktuelle Datenausgabe bei etwa 2,5 Trillionen Bytes pro Tag. Im Laufe der Zeit und durch die technologische Entwicklung sind Daten zu einem wesentlichen Teil und einem Schlüsselfaktor für den wirtschaftlichen Geschäftserfolg geworden. Vor allem die Bearbeitung ist für viele Unternehmen zu einer entscheidenden Komponente geworden. Aber bevor wir tiefer in dieses Thema eintauchen, sollten wir zunächst mit den Grundlagen beginnen. Was sind Daten eigentlich?

Big Data und die Probleme im Umgang mit großen Datenmengen

Definitionen über Big Data im Internet gibt es mittlerweile wie Sand am Meer. Für unsere Zwecke definieren wir Daten als Rohdaten oder unbearbeitete Informationen. In den letzten Jahrzehnten haben diese unbearbeiteten Informationen mehr und mehr an Bedeutung gewonnen, weil Unternehmen erkannt haben, dass diese Daten die Art und Weise wie wir leben, arbeiten und denken verändern können. Und so begann der Hype um Big Data.

Doch Big Data sind erst dann als Rohdaten von großem Wert, wenn sie gut strukturiert, analysiert und interpretiert werden können. Nur gut analysierte und interpretierte Daten können aussagekräftige Geschäfts- und Marktinformationen liefern. Doch genau hier lag das Problem: Mit herkömmlichen Datenintegrationslösungen wie dem klassischen ETL war es nicht möglich, Big Data so zu organisieren und zu strukturieren, dass sie für Analysen schnell und einfach verfügbar sind.

Datenintegrationslösungen wurden entwickelt, um den größten Teil der BI-Anforderungen eines Unternehmens zu erfüllen. Um dies zu erreichen, erweitern einige ETL Anbieter ihre Produktlinien horizontal, bieten Datentools und Funktionen zur Erfassung von Echtzeitdaten und sogar komplette Datenmanagementlösungen an. Dann gibt es andere, die sich vertikal erweitern, indem sie weitere Funktionen hinzufügen, um eine komplette Business Intelligence Lösung bereitzustellen.

Die Entwicklung von ETL

Data Warehouses und ETL Tools wurden erfunden, um alle Daten nutzen zu können. Viele ETL Tools wurden ursprünglich entwickelt, um die Entwicklung von Data Warehouses zu erleichtern. Heute haben die führenden ETL Tools auf dem Markt ihre Funktionalität mitData Profiling, Data Cleansing, Enterprise Application Integration (EAI), Big Data Processing, Data Governance und Master Data Management erheblich erweitert. Sobald die Daten in einem Data Warehouse verfügbar sind, werden sie in der Regel mit einer

BI-Software analysiert und visualisiert. Eine BI-Software unterstützt Sie beim Reporting, bei der Datenermittlung, beim Data Mining und beim Dash Boarding.

Aber was genau sind Data Warehouse und ETL? Im Laufe der Jahre haben sich viele verschiedene Vorstellungen von diesen beiden Begriffen entwickelt. Lassen Sie uns daher zunächst eine gemeinsame Basis für diesen Artikel festlegen. Die gebräuchlichste Definition für Data Warehouse auf dem Markt ist: Ein System, das Quelldaten extrahiert, bereinigt, anpasst und in einen Zielspeicher liefert, damit sie für Abfragen und Analysen verwendet werden können. Die Hauptaufgabe besteht darin, zuverlässige und genaue Daten zu liefern, die für wichtige Geschäftsentscheidungen verwendet werden können. Um dies zu erreichen, müssen Daten aus einem oder mehreren operativen Systemen extrahiert und in das Data Warehouse kopiert werden, was durch ETL Tools geschieht.

ETL ist die Abkürzung für Extraktion (Extract), Transformation (Transform) und Laden (Load). Und was diese Tools im Grunde genommen tun, ist, Daten aus einer oder sogar mehreren Datenbanken herauszuholen und diese in eine Datenbank, dem so genannten Zielspeicher, zu laden.

Wie funktioniert ETL?

Extraktion

Im Extraktionsschritt werden die Daten aus einer oder mehreren Quellsystemen herausgezogen und für die weiteren Bearbeitungsschritte bereitgestellt. Das Ziel ist es, die Daten so bereitzustellen, dass sie mit möglichst wenigen Ressourcen abrufbar sind. Weiterhin ist es wichtig, dass dieser Schritt so gestaltet ist, dass das Quellsystem hinsichtlich Performance und Antwortzeit nicht beeinträchtigt wird.

Transformation

In diesem Schritt werden Daten von der Quell- in die Zieldatenbank transformiert. Entscheidend ist, dass alle extrahierten Daten aus den Quellsystemen mit möglichst wenig Ressourcen abgerufen werden. Dazu gehört die Konvertierung aller extrahierten Daten in die gleiche Dimension mit den gleichen Einheiten, so dass sie später zusammengefügt werden können. Der Transformationsschritt sammelt auch Daten aus verschiedenen Quellen, generiert neuberechnete Werte und wendet erweiterte Validierungsregeln an.

Laden

Während des Ladeschritts ist darauf zu achten, dass das Laden korrekt und mit möglichst wenig Ressourcen durchgeführt wird. Während des Ladevorgangs werden die Daten in die Zieldatenbank geschrieben.

Was sind die Vorteile von ETL?

Der Hauptvorteil von ETL Tools ist, dass sie viel einfacher und schneller zu verwenden sind als herkömmliche Methoden, die Daten durch manuelles Schreiben und ETL von Codes bewegen. ETL Tools enthalten grafische Oberflächen, die das Mapping von Tabellen und Spalten zwischen Quell- und Zielspeicher beschleunigen.

 

Nachfolgend einige wichtige Vorteile der ETL Tools:

Einfache Bedienung durch automatisierte Prozesse

Wie bereits eingangs erwähnt, liegt der größte Vorteil von ETL Tools in der einfachen Handhabung. Nachdem Sie die Datenquellen ausgewählt haben, identifiziert das Tool automatische die Typen und Formate der Daten, legt die Regeln fest, wie die Daten extrahiert und verarbeitet werden müssen und lädt die Daten schließlich in den Zielspeicher. Das macht das Coding im herkömmlichen Sinne überflüssig, bei dem Sie jede einzelne Prozedur und jeden einzelnen Code schreiben müssen.

Visueller Fluss

ETL Tools basieren auf einer grafischen Benutzeroberfläche (GUI) und bieten einen visuellen Ablauf der Systemlogik. Das GUI ermöglicht es Ihnen den Datenprozess per Drag & Drop zu visualisieren.

Betriebliche Belastbarkeit

Viele Data Warehouses sind während des Betriebs anfällig. ETL Tools verfügen über eine integrierte Fehlerbehandlungsfunktionalität, die Data Engineers hilft, einen robusten und gut instrumentierten ETL Prozess zu entwickeln.

Geeignet für komplexe Datenverwaltungssituationen

ETL Tools eignen sich hervorragend, um große Datenmengen zu bewegen und in Stapeln zu übertragen. Bei komplizierten Regeln und Transformationen vereinfachen ETL Tools die Arbeit und unterstützen Sie bei der Datenanalyse und Stringmanipulation, bei Datenänderungen sowie der Integration mehrerer Datensätze.

Erweiterte Datenprofilierung und Bereinigung

Die erweiterten Funktionen beziehen sich auf die Transformationsanforderungen, die in einem strukturell komplexen Data Warehouse häufig auftreten.

Erweiterte Business Intelligence

Der Datenzugriff ist mit ETL Tools einfacher und besser, da sie den Prozess des Extrahierens, Transformierens und Ladens vereinfachen. Ein verbesserter Zugang zu Informationen wirkt sich direkt auf jene strategischen und operativen Entscheidungen aus, die auf datengetriebenen Fakten basieren. ETL Tools ermöglichen es Führungskräften, auch Informationen auf der Grundlage ihrer spezifischen Bedürfnisse abzurufen und entsprechende Entscheidungen zu treffen.

Hoher Return on Investment (ROI)

ETL Tools helfen Unternehmen, Kosten zu sparen und dadurch höhere Umsätze zu erzielen. Eine von der International Data Corporation durchgeführte Studie hat ergeben, dass die Implementierung von ETL zu einem durchschnittlichen 5 Jahres ROI von 112% mit einer durchschnittlichen Amortisation von 1,6 Jahren führte.

Leistung

ETL Tools vereinfachen den Aufbau eines hochwertigen Data Warehouses. Darüber hinaus sind mehrere ETL Tools mit leistungssteigernden Technologien ausgestattet. Zum Beispiel Cluster Awareness Anwendungen, die eigentlich Softwareanwendungen sind und die dazu bestimmt sind, Cluster APIs aufzurufen, um ihren Betriebszustand zu bestimmen. Dies geschieht, falls ein manuelles Failover zwischen Cluster Knoten für geplante technische Wartung ausgelöst wird oder ein automatisches Failover erforderlich ist, wenn ein Computer Cluster Knoten auf Hardware trifft.

ETL Probleme

Die Vorteile, die wir oben beschrieben haben, beziehen sich alle auf das traditionelle ETL. Traditionelle ETL Tools können jedoch nicht mit der hohen Geschwindigkeit der Veränderungen Schritt halten, die die Big Data Industrie beherrschen. Lassen Sie uns einen Blick auf die Unzulänglichkeiten dieser traditionellen ETL Tools werfen.

Herkömmliche ETL-Tools sind sehr zeitaufwändig. Datenverarbeitung mit ETL bedeutet, einen Prozess in mehreren Schritten zu entwickeln, wenn Daten bewegt und transformiert werden müssen. Außerdem sind herkömmliche ETL-Tools unflexibel für Änderungen und können keine lesbaren Live-Daten in das BI-Frontend laden. Wir müssen auch erwähnen, dass es sich nicht nur um einen kostspieligen, sondern auch um einen zeitaufwendigen Prozess handelt. Und wir alle wissen, dass Zeit Geld ist.

Es gibt einige Faktoren, die die Funktion von ETL-Tools und -Prozessen beeinflussen. Diese Faktoren werden in die folgenden Kategorien eingeteilt:

 

Daten Architektur Probleme

 

Ähnlichkeit von Quell- und Zieldatenstrukturen

Je mehr sich die Quelldatenstruktur von derjenigen der Zieldaten unterscheidet, desto komplexer wird der traditionelle ETL Verarbeitungs- und Pflegeaufwand. Aufgrund der unterschiedlichen Strukturen muss der Ladeprozess typischerweise die Datensätze analysieren, Werte transformieren, Werte validieren, Codewerte ersetzen etc.

Qualität der Daten

Häufige Probleme mit der Datenqualität sind fehlende Werte, nicht korrekte Codewerte, Daten und Probleme mit der referentiellen Integrität. Es macht keinen Sinn, das Data Warehouse mit Daten schlechter Qualität zu beladen. Wenn das Data Warehouse beispielsweise für Database Marketing genutzt wird, sollten die Adressen validiert werden, um einen Absprung / Bounce von E-Mails zu vermeiden.

Komplexität der Quelldaten

Je nach Hintergrund des Sourcing-Teams sind einige Datenquellen komplexer als andere. Beispiele für komplexe Quellen können mehrere Satztypen, Bitfelder und gepackte Dezimalfelder sein. Diese Art von Daten wird in Anforderungen des ETL Tools oder einer kundenspezifischen Lösung umgesetzt, da sie in den Zieldatenstrukturen wahrscheinlich nicht vorhanden ist. Personen im Sourcing Team, die mit diesen Typen nicht vertraut sind, müssen möglicherweise einige Untersuchungen in diesen Bereichen durchführen.

Abhängigkeiten in den Daten

Abhängigkeiten in den Daten bestimmen die Reihenfolge, in der Sie Tabellen laden. Abhängigkeiten neigen auch dazu, parallele Ladevorgänge zu reduzieren, insbesondere wenn Daten aus verschiedenen Systemen zusammengeführt werden, die sich in einem anderen Geschäftszyklus befinden. Komplexe Abhängigkeiten werden auch dazu führen, dass Prozesse komplexer werden, Engpässe entstehen und der Support erschwert wird.

Metadaten

Technische Metadaten beschreiben nicht nur die Struktur und das Format der Quell- und Zieldatenquellen, sondern auch die Abbildungs- und Transformationsregeln zwischen ihnen. Metadaten sollten sowohl für Programme als auch für Personen sichtbar und nutzbar sein.

 

Probleme mit der Anwendungsarchitektur

 

Loggen/ Protokollierung

ETL Prozesse sollten Informationen über die Datenquelle, die sie lesen, transformieren und schreiben, protokollieren. Zu den wichtigsten Informationen gehören das Verarbeitungsdatum, die Anzahl der gelesenen und geschriebenen Zeilen, der aufgetretene Fehler und die angewandten Regeln. Diese Informationen sind entscheidend für Qualitätssicherung und dienen als Audit-Trail. Der Protokollierungsprozess sollte so streng sein, dass Sie die Daten im Data Warehouse bis zur Quelle zurückverfolgen können. Darüber hinaus, sollten diese Informationen verfügbar sein, da die Prozesse laufen, um die Bearbeitungszeiten zu verkürzen.

Benachrichtigung

Die ETL Anforderungen sollten festlegen, was eine akzeptable Last ausmacht. Der ETL Prozess sollte die entsprechenden Supportmitarbeiter, wenn eine Last ausfällt oder Fehler aufweist, benachrichtigen. Im Idealfall sollte der Benachrichtigungsprozess in Ihr bestehendes Fehlerverfolgungssystem integriert werden.

Kaltstart, Warmstart

Leider stürzen Systeme ab. Sie müssen in der Lage sein, die entsprechenden Maßnahmen zu ergreifen, wenn das System bei laufendem ETL Prozess abstürzt. Teilladungen können im wahrsten Sinne des Wortes schmerzhaft sein. Abhängig von der Größe Ihres Data Warehouses und Ihrer Volumendaten möchten Sie von neuem Beginnen, ein sogenannter Kaltstart, oder von den zuletzt erfolgreich geladenen Datensätzen aus weiter machen, ein so genannter Warmstart. Der Logging Prozess sollte Ihnen Informationen über den Zustand des ETL Prozesses liefern.

 

Personalthemen

 

Management Komfort mit Technologie

Wie vertraut ist Ihr Management mit der Data Warehouse Architektur? Werden Sie einen Data Warehouse Manager haben? Hat das Management Entwicklung im Hintergrund? Sie können vorschlagen, alle ETL Prozesse mit Visual Basic durchzuführen. Das Komfortniveau ist ein berechtigtes Anliegen, und diese Bedenken werden Ihre Möglichkeiten einschränken.

In-House Know-How

Was ist die Tradition Ihres Unternehmens? SQL Server? ETL Lösungen werden aus aktuellen Konzepten, Fähigkeiten und Toolsets abgeleitet. Das Erfassen, Transformieren und Laden des Data Warehouses ist ein fortlaufender Prozess und muss mit der Erweiterung des Data Warehouses um weitere Themenbereiche gepflegt und erweitert werden. Hierfür verbrauchen Sie mit dem passenden Tool langfristig weniger Ressourcen.

Support

Sobald die ETL Prozesse erstellt sind, sollten Sie sich idealerweise in eine bestehende Supportstruktur einbinden, einschließlich Personen mit entsprechenden Fähigkeiten, neuen Benachrichtigungsmechanismen und Fehlerverfolgungssystemen. Wenn Sie ein Tool für ETL verwenden, muss das Supportpersonal eventuell geschult werden. Generell sollte der ETL Prozess dokumentiert werden, insbesondere im Bereich der Revisionsinformationen.

 

Technologiearchitektur Probleme

 

Interoperabilität zwischen den Plattformen

Es muss einen Weg geben wie Systeme auf einer Plattform mit Systemen auf einer anderen Plattform kommunizieren können. FTP ist ein üblicher Weg, um Daten von einem System zum anderen zu übertragen. FTP erfordert einen physikalischen Netzwerkpfad von einem System zum anderen sowie das Internetprotokoll auf beiden Systemen. Externe Datenquellen kommen in der Regel auf einem Diskettenband oder einem Internetserver.

Volumen und Häufigkeit der Belastungen

Da das Data Warehouse mit Batch Programmen geladen ist, wird ein hohes Datenvolumen das Batch Fenster eher verkleinern. Das Datenvolumen wirkt sich auch auf die Back Out und Recovery Arbeiten aus. Schnelle Ladeprogramme reduzieren die Ladezeit der Daten in das Data Warehouse.

Festplattenspeicher

Das Data Warehouse benötigt nicht nur viel Speicherplatz, sondern auch viel versteckten Speicherplatz für Staging Bereiche und Zwischendateien. Beispielsweise können Sie Daten aus Quellsystemen in flache Dateien extrahieren und diese dann in andere flache Dateien zum Laden transformieren.

Planung

Das Laden des Data Warehouses kann Hunderte von Quelldateien beinhalten, die auf verschiedenen Systemen mit unterschiedlicher Technologie und zu unterschiedlichen Zeiten erstellt wurden. Eine monatliche Belastung kann für einige Teile des Warehouses und eine vierteljährliche Belastung für andere üblich sein. Einige Lasten können auf Anfrage sein, wie z.B. Produktlisten oder externen Daten. Einige Extraktionsprogramme können auf einem anderen System laufen als Ihr Scheduler.

Liste von ETL Tools

In der folgenden Liste sehen Sie die gebräuchlichsten traditionellen ETL Tools dieser Tage:

  • Oracle Warehouse Builder (OWB)
  • SAP Data Services
  • IBM Infosphere Information Server
  • SAS Data Management
  • PowerCenter Informatica
  • Elixir Repertoire for Data ETL
  • Data Migrator (IBI)
  • SQL Server Integration Services (SSIS)
  • Talend Studio for Data Integration
  • Sagent Data Flow
  • Alteryx
  • Actian DataConnect
  • Open Text Integration Center
  • Oracle Data Integrator (ODI)
  • Cognos Data Manager
  • Microsoft SQL Server Integration Services (MSSIS)
  • CloverETL
  • Centerprise Data Integrator
  • IBM Infosphere Warehouse Edition
  • Pentaho Data Integration
  • Adeptia Integration Server
  • Syncsort DMX
  • QlikView Expressor
  • Realtional Junction ETL Manager (Sesame Software)

Implementierung von ETL

Unternehmen mit bereits klar definierten IT-Praktiken befinden sich in einem innovativen Schritt, um die nächste Stufe der Technologietransformation zu schaffen, indem sie ein eigenes Data Warehouse zur Speicherung und Überwachung von Echtzeitdaten aufbauen. Wir müssen im Detail erklären, wie jeder Schritt des ETL Prozesses durchgeführt werden kann.

Der erste Teil eines ETL Prozesses besteht darin, die Daten aus dem Quellsystem zu extrahieren. In vielen Fällen ist dies der wichtigste Aspekt von ETL, da die Datenextraktion die Grundlage für den Erfolg der nachfolgenden Prozesse bildet.

Es gibt mehrere Möglichkeiten, den Extraktionsschritt durchzuführen:

  • Update Benachrichtigung: wenn das Quellsystem in der Lage ist, eine Benachrichtigung über die Änderung eines Datensatzes zu liefern und die Änderung zu beschreiben
  • Inkrementelles Extrahieren: einige Systemen sind möglicherweise nicht in der Lage, eine Benachrichtigung über eine erfolgte Aktualisierung zu geben, aber sie sind in der Lage, die geänderten Datensätze zu identifizieren und einen Auszug aus diesen Datensätzen bereitzustellen. Bei weiteren ETL Schritten muss das System Änderungen erkennen und nach unten propagieren. Beachten Sie aber, dass Sie durch die Verwendung des täglichen Extraktes möglicherweise nicht in der Lage sind, gelöschte Datensätze korrekt zu behandeln
  • Vollständiger Extrakt: einige Systeme sind nicht in der Lage zu erkennen, welche Daten überhaupt geändert wurden, daher ist ein vollständiger Extrakt die einzige Möglichkeit, die Daten aus dem System zu bekommen. Der vollständige Extrakt erfordert, dass eine Kopie des letzten Extrakts im gleichen Format aufbewahrt wird, um Änderungen erkennen zu können.

In der Phase der Datentransformation werden eine Reihe von Regeln oder Funktionen auf die extrahierten Daten angewendet, um sie für das Laden in den Zielspeicher vorzubereiten.

Die Transformation der Daten umfasst die folgenden Aufgaben:

  • Anwendung von Geschäftsregeln
  • Datenbereinigung
  • Filtern der Daten
  • Aufteilung einer Kolumne in mehrere Kolumnen
  • Zusammenführung von Daten aus verschiedenen Quellen
  • Transponieren von Zeilen und Kolumnen
  • Anwendung jeder Art von einfacher oder komplexer Datenvalidierung

Der Ladeprozess lädt die Daten in den Zielspeicher, der eine einfache flache Datei oder ein Data Warehouse sein kann. Abhängig von den Anforderungen der Organisation ist dieser Prozess sehr unterschiedlich. Da die Ladephase mit einem Zielspeicher interagiert, tragen die im Zielspeicherschema definierten Einschränkungen sowie die beim Laden der Daten aktivierten Trigger und deren Anwendung ebenfalls zur Gesamtleistung der Datenqualität des ETL Prozesses bei.

Nutzen Sie ETL Tools um Ihre Geschäftsprozessen zu verbessern

 

ETL ist ein wichtiger Bestandteil der heutigen Business Intelligence. ETL ist jeder Geschäftsprozess, aus dem Daten aus unterschiedlichen Quellen an einem Ort zusammengeführt werden können, um Geschäfts Einblicke programmatisch zu analysieren und zu entdecken. Die Einführung einer integrierten Strategie mit Hilfe von ETL Tools und Prozessen gibt einem Unternehmen einen Wettbewerbsvorteil, da es seine Daten auf diese Weise nutzen und dann datengetriebene Entscheidungen treffen kann. Aber warum ist ein ETL Prozess eigentlich so wichtig? Einfach gesagt: Es erhöht den Wert der Daten. Dies wird erreicht durch die Dokumentation, welche das Vertrauen in die Daten steigert, die Erfassung des Transaktions Flusses, die Anpassung von Daten aus verschiedenen Quellen,die Strukturierung von Daten an BI-Tools und die anschließende analytische Datenverarbeitung.Laut Harvard Business Review müssen Sie keine enormen Vorabinvestitionen in die IT tätigen, um Big Data mit ETL Tools zu nutzen. Hier ist ein Ansatz, um eine Fähigkeit aufzubauen:

Wählen Sie eine Geschäftseinheit, die den Grundstein legen soll. Es sollte einen quantitativ versierten Leiter haben, der von einem Team von Daten Wissenschaftlern unterstützt wird.

  1. Fordern Sie jede Schlüsselrolle heraus, fünf Geschäftsmöglichkeiten auf der Grundlage Big Data zu identifizieren, von denen jede innerhalb von fünf Wochen von einem Team von nicht mehr als fünf Personen erstellt werden könnte.
  2. Implementieren Sie einen Innovationsprozess, der vier Schritte umfasst: Experimentieren, Messen, Teilen und Replizieren.
  3. Denken Sie an Joy’s Gesetz: Die meisten der cleversten Leute arbeiten für jemand anderen. Öffnen Sie einige Ihrer Datensätze und Analyse-Herausforderungen für Interessierte im Internet.

Was bei einem ETL Projekt normalerweise schief läuft

Laut Spaceworks gehen technische Projekte in der Regel über die Zeit und das Budget hinaus. Genauer gesagt liegen 45% über dem Budget, 7% über der Zeit und erzielen 56% weniger Wert als vorhergesagt. Ihr ETL Projekt wird wahrscheinlich nicht immun sein. Hier sind die häufigsten Fehler, die bei einem ETL Projekt auftreten:

  • Vergessen der langfristigen Wartung
  • Unterschätzung der Anforderungen an die Datentransformation
  • Der Verzicht auf den Kunden-Entwicklungsprozess
  • Enge Verbindung verschiedener Elemente Ihrer Datenpipeline
  • Aufbau Ihres ETL Prozesses auf Basis Ihrer aktuellen Datenmenge
  • Nicht erkennen der Warnzeichen
  • Konzentration auf Werkzeuge und Technologien statt auf grundlegende Praktiken.

Bedeutung von ETL Testing

ETL Tests können entweder manuell oder mit Tools wie Informatica, Querysurge usw. durchgeführt werden. Der größte Teil des ETL Testprozesses wird jedoch durch SQL Scripting oder manuell auf Tabellenkalkulationen ausgeführt. Der Einsatz von automatisierten Testwerkzeugen stellt sicher, dass nur vertrauenswürdige Daten auf Ihr System gelangen. Die Arten von Tests, die mit ETL Tools durchgeführt werden können, umfassen Einheit, Funktion, Regression, kontinuierliche Integration, Betriebsüberwachung und mehr. Ihr Unternehmen kann die Testzeit um 50% bis 90% reduzieren und die Ressourcenauslastung verringern. ETL Tests senken die Geschäftsrisiken und schaffen Vertrauen in die Daten.

ETL Tests spielen eine wichtige Rolle bei der Überprüfung, Validierung und Sicherstellung, dass die Geschäftsinformationen genau, konsistent und zuverlässig sind. Teil des ETL Tests ist das datenzentrische Testen, bei dem große Datenmengen über heterogene Datenquellen hinweg verglichen werden. Dieses datenzentrische Testen hilft, eine hohe Datenqualität zu erreichen, indem die fehlerhaften Prozesse schnell und effektiv behoben werden. ETL und Data Warehouse Tests sollten von einer Wirkungsanalyse gefolgt werden und sich auf eine starke Abstimmung zwischen Entwicklung, Betrieb und den Teams im Unternehmen konzentrieren.

Arten von ETL Tests

Die Arten der ETL Prüfung sind die folgenden:

  • Data Centric Test: hierbei gilt es die Qualität der Daten zu testen. Ziel der datenzentrischen Prüfung ist es, sicherzustellen, dass gültige und korrekte Daten im System vorhanden sind. Es stellt sicher, dass ETL Prozesse korrekt auf die Quelldatenbank angewendet werden, die Daten in die Zieldatenbank transformieren und laden. Es stellt außerdem sicher, dass eine ordnungsgemäße System Migration und Upgrades durchgeführt werden
  • Datengenauigkeitsprüfung: diese stellt sicher, dass die Daten genau wie erwartet transformiert und geladen werden. Durch dieses Testen können Sie Fehler identifizieren, die durch das Abscheiden von Zeichen, falsches Mapping von Spalten und Implementierungsfehler in der Logik entstehen
  • Prüfung der Vollständigkeit der Daten: überprüft, ob alle erwarteten Daten aus allen Datenquellen in den Zielspeicher geladen wurden. Es hilft zu überprüfen, ob die Anzahl der Zeilen in der Treiber Tabelle mit der in der Zieltabelle übereinstimmt
  • Datenintegritätstest: hilft bei der Überprüfung der Anzahl der nicht spezifizierten oder nicht angepassten Zeilen
  • Business Tests: stellt sicher, dass die Daten die kritischen Geschäftsanforderungen erfüllen
  • Datentransformation Test: ist mehr oder weniger gleichbedeutend mit Business Test. Dieser Test prüft aber auch, ob die Daten vollständig und genau verschoben, kopiert und geladen wurden
  • Produktionsvalidierungstests: werden in viele Fällen durchgeführt, da sie nicht durch das Schreiben von Quelle SQL Abfragen mit dem Ziel erreicht werden können.

ETL Test Probleme

Unternehmen müssen die Notwendigkeit erkennen, Daten zu testen, um die Vollständigkeit und Integrität der Daten zu gewährleisten. Sie müssen auch die Tatsache erkennen, dass umfassende Tests von Daten an jedem Punkt des ETL Prozesses wichtig und unvermeidlich sind, da mehr Daten gesammelt und für strategische Entscheidungen verwendet werden, die ihre Geschäftsprognose beeinflussen. Verschiede Strategien sind jedoch sehr zeitaufwändig, ressourcenintensiv und ineffizient. Daher ist ein gut durchdachter, klar definierter und effektiver ETL Testumfang notwendig, um eine reibungslose Umsetzung des Projekts in die finale Produktionsphase zu gewährleisten. Jetzt ist es an der Zeit, einige der Probleme zu sehen, die bei ETL und Data Warehouse Tests auftreten.

Einige der wichtigsten Herausforderungen beim Testen von ETL und Data Warehousing sind:

  •       Zeitweise Nichtverfügbarkeit des Inklusiv Prüfstandes
  •       Fehlender Fluss von Geschäftsinformationen
  •       Möglicher Datenverlust während des ETL Prozesses
  •       Vorhandensein vieler unklarer Software Anforderungen
  •       Vorhandensein von scheinbaren Problemen bei der Erfassung und Erstellung von Test Daten
  •       Die Produktionsmuster Daten stellen nicht alle möglichen Geschäftsprozesse dar
  •       Bestimmte Teststrategien sind zeitaufwändig
  •       Die Überprüfung der Vollständigkeit der Daten für transformierte Kolumnen ist ein kniffliger Prozess.

Die Notwendigkeit einer anderen Lösung

Im digitalen Zeitalter entstehen neue Anforderungen schneller als je zuvor, und bisherige Anforderungen ändern sich so schnell, dass Agilität und Reaktionsfähigkeit zu zwei wesentlichen Erfolgsfaktoren wurden. Aufgrund von Problemen, wie sie bereits oben erwähnt wurden, können traditionelle Data Warehouses den Anforderungen heutiger Unternehmen und den damit verbundenen digitalen Transformationstrends einfach nicht gerecht werden. Aufgrund der Unzulänglichkeiten des traditionellen ETL Tools Ansatzes entstanden neue Ansätze für die Datenverarbeitung, die im Detail als automatisierte ETL Prozesse bezeichnet wurden. Durch den Einsatz der neuesten Technologien in ETL Tools erzielen Unternehmen bemerkenswerte Ergebnisse wie: Verdoppelung der Produktivität durch einheitliche Datenintegration, zweifache Kostensenkung durch höhere Gesamteffizienz und optimierte Ressourcennutzung in einer Vielzahl von Projekten sowie quantifizierbare Geschäftsauswirkungen in Bereichen wie Umsatz, geringere

Geschäftskosten, Kundenbindung und mehr Zeit für die Konzentration auf den Hauptmarkt. Dieses ETL der nächsten Generation wurde von Deutschlands schnellsten wachsendem Startup, im Bereich Big Data, der Data Virtuality GmbH, mit Lösungen wie Data Virtuality Logical Data Warehouse, Data Virtuality Pipes und Data Virtuality Pipes Professional angeboten.

Über Data Virtuality GmbH

Data Virtuality entwickelt und vertreibt die Software Data Virtuality, die Unternehmen eine besonders einfache Möglichkeit bietet, eine Vielzahl von Daten und Anwendungen zu integrieren und zu verbinden. Die Lösung revolutioniert das technologische Konzept der Datenvirtualisierung und generiert in wenigen Tagen ein Data Warehouse aus relationalen und nicht relationalen Datenquellen. Über integrierte Konnektoren können die Daten sofort in Analyse-, Planungs- oder Statistiktools verarbeitet oder bei Bedarf in die Quellsysteme zurückgeschrieben werden. Zudem passt sich das Data Warehouse automatisch an Veränderungen in der IT-Landschaft und im Nutzerverhalten an, was Unternehmen, die Data Virtuality einsetzen, ein Höchstmaß an Flexibilität und Schnelligkeit bei minimalem Verwaltungsaufwand ermöglicht. Gegründet im Jahr 2012, vor 7 Jahren von Dr. Nick Golovin, mit Büros in Leipzig, Frankfurt am Main und San Francisco, ist das Unternehmen aus einer Forschungsinitiative des Lehrstuhls für Informatik der Universität Leipzig hervorgegangen und wird vom Technologiegründerfonds Sachsen (TGFS) und dem High Tech Gründerfonds (HTGF) finanziert. Darüber hinaus wurde Data Virtuality 2016 für Gartner und 2017 für Forrester Research Inc. ausgezeichnet.

Data Virtuality's Datenintegrationslösungen ermöglichen detaillierte Einblicke in Echtzeit und historische Daten mit jedem BI-Tool. Durch die Kombination von Datenvirtualisierung mit einer automatisierten ETL-Engine profitieren Kunden davon, dass sie ihren Datenintegrationsaufwand um 80% reduzieren und sich auf ihr Kerngeschäft konzentrieren können. Es bietet agile Datenintegration für Data Champions.

Data Virtuality Logical Data Warehouse

Das Logical Data Warehouse von Data Virtuality löst eine große Herausforderung für Unternehmen aller Branchen: angesichts der ständig wachsenden Vielfalt an Daten und Cloud Diensten, haben Unternehmen Schwierigkeiten, detaillierte Analysen durchzuführen und Erkenntnisse aus Echtzeit und persistenten Daten zu gewinnen.

Data Virtuality Logical Data Warehouse kombiniert zwei verschiedene Technologien zu einer völlig neuen Art der Datenintegration. Die Kombination von Datenvirtualisierung und ETL der nächsten Generation ermöglicht eine agile Dateninfrastruktur mit hoher Performance.

Es verbindet alle Datenquellen mit jedem Business Intelligence oder Analysetool. Die Software greift auf beliebige Datenbanken und Cloud Services zu, verwaltet und integriert diese. Durch die Kombination von Datenvirtualisierung und ETL Prozessen ist Data Virtuality die einzige Lösung, die komplexe Analysen hochflexibel und mit minimalem Aufwand ermöglicht und gleichzeitig verkürzt. Und das alles nur mit der SQL-Sprache.

 

 

Features

  • 100% Projekt Erfolgsquote
  • Einheitliche SQL Sprache
  • Komplette Einrichtung in nur 1 Tag
  • Agile Dateninfrastruktur
  • Echtzeit-Daten
  • Daten Abfragen
  • Daten Schreiben

Erfahren Sie mehr über Data Virtuality Logical Data Warehouse unter folgendem Link:

https://datavirtuality.de/plattform/logical-data-warehouse/

Data Virtuality Pipes Und Pipes Professional

Pipes ist eine Cloud Datenintegrationslösung, die Ihre Business Intelligence Tools mit wichtigen Daten versorgt. Mit Pipes können Sie Daten aus mehreren Datenbanken und APIs in nur 5 Minuten in jedes Data Warehouse integrieren. Es ist kein Coding oder Pflege von APIs erforderlich.

Pipes: ist eine Self Service Datenpipeline Lösung mit mehr als 60 vorkonfigurierten Konnektoren.

Pipes Professional: ist eine Managed Data Pipeline Lösung mit mehr als 200 vorkonfigurierten Konnektoren.

 

 

Features

  • Schelle Installierung
  • Gebaut für Big Data
  • Sichere Verbindung
  • EU und US Hosting
  • Vorkonfigurierte Templates
  • Zugriff auf Rohdaten
  • Verwaltetes Schema
  • Volle Kontrolle

Erfahre mehr über Data Virtuality Pipes und Pipes Professional unter folgendem Link:

https://datavirtuality.de/plattform/pipes/

USE CASES

Ein modernes Data Warehouse

Das Logical Data Warehouse ist unverzichtbar für Unternehmen, die Big Data und Data Warehousing kombinieren wollen.

Ein virtueller Data Mart

Ein Logical Data Warehouse macht es einfach, einen virtuellen Data Mart zu erstellen. Durch die Kombination der primären Dateninfrastruktur eines Unternehmens mit zusätzlichen Datenquellen, die für datengesteuerte Geschäftseinheiten relevant sind, können Initiativen schneller vorankommen, als wenn die Daten in ein traditionelles Warehouse integriert werden müssten.

Ein sich entwickelndes Unternehmen

Moderne Datenintegration ermöglicht es schnell verändernden Organisationen, Daten aus unterschiedlichen Geschäftsbereichen schnell zu kombinieren und dem Management BI und Analysetransparenz zu bieten. Diese Art von Flexibilität ist entscheidend für strategische Veränderungen, Fusionen und Übernahmen und andere sensible Vorgänge, bei denen keine Zeit für den Aufbau eines zentralen Data Warehouses verloren geht.

E-Commerce

Die moderne Datenintegration bietet eine überzeugende Lösung für E-Commerce und Handelsunternehmen mit einer Vielzahl unterschiedlicher Systeme in der IT Landschaft. Ein Beispiel: Ein typisches E-Commerce Unternehmen hat ein ERP System, CRM, Web und Mobile Anwendungen, E-Mail Analyseprogramme, Online Marketing, Social Media Marketing und andere Tools. Mit einem Logical Data Warehouse lassen sich alle diese Datenquellen schnell und flexibel zu 360-Grad-Ansichten von Kunden, Produkten etc. zusammenführen.

Digitales Marketing

Digitales Marketing ist extrem datengesteuert und basiert auf dem volatilen Fluss von Echtzeitdaten. Ein Logical Data Warehouse bietet den einzigen Weg, Komplexität dieser Art zu managen, indem es sich mit digitalen Marketing-Datenanbietern für Affiliate Marketing, Performance Marketing, Personalisierung und anderen Ansätzen verbindet.

Daten prozessfähig machen

Moderne Datenintegrationsmethoden gehen noch einen Schritt weiter, indem sie die Daten prozessfähig machen. Zusätzlich zum Empfang der Daten in eine Richtung zur Analyse, kann ein Benutzer Daten zurückgeben oder im wesentlichen Aktionen, basierend auf den Daten, auslösen. Beispielsweise kann die Lösung Daten aus ERP, CRM und einem Webshop gleichzeitig analysieren, um E-Mail Marketingkampagnen unabhängig von den üblichen Geschäftszeiten zu triggern.

Echtzeit Analyse

Das Logical Data Warehouse zeichnet sich durch die Manipulation von Echtzeitdaten aus und kann die Daten flexibel modellieren und neue Daten modellieren, um sie an die aktuellsten analytischen Initiativen anzupassen.

Big Data integrieren

Die Open Source Lösung Hadoop für Big Data kann unstrukturierte Daten analysieren und Batch Analysen durchführen, ist aber in interaktiven Situationen schlecht. Um Echtzeitfunktionalität zu erreichen, müssen Unternehmen das traditionelle Data Warehouse mit modernen Big Data Tools kombinieren, oft auch mit mehreren, wie z. B. einem Oracle Warehouse mit Hadoop und Greenplum. Die Zusammenführung dieser Datenquellen in einer gemeinsamen Ansicht bietet sofortigen Zugriff auf eine 360-Grad-Ansicht Ihres Unternehmens.

WAS UNSERE KUNDEN ÜBER UNS SAGEN?

"Wir konnten unsere Aufwände bei der Integration von Daten um 80% senken. Dadurch können wir mehr Zeit mit der Lösung von Business-Problemen verbringen, anstatt in der technischen Implementierung festzustecken", Carly Kaufman, Manager of Data Services, Craftsy.

"Vor Data Virtuality mussten wir händisch Daten aus unseren verschiedenen Datenquellen extrahieren und irgendwie in Excel zusammenschustern. Jetzt können wir jederzeit auf alle Daten zugreifen, automatisiert in unser Data Warehouse importieren und Reports für jeden zugänglich machen", Ivo Fritzsche, Senior Manager Business Intelligence, Juniqe.

"Wir haben unser Datenmanagement sowie die Qualität unserer Daten deutlich verbessert und Zeit für uns selbst gewonnen: Jetzt können wir uns darauf konzentrieren, intelligentere Algorithmen zu entwickeln, unsere Auswertungen zu verbessern und den Entscheidungsprozess zu verbessern", Jochen Missel, CMO, Epetworld.

"Data Virtuality bringt uns das, was wir gebraucht haben: mit einem Tool, in einer Sprache (SQL), alle Datenquellen anzusprechen", Wytze Kempenaar, Leiter BI, Apologistics GmbH.

"Mit Data Virtuality haben wir Zugriff auf eine Vielzahl an Konnektoren, die wir nicht selbst entwickeln müssen. Dadurch haben wir eine super Basis, die sehr schnell adaptierbar ist", so Bastian Kneissl, Geschäftsführer der Mapcase Media GmbH.

Der Beginn von Data Virtuality GmbH

Nick war zu der Zeit bei Koch Media, als das Unternehmen seine Geschäftseinheiten digitalisierte. Unterschiedlichste Datenquellen zu zentralisieren und zentral abrufbar zu machen, funktionierte nicht mit der Geschwindigkeit, die von den Geschäftseinheiten gefordert war. Nick fand: das In-House Entwickeln war zu langsam, Daten-Integrationstools zu unflexibel. In jedem Unternehmen gibt es einen Datenverantwortlichen wie Nick, mit der gleichen Herausforderung, die hoffnungslos erscheint.

Und zu guter Letzt

Jedes Unternehmen der Welt, unabhängig von seiner Größe, verfügt über eine riesige Datenmenge. Aber diese Daten haben keine Bedeutung ohne ein leistungsfähiges Tool, dass sie bereinigen und für die Analyse zugänglich machen kann. ETL Tools der nächsten Generation sind der Verkehrspolizist für Business Intelligence Anwendungen. Sie steuern den Datenfluss zwischen unzähligen Quellsystemen und BI Anwendungen. Da das Datenmanagement immer komplexer wird, müssen sich auch die Datenintegrationstools ändern, um Schritt halten zu können.

Also, worauf warten Sie noch? Nutzen Sie Ihre Daten so schnell wie möglich mit den Lösungen der nächsten Generation von Data Virtuality.

Nehmen Sie Kontakt mit uns auf, um Ihre 14 tägige kostenlose Testversion von Data Virtuality Pipes durchzuführen oder machen Sie einen Termin für eine Demo mit uns aus, um mehr über Data Virtuality Pipes zu erfahren.

Wenn Sie weitere Fragen haben, zögern Sie nicht, uns unter der folgenden E-Mail Adresse zu kontaktieren:

info@datavirtuality.com

Wir freuen uns darauf, von Ihnen zu hören!

WEITERE INTERESSANTE ARTIKEL UND GUIDES AUF ENGLISCH FINDEN SIE HIER:

Back to resources