Wie Sie File und Cloudera Impala joinen

Lerne, wie man File in Cloudera Impala integriert,File mit anderen Datenquellen verbindet und ein unternehmensweites Datenmodell aufbaut zur Visualisierung mit Cloudera Impala

Über File

Ein Flat File ist ein Datensatz, der typischerweise auf Host-Rechnersystemen als unstrukturierte Dateien gespeichert ist. Um die Struktur der Daten zu editieren und darauf zuzugreifen, müssen die Dateien zuerst vollständig im Speicher des Computers ausgelesen werden. Die Datei wird nach Abschluss der Datenbankoperationen vollständig in das Host-Dateisystem geschrieben. Flat-Dateien sind oft einfache Text oder Binärdateien.

Über Cloudera Impala

  Cloudera Impala ist ein Abfrageinstrument für Daten aus dem Hadoop-Dateisystem, HBase und Amazon S3, ohne, dass Datenverschiebungen oder -transformationen erforderlich werden. Auch Dateien in den Formaten Apache Avro, Apache Parquet oder LZO werden unterstützt. Cloudera Impala wurde in C++ geschrieben, ist parallelisiert und skalierbar.

Was ist DataVirtuality?

DataVirtuality agiert als zentrale Datendrehscheibe zwischen File und Cloudera Impala. Mit mehr als 150 Konnektoren kann DataVirtuality ganz einfach mit einer großen Vielzahl unterschiedlicher Datenquellen verbunden werden. Die jeweiligen Daten werden zusammengeführt und so aufbereitet, dass Ihr Analyse-Tool sie ohne Reibungsverluste verarbeiten kann. Dabei ist es nebensächlich, ob die Daten strukturiert oder unstrukturiert sind. Zudem können sie auf Wunsch in Echtzeit ausgewertet werden.

SOFORTIGER ZUGRIFF AUF DATEN

Verbinde über 150+ Datenquellen in Minuten und Frage all deine Daten mit deinen Datenvisualisierungstools ab.

ZENTRALES DATENMODELL

Lege eine einheitliche Definitionen für deine Daten fest und wende diese auf deine Datenvisualisierungstools an - unabhängig von der zugrunde liegenden Datenquelle.

ALLE ABFRAGEN IN SQL

Mit DataVirtuality kannst du alle Datenquellen mit SQL abfragen. Egal ob NoSQL, CSV oder XML File: Wir transformieren jede verbundene Datenquelle in SQL.

ECHTZEIT-REPORTING

DataVirtuality steuert den Austausch von Daten zwischen allen Datenbanken, Cloudservices und Analyse-Tools, damit jeder in deinem Unternehmen die Informationen erhält, die er braucht.